技术栈

向vllm部署的qwen3服务发送请求时禁用thinking模式

知福致福2026-03-31 15:34

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{

"model": "Qwen/Qwen3-8B",

"messages": [

{"role": "user", "content": "Give me a short introduction to large language models."}

],

"temperature": 0.7,

"top_p": 0.8,

"top_k": 20,

"max_tokens": 8192,

"presence_penalty": 1.5,

"chat_template_kwargs": {"enable_thinking": false}

}'

参考链接

上一篇:IIC数据检查
相关推荐
做个文艺程序员
9 小时前
vLLM 部署避坑全记录:从显存 OOM 到推理延迟优化
人工智能·vllm
weixin_44626085
9 小时前
wsl安装vllm日记
vllm
陕西小伙伴网络科技有限公司
3 天前
AMD显卡运行qwen3.5-使用VLLM
vllm
柯南小海盗
4 天前
大模型GPU选型与部署资源评估完全指南:从RTX 4090到H20,从vLLM到SGLang
语言模型·vllm·sglang
daoboker
4 天前
vllm自动化压测脚本
vllm
YoanAILab
4 天前
AI 推理系统架构怎么选?图像生成与文本生成的分层选型思路(ComfyUI / Dify / vLLM / Triton)
人工智能·系统架构·comfyui·dify·vllm·ai工程
NeilNiu
5 天前
本地部署Ollama及部署模型
vllm
Forrit
5 天前
关于vLLM框架
vllm
SunnyRivers
5 天前
快速理解vLLM命令行工具serve
命令行·serve·vllm
热门推荐
012026年3月AI领域大事件:DeepSeek引领开源风暴02GitHub 镜像站点03围棋-html版本04纯 HTML/CSS/JS 实现的高颜值登录页,还会眨眼睛!少女心爆棚!05“wsl --install -d Ubuntu-22.04”下载慢,中国地区离线安装 Ubuntu 22.04 WSL方法(亲测2025年5月6日)06OpenClaw 使用和管理 MCP 完全指南07安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)08Mac 本地部署 OMLX + 通义千问 Qwen3.5-27B 保姆级教程09班级宠物园部署指南10UV安装并设置国内源