向vllm部署的qwen3服务发送请求时禁用thinking模式

知福致福2026-03-31 15:34

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{

"model": "Qwen/Qwen3-8B",

"messages": [

{"role": "user", "content": "Give me a short introduction to large language models."}

],

"temperature": 0.7,

"top_p": 0.8,

"top_k": 20,

"max_tokens": 8192,

"presence_penalty": 1.5,

"chat_template_kwargs": {"enable_thinking": false}

}'

上一篇：IIC数据检查

下一篇：基于MATLAB的非线性模型预测控制（NMPC）在CSRT系统中的应用

热门推荐

01GitHub 镜像站点 02【AI】2026 年具身智能模型和世界模型总结 03【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 042026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 05Codex 接入 DeepSeek API 完整配置文档 06CC-Switch & Claude 基于 Linux 服务器安装使用指南 07裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 08DeepSeek V4 + Claude Code thinking mode 400 错误修复方案 09几个好用的ip纯净度检测网站 10API Key 登录 Codex 也能用插件了，还支持会话删除和导出