向vllm部署的qwen3服务发送请求时禁用thinking模式

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{

"model": "Qwen/Qwen3-8B",

"messages": [

{"role": "user", "content": "Give me a short introduction to large language models."}

],

"temperature": 0.7,

"top_p": 0.8,

"top_k": 20,

"max_tokens": 8192,

"presence_penalty": 1.5,

"chat_template_kwargs": {"enable_thinking": false}

}'

参考链接

相关推荐
张忠琳13 小时前
【openclaw】OpenClaw Daemon 模块超深度架构分析
ai·架构·vllm
Shining059615 小时前
QEMU 编译开发环境搭建
人工智能·语言模型·自然语言处理·云原生·qemu·vllm·华为昇腾
张忠琳2 天前
【vllm】vLLM v1 Core — 系统级架构深度分析(四)
ai·架构·vllm
张忠琳2 天前
【vllm】 vLLM v1 Engine — 系统级架构深度分析(三)
ai·架构·vllm
张忠琳2 天前
【vllm】vLLM v1 Worker — 系统级架构深度分析(二)
ai·架构·vllm
张忠琳2 天前
【vllm】vLLM v1 Executor — 系统级架构深度分析(五)
ai·架构·vllm
nix.gnehc2 天前
大模型全流程入门解析——从理论基础到推理落地
llm·推理·vllm·sglang
Only you, only you!2 天前
Openclaw本地部署,开启养龙虾模式
人工智能·vllm·gent
cooldream20093 天前
vLLM 大规模推理部署全攻略-以Qwen3-8B为例
vllm·qwen3
运维 小白4 天前
2. vLLM多机单卡+open claw部署
运维·ai·vllm