向vllm部署的qwen3服务发送请求时禁用thinking模式

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{

"model": "Qwen/Qwen3-8B",

"messages": [

{"role": "user", "content": "Give me a short introduction to large language models."}

],

"temperature": 0.7,

"top_p": 0.8,

"top_k": 20,

"max_tokens": 8192,

"presence_penalty": 1.5,

"chat_template_kwargs": {"enable_thinking": false}

}'

参考链接

相关推荐
做个文艺程序员2 天前
vLLM 部署大模型推理服务完全教程:吞吐量是 Ollama 的 10 倍,生产环境首选
vllm·vllm教程
liuyunshengsir2 天前
LMCache + vLLM 部署指南(以 Qwen3-0.6B 为例)
vllm
诸葛老刘2 天前
在PC机上 使用docker vLLM镜像部署Qwen3-1.7B
docker·vllm
Soonyang Zhang3 天前
vllm分析(二)——http request的入口处理
人工智能·vllm·推理框架
xyhshen3 天前
如何两台atlas-a2服务器物理机,基于vllm-ascend部署qwen3.5 397b-w8a8-mtp大模型
vllm
zadyd3 天前
vLLM Linux 双卡部署大模型服务器指南
linux·人工智能·python·机器学习·vllm
是Dream呀10 天前
从零到一:Triton实现CELU激活函数优化之路
ai·vllm·openclaw
花间相见11 天前
【大模型推理01】—— 初探VLLM:高性能LLM推理引擎,让开源模型跑起来更快更省
开源·vllm
Flying pigs~~11 天前
大模型训练框架 ➕ 推理部署框架
模型训练·deepspeed·vllm·模型推理·zero·pageattention