向vllm部署的qwen3服务发送请求时禁用thinking模式

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{

"model": "Qwen/Qwen3-8B",

"messages": [

{"role": "user", "content": "Give me a short introduction to large language models."}

],

"temperature": 0.7,

"top_p": 0.8,

"top_k": 20,

"max_tokens": 8192,

"presence_penalty": 1.5,

"chat_template_kwargs": {"enable_thinking": false}

}'

参考链接

相关推荐
清风lsq2 天前
大模型-vllm 自投机解码可行性分析
vllm·大模型推理
大模型推理2 天前
《Nano-vLLM 源码解读》第 12 篇 · ModelRunner:从 prompt 到 token(二)
vllm
清风lsq3 天前
大模型-解析vllm lora 模块
人工智能·vllm·大模型推理
大模型推理3 天前
《Nano-vLLM 源码解读》第 11 篇 · ModelRunner:从 prompt 到 token
vllm
zhangfeng11334 天前
vLLM + AWQ 是什么,为什么有算力架构要求 为什么v100默认不支持
人工智能·语言模型·显卡·vllm
SpikeKing5 天前
LLM - 支持 Hermes 智能体的 vLLM 部署 Qwen3.5 与 Qwen3.6 方案
llm·vllm·qwen3.5·hermes·qwen3.6
zhojiew5 天前
在Ray集群中使用vLLM部署LLM模型并集成Prometheus和Grafana进行指标观测的实践
grafana·prometheus·vllm
不吃天鹅肉5 天前
PaddleOCR-VL + vLLM 高性能推理实践:踩坑与调优全记录
人工智能·语言模型·svm·vllm
张忠琳5 天前
【vllm】(vllm kv_offload)vLLM V1 KV Offload—(二)核心业务逻辑逐行解析
ai·架构·vllm
张忠琳6 天前
【vllm】(v1 Attention)vLLM V1 Attention—Part1 架构总览与核心调度
ai·架构·vllm