vLLM 的“投机取巧”:Speculative Decoding 如何加速大语言模型推理

什么是 Speculative Decoding?

简单来说,Speculative Decoding 就是让"小模型先猜,大模型来验证"

传统语言模型是一个 token 一个 token 地生成,这种逐步采样方式在大模型上非常慢。而投机采样的流程如下:

  1. 草稿模型(Draft Model):使用一个小模型快速生成一批"候选 token"。

  2. 主模型(Target Model):用大模型并行验证这些 token,检查是否匹配其预测。

  3. 对齐则接受,错了则回退:如果草稿部分预测正确,就省去大模型逐个生成的时间。

这一策略显著减少了大模型的推理步骤,大幅提升了吞吐量和响应速度。

为什么能加速?

因为大语言模型最耗时的部分就是每一步 token 的推理和上下文缓存管理。而投机采样允许多个 token 批量处理,减少了 GPU kernel 启动、KV Cache 写入等重复操作。

根据 OpenAI 和其他团队的测试,Speculative Decoding 可带来 1.5x ~ 2.5x 的加速效果,在某些配置下甚至更多。

vLLM 中的 Speculative Decoding 是如何实现的?

vLLM 从 v0.3 开始支持 Speculative Decoding,并且通过一个简单的命令行参数就可以启用它。

启动示例

假设你希望用一个 13B 的大模型推理,同时用 7B 的小模型作为草稿模型,命令如下:

复制代码
python3 -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-2-13b-chat-hf \
  --speculative_model mistralai/Mistral-7B-Instruct-v0.2

只需加一个参数 --speculative_model,vLLM 就会自动启用投机采样机制。

请求示例:OpenAI 兼容 API

vLLM 提供 OpenAI API 接口,我们可以用标准的 openai 库直接请求:

python 复制代码
import openai

openai.api_key = "EMPTY"
openai.api_base = "http://localhost:8000/v1"

response = openai.ChatCompletion.create(
    model="meta-llama/Llama-2-13b-chat-hf",
    messages=[{"role": "user", "content": "用通俗语言解释 speculative decoding 是什么?"}]
)

print(response.choices[0].message["content"])

你无需在请求中设置任何特殊参数,vLLM 会自动使用 Speculative Decoding,只要你在服务端配置了草稿模型。

注意事项

项目 要求
草稿模型和主模型需 tokenizer 兼容 最好是相似架构(如 LLaMA 系列)
草稿模型必须小于主模型 否则没有加速效果,可能更慢
FlashAttention + Speculative 一起使用更快 vLLM 默认启用 FlashAttention
当前仅支持推理,不适用于训练 Speculative decoding 是一种推理时优化策略

总结

Speculative Decoding 是 vLLM 中的一项"投机取巧"的优化技术,让小模型打前站,大模型精准确认,从而实现大幅推理提速。

如果你正在部署 LLM 推理服务,尤其是在 GPU 资源紧张或延迟要求高的场景中,Speculative Decoding 将是你值得尝试的一项加速利器。

延伸阅读

相关推荐
说了很好4 小时前
PyTorch从零搭建DDPM:时间嵌入+UNet网络+扩散调度完整复现
人工智能
Bigfish_coding4 小时前
前端转agent-【python】-06 长期记忆(向量数据库 + 嵌入)
人工智能
小林ixn4 小时前
别再手写Prompt了!用AI Loop实现自动化自我迭代,效率提升10倍
人工智能·自动化运维
说了很好4 小时前
逐行注释DDPM源码:正向加噪、逆向去噪、MSE损失全流程复现
人工智能
Dilee4 小时前
Spring AI 1.1.7 接入 MCP:Filesystem Server 最小 Demo
人工智能·后端
Token炼金师4 小时前
大模型推理超参数原理详解
人工智能
Token炼金师4 小时前
大模型训练超参数:从Loss曲面到收敛策略的底层逻辑
人工智能
后端小肥肠4 小时前
Skill 囤了一堆却用不起来?我用 Codex 写了个整理神器
人工智能·agent
魏祖潇4 小时前
从"会聊天"到"能干活":用 OpenCode 给自己找个 AI 搭子
人工智能
子兮曰4 小时前
AI Coding Method Map:一张图看懂 AI 编程的完整链路
前端·人工智能·后端