LLM 笔记：Speculative Decoding 投机采样

UQI-LIUWJ2025-06-08 7:07

1 基本介绍

投机采样（Speculative Sampling）是一种并行预测多个可能输出，然后快速验证并采纳正确部分的加速策略
- 在不牺牲输出质量的前提下，减少语言模型生成 token 所需的时间
传统的语言模型生成是串行的
- 必须生成一个，再输入到模型中，才能生成下一个
投机采样的核心思想是
- 用一个"小模型"提前生成多个候选 token（投机结果），然后用"大模型"一起验证这批候选，并行加速。

2 举例

比如已有 prompt 是："The weather today is"
小模型（Draft Model）快速生成多个候选 token
- 例如预测出："The weather today is $sunny, and, warm, with, ...$ " 共 5 个 token
大模型（Target Model）验证这些 token
- 大模型并行地计算这 5 个 token 的概率；
- 如果小模型的结果和大模型的前几个 token 一致（大模型在这个token上概率小于小模型的，即小模型"更有把握"），就"采纳"它；如果中途发现不一致，就在那个位置停止，用大模型重新生成。
- - 那么下一轮：

上一篇：mariadb5.5.56在centos7.6环境安装

下一篇：UDP 与 TCP 调用接口的差异：面试高频问题解析与实战总结

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 09【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？