LLM 笔记:Speculative Decoding 投机采样

1 基本介绍

  • 投机采样(Speculative Sampling)是一种并行预测多个可能输出,然后快速验证并采纳正确部分的加速策略
    • 在不牺牲输出质量的前提下,减少语言模型生成 token 所需的时间
  • 传统的语言模型生成是 串行
    • 必须生成一个,再输入到模型中,才能生成下一个
  • 投机采样的核心思想是
    • 用一个"小模型"提前生成多个候选 token(投机结果),然后用"大模型"一起验证这批候选,并行加速

2 举例

  • 比如已有 prompt 是:"The weather today is"
  • 小模型(Draft Model)快速生成多个候选 token
    • 例如预测出:"The weather today is [sunny, and, warm, with, ...]" 共 5 个 token
  • 大模型(Target Model)验证这些 token
    • 大模型并行地计算这 5 个 token 的概率;

    • 如果小模型的结果和大模型的前几个 token 一致(大模型在这个token上概率小于小模型的,即小模型"更有把握"),就"采纳"它;如果中途发现不一致,就在那个位置停止,用大模型重新生成。

      • 那么下一轮:
相关推荐
网络工程小王8 小时前
【Transformer架构详解】(学习笔记)
笔记·学习
北风toto8 小时前
前端CSS样式详细笔记
前端·css·笔记
Heartache boy9 小时前
野火STM32_HAL库版课程笔记-手动建立工程模板与CubeMX后续用法(重要)
笔记·stm32·单片机·嵌入式硬件
Ztopcloud极拓云视角13 小时前
Gemini 3.1 Pro vs GPT-5.4 Pro:API成本1/3、性能差多少?选型实测笔记
人工智能·笔记·gpt·ai·语言模型
鱼鳞_16 小时前
Java学习笔记_Day22
java·笔记·学习
自小吃多17 小时前
TMC220X芯片 串口工具连接交互
笔记·嵌入式硬件
ZhiqianXia18 小时前
PyTorch学习笔记(6) : torch.autograd
pytorch·笔记·学习
网络工程小王18 小时前
【提示词工程和思维链的讲解】学习笔记
人工智能·笔记·学习
后藤十八里18 小时前
极验4消消乐验证码逆向笔记
笔记·爬虫·python
圣光SG19 小时前
项目分析与程序设计 学习笔记
笔记·学习·学习笔记·程序设计·项目分析