LLM 笔记:Speculative Decoding 投机采样

1 基本介绍

  • 投机采样(Speculative Sampling)是一种并行预测多个可能输出,然后快速验证并采纳正确部分的加速策略
    • 在不牺牲输出质量的前提下,减少语言模型生成 token 所需的时间
  • 传统的语言模型生成是 串行
    • 必须生成一个,再输入到模型中,才能生成下一个
  • 投机采样的核心思想是
    • 用一个"小模型"提前生成多个候选 token(投机结果),然后用"大模型"一起验证这批候选,并行加速

2 举例

  • 比如已有 prompt 是:"The weather today is"
  • 小模型(Draft Model)快速生成多个候选 token
    • 例如预测出:"The weather today is [sunny, and, warm, with, ...]" 共 5 个 token
  • 大模型(Target Model)验证这些 token
    • 大模型并行地计算这 5 个 token 的概率;

    • 如果小模型的结果和大模型的前几个 token 一致(大模型在这个token上概率小于小模型的,即小模型"更有把握"),就"采纳"它;如果中途发现不一致,就在那个位置停止,用大模型重新生成。

      • 那么下一轮:
相关推荐
Magnetic_h16 分钟前
【iOS】锁的原理
笔记·学习·macos·ios·objective-c·cocoa·xcode
Olrookie17 分钟前
ruoyi-vue(十一)——代码生成
笔记·后端
yuxb731 小时前
Ansible 学习笔记:变量事实管理、任务控制与文件部署
linux·运维·笔记
鸢栀w1 小时前
前端css学习笔记7:各种居中布局&空白问题
前端·css·笔记·学习·尚硅谷网课
之歆2 小时前
大模型微调分布式训练-大模型压缩训练(知识蒸馏)-大模型推理部署(分布式推理与量化部署)-大模型评估测试(OpenCompass)
人工智能·笔记·python
十行代码九行报错3 小时前
Docker基础学习笔记
笔记·学习·docker
所愿ღ8 小时前
JavaWeb-Servlet基础
笔记·servlet
岑梓铭9 小时前
考研408《计算机组成原理》复习笔记,第五章(2)——CPU指令执行过程
笔记·考研·408·计算机组成原理·计组
oe101912 小时前
读From GPT-2 to gpt-oss: Analyzing the Architectural Advances(续)
笔记·gpt·学习
Include everything16 小时前
Rust学习笔记(三)|所有权机制 Ownership
笔记·学习·rust