LLM 笔记:Speculative Decoding 投机采样

1 基本介绍

  • 投机采样(Speculative Sampling)是一种并行预测多个可能输出,然后快速验证并采纳正确部分的加速策略
    • 在不牺牲输出质量的前提下,减少语言模型生成 token 所需的时间
  • 传统的语言模型生成是 串行
    • 必须生成一个,再输入到模型中,才能生成下一个
  • 投机采样的核心思想是
    • 用一个"小模型"提前生成多个候选 token(投机结果),然后用"大模型"一起验证这批候选,并行加速

2 举例

  • 比如已有 prompt 是:"The weather today is"
  • 小模型(Draft Model)快速生成多个候选 token
    • 例如预测出:"The weather today is sunny, and, warm, with, ..." 共 5 个 token
  • 大模型(Target Model)验证这些 token
    • 大模型并行地计算这 5 个 token 的概率;

    • 如果小模型的结果和大模型的前几个 token 一致(大模型在这个token上概率小于小模型的,即小模型"更有把握"),就"采纳"它;如果中途发现不一致,就在那个位置停止,用大模型重新生成。

      • 那么下一轮:
相关推荐
乘~风9 小时前
408考研-计组-1.2计算机系统层次结构笔记+1.3计算机性能指标
笔记·考研·408
.千余9 小时前
【C++】C++继承入门(下):友元、静态成员与菱形继承的底层逻辑
开发语言·c++·笔记·学习·其他
LeeAmos111 小时前
Addendum No. 1 to JESD209-4 Low Power Double Data Rate 4X (LPDDR4X)的中文版
笔记
Ab_stupid14 小时前
CTF-WEB培训笔记
笔记·web
逸模14 小时前
逸模 VS CAD+SU系列(二)施工图:告别手动改图,全专业图纸自动生成
笔记·其他·cad·su·施工图
Ab_stupid14 小时前
CTF-Android培训笔记
android·笔记
chushiyunen14 小时前
高斯数据库笔记、gaussDb
数据库·笔记
小杰~14 小时前
【个人笔记】VuePress Theme Plume 主题全解析 + 快速上手教程
笔记
whyTeaFo14 小时前
MIT 6.1810: xv6 book Chapter7: Locking 笔记
笔记
数智工坊16 小时前
周志华《Machine Learning》学习笔记--第十五章--规则学习
笔记·学习·机器学习