LLM 笔记:Speculative Decoding 投机采样

1 基本介绍

  • 投机采样(Speculative Sampling)是一种并行预测多个可能输出,然后快速验证并采纳正确部分的加速策略
    • 在不牺牲输出质量的前提下,减少语言模型生成 token 所需的时间
  • 传统的语言模型生成是 串行
    • 必须生成一个,再输入到模型中,才能生成下一个
  • 投机采样的核心思想是
    • 用一个"小模型"提前生成多个候选 token(投机结果),然后用"大模型"一起验证这批候选,并行加速

2 举例

  • 比如已有 prompt 是:"The weather today is"
  • 小模型(Draft Model)快速生成多个候选 token
    • 例如预测出:"The weather today is [sunny, and, warm, with, ...]" 共 5 个 token
  • 大模型(Target Model)验证这些 token
    • 大模型并行地计算这 5 个 token 的概率;

    • 如果小模型的结果和大模型的前几个 token 一致(大模型在这个token上概率小于小模型的,即小模型"更有把握"),就"采纳"它;如果中途发现不一致,就在那个位置停止,用大模型重新生成。

      • 那么下一轮:
相关推荐
做cv的小昊7 小时前
【TJU】信息检索与分析课程笔记和练习(7)数据库检索—Ei
数据库·笔记·学习·全文检索
Chris_12197 小时前
Halcon学习笔记-Day6:工业视觉高级技术应用与实战项目
笔记·学习·halcon
AI视觉网奇9 小时前
audio2face mh_arkit_mapping_pose_A2F 不兼容
笔记·ue5
wdfk_prog9 小时前
[Linux]学习笔记系列 -- [fs]super
linux·笔记·学习
日更嵌入式的打工仔10 小时前
单片机基础知识:内狗外狗/软狗硬狗
笔记·单片机
KhalilRuan10 小时前
数据结构与算法-笔记
笔记
KhalilRuan12 小时前
秋招笔记汇总
笔记
laplace012312 小时前
Part3 RAG文档切分
笔记·python·中间件·langchain·rag
被遗忘的旋律.12 小时前
Linux驱动开发笔记(二十三)—— regmap
linux·驱动开发·笔记
技术宅学长13 小时前
关于CLS与mean_pooling的一些笔记
人工智能·pytorch·笔记·pycharm