面试-解码技术Decoding

1 概述


Next Token: 从生成的概率分布里面选择唯一Token。如何选择,则涉及Decoding技术。

2 Greedy Decoding

  • 优点: 简单易实现、计算量少,速度快;
  • 缺点: 缺乏多样性,无法回溯其他选择、容易陷入局部最优 (错过整体概率更高的句子)、容易陷入重复循环、不通顺


Beam Search的核心步骤:

好处: 能够求得整体序列的概率值,解决了重复循环不通顺陷入局部最优 这几个问题。
缺点: 无法及时 Decoding,耗时更长。
概述: 每一步的Token -> 整体序列的Token。


3 Top-K 采样

概述: Top-K采样是随机采样的一种优化策略。每个时间步,只保留概率最高的k个Token ,让模型只在这k个候选里进行随机抽取。与贪心解码(相当于k=1)相比,更能避免一味选最热门候选导致的重复或过度保守,也减少了从非常罕见词采样的风险。
例子:


缺点: 合适的 K 值很难定义,K 越大,效果不一定就越好。

4 Top-P 采样

概述:

例子:

5 Temperature 采样

Temperature (温度) 是最常与 Top-k / Top-p 一起使用的另一个调控参数。它通过对 logits 值进行缩放,改变分布的 "尖锐度" 或 "平坦度" 。令模型输出的 logits 向量为 z ,则普通 softmax 概率是:

相关推荐
Lihua奏3 天前
从单核到多核:CPU为什么不能再只靠提频变快
深度学习
拾年2753 天前
大模型的"聪明"从哪来?聊聊 AI 数据集的那些事儿
人工智能·深度学习·机器学习
饼干哥哥7 天前
开源Skills|搭建亚马逊动态关键词库系统,每天抓SSS级机会词
人工智能·深度学习·数据分析
武子康9 天前
调查研究-191 SenseVoice 不只是 ASR:把语音从“转文字“升级成“理解状态“
人工智能·深度学习·openai
武子康11 天前
调查研究-189 Kronos 调研:金融 K 线基础模型,是真突破,还是量化圈的新玩具?
人工智能·深度学习·openai
xiao5kou4chang6kai416 天前
MATLAB机器学习、深度学习--从数据预处理到模型训练
深度学习·机器学习·matlab·数据预处理
renhongxia116 天前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi
计算机科研狗@OUC16 天前
(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation
人工智能·深度学习·计算机视觉
β添砖java16 天前
深度学习(22)网络中的网络NiN
人工智能·深度学习
Kobebryant-Manba16 天前
深度学习时候d2l报错和使用问题
人工智能·深度学习