面试-解码技术Decoding

1 概述


Next Token: 从生成的概率分布里面选择唯一Token。如何选择,则涉及Decoding技术。

2 Greedy Decoding

  • 优点: 简单易实现、计算量少,速度快;
  • 缺点: 缺乏多样性,无法回溯其他选择、容易陷入局部最优 (错过整体概率更高的句子)、容易陷入重复循环、不通顺


Beam Search的核心步骤:

好处: 能够求得整体序列的概率值,解决了重复循环不通顺陷入局部最优 这几个问题。
缺点: 无法及时 Decoding,耗时更长。
概述: 每一步的Token -> 整体序列的Token。


3 Top-K 采样

概述: Top-K采样是随机采样的一种优化策略。每个时间步,只保留概率最高的k个Token ,让模型只在这k个候选里进行随机抽取。与贪心解码(相当于k=1)相比,更能避免一味选最热门候选导致的重复或过度保守,也减少了从非常罕见词采样的风险。
例子:


缺点: 合适的 K 值很难定义,K 越大,效果不一定就越好。

4 Top-P 采样

概述:

例子:

5 Temperature 采样

Temperature (温度) 是最常与 Top-k / Top-p 一起使用的另一个调控参数。它通过对 logits 值进行缩放,改变分布的 "尖锐度" 或 "平坦度" 。令模型输出的 logits 向量为 z ,则普通 softmax 概率是:

相关推荐
简简单单做算法19 小时前
基于GA遗传优化的Transformer-LSTM网络模型的时间序列预测算法matlab性能仿真
深度学习·matlab·lstm·transformer·时间序列预测·ga遗传优化·电池剩余寿命预测
龙文浩_20 小时前
AI中NLP的文本张量表示方法在自然语言处理中的演进与应用
人工智能·pytorch·深度学习·神经网络·自然语言处理
极光代码工作室21 小时前
基于BERT的新闻文本分类系统
深度学习·nlp·bert·文本分类
XINVRY-FPGA21 小时前
XC7VX690T-2FFG1157I Xilinx AMD Virtex-7 FPGA
arm开发·人工智能·嵌入式硬件·深度学习·fpga开发·硬件工程·fpga
AI视觉网奇1 天前
生成GeoGebra
人工智能·深度学习
古希腊掌管代码的神THU1 天前
【清华代码熊】图解 Gemma 4 架构设计细节
人工智能·深度学习·自然语言处理
Purple Coder1 天前
7-RNN 循环网络层
人工智能·rnn·深度学习
大写的z先生1 天前
【深度学习 | 论文精读】Qwen-VL:从“纯文本”到“火眼金睛”,通向多模态大模型的进阶之路
人工智能·深度学习
workflower1 天前
深度学习是通用型人工智能的基础
人工智能·深度学习·设计模式·软件工程·软件构建·制造
卡梅德生物科技小能手1 天前
CD40LG(CD40配体)靶点深度解析:免疫调控机制与抗体药物工程化策略
经验分享·深度学习·生活