面试-解码技术Decoding

1 概述


Next Token: 从生成的概率分布里面选择唯一Token。如何选择,则涉及Decoding技术。

2 Greedy Decoding

  • 优点: 简单易实现、计算量少,速度快;
  • 缺点: 缺乏多样性,无法回溯其他选择、容易陷入局部最优 (错过整体概率更高的句子)、容易陷入重复循环、不通顺


Beam Search的核心步骤:

好处: 能够求得整体序列的概率值,解决了重复循环不通顺陷入局部最优 这几个问题。
缺点: 无法及时 Decoding,耗时更长。
概述: 每一步的Token -> 整体序列的Token。


3 Top-K 采样

概述: Top-K采样是随机采样的一种优化策略。每个时间步,只保留概率最高的k个Token ,让模型只在这k个候选里进行随机抽取。与贪心解码(相当于k=1)相比,更能避免一味选最热门候选导致的重复或过度保守,也减少了从非常罕见词采样的风险。
例子:


缺点: 合适的 K 值很难定义,K 越大,效果不一定就越好。

4 Top-P 采样

概述:

例子:

5 Temperature 采样

Temperature (温度) 是最常与 Top-k / Top-p 一起使用的另一个调控参数。它通过对 logits 值进行缩放,改变分布的 "尖锐度" 或 "平坦度" 。令模型输出的 logits 向量为 z ,则普通 softmax 概率是:

相关推荐
湘美书院--湘美谈教育20 分钟前
湘美谈教育AI赋能系列经验集锦:学好唐诗宋词的点滴心得体会
大数据·人工智能·深度学习·神经网络·机器学习
卷Java31 分钟前
混合检索让RAG召回率从62%干到89%
深度学习
装不满的克莱因瓶42 分钟前
掌握生成对抗网络(GAN)的优化目标与评估指标——从博弈函数到生成质量衡量体系
人工智能·python·深度学习·算法·机器学习
技术小黑1 小时前
CNN算法实战系列06 | InceptionV1实现猴痘病识别
深度学习·算法·cnn·inceptionv1
王小王-1231 小时前
基于深度学习的景区口碑情感分析可视化系统
人工智能·深度学习·bert·情感分析·关键词提取·主题分析·景区评论分析
装不满的克莱因瓶2 小时前
自然语言处理中的分词——从语言切分到模型输入的第一步
人工智能·pytorch·python·深度学习·ai·自然语言处理
逻辑君2 小时前
认知神经科学研究报告【20260071】
人工智能·深度学习·机器学习·数学建模
zhangfeng11332 小时前
ONNX Runtime 微软的推理引擎 TensorRT,NVIDIA GPU 上的深度学习推理, CUDA Graph
人工智能·深度学习·microsoft
code_pgf3 小时前
改进模型架构来减少MLLMs中的幻觉现象
人工智能·深度学习·算法
发光的小豆芽3 小时前
使用U-Net 做皮肤图像的毛孔检测尝试
深度学习·皮肤检测·u-net