Transformer解析——(四)Decoder

本系列已完结,全部文章地址为:

Transformer解析------(一)概述-CSDN博客

Transformer解析------(二)Attention注意力机制-CSDN博客

Transformer解析------(三)Encoder-CSDN博客

Transformer解析------(四)Decoder-CSDN博客

Transformer解析------(五)代码解析及拓展-CSDN博客

Decoder与Encoder的结构非常类似,下面具体解析。

1 整体结构

与Encoder相比,Decoder增加了一个交叉注意力的模块,其他模块的结构与Encoder类似。

2 Decoder的训练和预测过程

注意,Decoder的训练和预测差别很大。

在训练时,将目标序列(比如在英译中任务里,目标序列就是中文)通过Input Embedding和Positional Encoding后,并行输入到自注意力模块中,注意使用Look Ahead Mask避免训练第i个词时使用了i以后的词。自注意力的输出作为Q,Encoder输出作为K和V,一并输入到交叉注意力模块中,随后经过ResNet等模块,得到最终的输出。

在预测时,交叉注意力模块的K和V依然来自于Encoder,Decoder的输入先从开始标志<BEGIN>开始,输出第一个词后,将<BEGIN>,第一个词合在一起重新输入到Decoder,序贯地输出每一个词,直到输出<END>结束标志位停止。

至于这么设计的原因,可见"Look Ahead Mask"小节。

3 交叉注意力

交叉注意力将Encoder的输出传入Attention作为Key和Value,为什么这么设计呢?因为Decoder在生成目标序列时不止要考虑已生成的序列,还要考虑源序列的信息。正是交叉注意力模块连接了Encoder和Decoder。

通过使用Encoder输出的 K 和 V,Decoder可以知道源序列中哪些部分与当前正在生成的目标位置最相关。例如,在英译汉任务"I want to go to school"中,假设现在已经输出了"我想去",在输出下一个词时,如果只考虑已输出的"我想去",肯定是没法输出学校的。通过将"我想去"与原始序列"I want to go to school"计算Attention,最终识别出和"school"的关注度更高,输出"学校"。交叉注意力机制保证了在翻译每一个中文词时,都需要参考英文原文中的相关内容,以确保翻译的准确性。

4 Look Ahead Mask

在预测时,模型是从左到右的顺序依次生成每个位置的输出的,通过第一个token预测第二个token,通过第一个和第二个token预测第三个token,以此类推,不能提前获取未来位置的信息。因此在训练时,也要遵守同样的行为,否则训练和预测的行为逻辑不一致会影响效果。

就像军事演习时如果每次都提前告知敌人方位,那么真正走上战场就抓瞎了。

在训练时,虽然我们是可以提前获取目标序列的,但是也要人为控制模型在输出某个位置的token时不可以参考后文,防止模型作弊提前得到未来的信息。

在代码实现上,Look Ahead Mask表现为一个上三角矩阵(实际上是方阵),该矩阵右上部分都是1,对角线及左下部分都是0。1代表需要掩盖的位置,0代表不需要掩盖的位置。该矩阵乘一个无穷小的数字,如果矩阵中元素是1,则乘无穷小的数字后将变为无穷小;如果矩阵元素是0,则乘无穷小的数字后将变为0。

该矩阵将叠加到计算好的注意力矩阵,因此在1的位置注意力将是无穷小,在0的位置注意力将不变,从而掩盖了元素是1的位置。与注意力矩阵一样,m行n列元素代表第m个token对第n个token的注意力,比如我们看第3行,前3列都是0,表示它只能利用前3个token(包含自身,因此对角线是0)的信息,第4个token及以后位置都是1。

训练时不需要串行地将目标序列逐个输入到Decoder,而是可以一次性输入全部target,通过Look Ahead Mask控制Decoder的多头注意力不使用未来信息。

以汉译英为例,串行是指先用"<BEGIN>"预测"I",更新权重,然后用"<BEGIN> I"预测"have",以此类推。Transformer是直接将目标输出"<BEGIN> I have a cat <END>"全部输入到Decoder中,并行训练参数。

注意,预测时Transformer并不是并行的,必须等上一个token输出完,再拿着已生成的token预测下一个词。

5 线性输出

将输出线性变换,将词向量维度升格为词汇表维度,便于从词汇表维度中通过概率选词。

6 Temperature温度

Temperature控制了选词的创新性。Temperature即Creativity,温度越大,概率会更加平均,选择次高概率词的可能性更大,多样性大;温度越低,概率最高的词概率将更高,选择次高概率词的可能性更小,多样性小。

具体计算上,在softmax运算前先对样本除以了温度。

原始的softmax公式为

其中z为原始分数,通过softmax将各输出的分数之和固定为1,将分数转化为概率。

修改后的softmax公式为

若T等于1,则等价于原始的softmax;若T>1,则"强者更弱,弱者更强",概率更平滑;若T<1,则"强者更强,弱者更弱",概率更尖锐,更偏向于概率高的结果。

下面简要说明T可以控制概率分布平滑还是尖锐。

可以考虑两个样本1和2,原始分数分别为a和b。a>b,因此样本1与样本2的概率之比为(e^a)/(e^b)=e^(a-b),记为d1。概率之比越大,表示分布越尖锐。比如概率之比是2,则概率分别是66%和33%;概率之比是9,则概率分别是90%和10%。

当除以T后,两个样本的概率之比为e^[(a-b)/T],记为d2。

若T>1,d2<d1,即两样本概率之比缩小,因此概率分布更平滑;

若T=1,d2=d1,即两样本概率之比不变;

若T<1,d2>d1,即两样本概率之比变大,因此概率分布更尖锐。

相关推荐
Jmayday37 分钟前
Pytorch:张量创建及运算
人工智能·pytorch·python
领麦微红外39 分钟前
W-TRS-5.5D1传感器:充电桩的“温度卫士”,解锁安全高效充电新范式
人工智能·安全
SomeB1oody43 分钟前
【Python深度学习】3.4. 循环神经网络(RNN)实战:预测股价
开发语言·人工智能·python·rnn·深度学习·机器学习
ACCELERATOR_LLC1 小时前
【DataWhale组队学习】DIY-LLM Task2 PyTorch 与资源核算
人工智能·pytorch·深度学习·大模型
Elastic 中国社区官方博客1 小时前
Elastic Security、Observability 和 Search 现在在你的 AI 工具中提供交互式 UI
大数据·运维·人工智能·elasticsearch·搜索引擎·安全威胁分析·可用性测试
一碗白开水一1 小时前
【目标跟踪综述】目标跟踪近3年技术研究,全面了解目标跟踪发展
人工智能·计算机视觉·目标跟踪
Promise微笑2 小时前
AI搜索时代的流量重构:GEO优化深度执行细节与把控体系
人工智能·重构
言萧凡_CookieBoty2 小时前
比 Vibe Coding 更可怕的,是 Vibe Design 吧
人工智能·ai编程
Rick19932 小时前
Spring AI 如何进行权限控制
人工智能·python·spring
Theodore_10222 小时前
深度学习(15):倾斜数据集 & 精确率-召回率权衡
人工智能·笔记·深度学习·机器学习·知识图谱