Transformer(课程笔记)

一:Motivation

RNN需要顺序的执行,不利于并行计算。

RNN的变体例如GRU、LSTM等需要依靠注意力机制解决信息瓶颈等问题。

抛弃RNN结构,提出了Transformer结构。

Transformer整体架构

二: 输入层(BPE,PE)

BPE:Byte Pair Encoding

解决OOV(out of vocabulary)问题。

PE:Positional Encoding

因为与RNN不同的是Transformer不能通过对文本处理的先后顺序来建模每个单词的位置关系,因此在输入的enbedding上加入一个位置编码


三:Encoder Block

每一个Encoder Block包含两个子层:

  • Multi-Head Attention多头注意力层;
  • Feed-Forward Network两层的ML。

两个tricks:

  • 残差连接;
  • Layer normalization:将输入的向量变成均值为0方差为1的分布,缓解梯度消失和梯度爆炸的问题。
  1. Attention Layer介绍:

Dot-Product Attention:与RNN中的注意力机制不同,使用了QKV三个向量。

文章使用的是Scaled Dot-Product Attention:

如果不使用Scaled,QK的方差会随着dk的增加而变大,从而进行softmax后概率分布会变得很尖锐,有些位置会很接近1,有些位置很接近0。结果会使得梯度越来越小,不利于参数的更新。

除以一个根号dk后可以保持方差为1。

**为什么叫自注意力:**让token自主选择关注哪些token。因为QKV实际上同一个的向量,都来自于文本的表示向量,这样就没法进行学习了。因此是使用不同的Liner层把QKV映射到不同的空间,学习的是每个Liner层各自的权重。

**多头注意力机制:**将QKV使用多组Liner层进行映射,计算注意力的输出,然后对各组计算结果进行拼接,然后通过线性层整合,就得到了多头注意力机制输出结果。
四:Decoder Block

跟Encoder比有两个变换:

1.第一个Attention Layer加了Masked操作,为了让预测当前词时不能看后面的词,因此把QK相乘后的矩阵上三角部分变为负无穷大,然后负无穷大经过softmax后=0。

2.第二个Attention Layer:Query向量来自于上一个Attention的输出,而Key和Value来自于Encoder最后一层的输出(我的理解是:这里的最后一层输出能够表示输入所有的信息的原因是用了多头注意力机制然后进行了整合,而RNN中单使用最后一层输出是不可行的,会出现信息瓶颈的问题的,不知道是不是这样理解)。


五:优缺点

1.优点:

  • 在NLP任务中有很好的效果
  • 适合并行计算
  • 能够建模token和token之间的关系
  • 成为了预训练模型的主要框架

2.缺点

  • 优化过程困难
  • 文本长度为n,复杂度为n方,不适合输入过长的文本

参考课程: 【【全748集】清华大佬终于把AI大模型(LLM)讲清楚了!通俗易懂,2024最新内部版!拿走不谢,学不会我退出IT圈!】https://www.bilibili.com/video/BV1rS411F735?p=31\&vd_source=30a18e1c6984e8eeef0cf4461d1f03e9

相关推荐
xian_wwq42 分钟前
【学习笔记】边缘智能(Edge Intelligence):如何实现“就地决策”的方法
笔记·学习·边缘智能
我登哥MVP42 分钟前
HTML-CSS-JS-入门学习笔记
javascript·css·笔记·学习·html
不太可爱的叶某人1 小时前
【学习笔记】kafka权威指南——第8章 跨集群数据镜像(7-10章只做了解)
笔记·学习·kafka
wdfk_prog1 小时前
[Linux]学习笔记系列 -- lib/timerqueue.c Timer Queue Management 高精度定时器的有序数据结构
linux·c语言·数据结构·笔记·单片机·学习·安全
wdfk_prog3 小时前
构建基于Hexo、Butterfly、GitHub与Cloudflare的高性能个人博客
笔记·学习·github·hexo·blog
初级炼丹师(爱说实话版)3 小时前
MySql速成笔记6(DQL多表)
笔记
小秋学嵌入式-不读研版3 小时前
C61-结构体数组
c语言·开发语言·数据结构·笔记·算法
PKNLP3 小时前
深度学习之神经网络2(Neural Network)
人工智能·深度学习·神经网络
丰锋ff4 小时前
2013 年真题配套词汇单词笔记(考研真相)
笔记·学习·考研
小小程序媛(*^▽^*)4 小时前
第十二届全国社会媒体处理大会笔记
人工智能·笔记·学习·ai