深度学习·经典模型·Transformer

用于博主复习

Transformer

Encoder

  • 输入和输出维度不变
  • 输入维度: ( n , d m o d e l ) (n,d_{model}) (n,dmodel),d m o d e l d_{model} dmodel一般是512,是embedding后的维度
  • 输出维度: ( n , d m o d e l ) (n,d_{model}) (n,dmodel)

自注意力层

注意力分为自注意力交叉注意力

Q,K,V

  • Q,K,V的含义不需要特别分清楚

V在自注意力和交叉注意力中的来源不同

  • Q: ( n , d m o d e l ) (n,d_{model}) (n,dmodel),
  • K: ( n , d m o d e l ) (n,d_{model}) (n,dmodel)
  • V: ( n , d m o d e l ) (n,d_{model}) (n,dmodel):
  • 注:d_model一般都为512,三者的d_model可以不同

d k \sqrt{d_k} dk 的作用

To illustrate why the dot products get large, assume that the components of q and k are independent random variables with mean 0 and variance 1. Then their dot product, q · k has mean 0 and variance d_k.

防止过于softmax过于集中,梯度过小(本质上是因为梯度关系)

  • 数学解释 :Q,K的均值为0,方差为1时,QK的均值为0,方差为 d k d_k dk

多头注意力

多头的动机:多头是为了学习不同的线性映射关系

  • 假设头数h=8,会有8个K,Q,V矩阵,维度为 d m o d e l / 8 d_{model}/8 dmodel/8,这些矩阵都是相对独立的,学习到的映射也不尽相同。

本质上是对 d m o d e l d_{model} dmodel特征维度学习的拆分

  • 最后拼接回来形成 ( n , d m o d e l ) (n,d_{model}) (n,dmodel)的输出即可

注意力输出

对原始token特征向量的基于上下文的一个"修正"或者新的映射

  • (QK)与V的乘积反映在特征空间上的加权,特征向量的某些维度(根据注意力权重)对于形成token新的特征向量更加重要?
  • 维度不变

MASKED掩码

只用于decoder中,由于decoder是基于自回归的方式,所以不能让一个t-1时刻的token与t时刻以后的tokens作注意力

  • Transformer掩码计算: s o f t m a x ( Q K T ∗ M A S K E D ) ∗ V softmax(QK^T*MASKED)*V softmax(QKT∗MASKED)∗V

交叉注意力

  • K,V是来自encoder的信息矩阵,Q是来自Decoder的信息矩阵.

显然是根据encoder的信息,对decoder的特征向量进行专属修正

FFN层

原文描述:In addition to attention sub-layers, each of the layers in our encoder and decoder contains a fully connected feed-forward network, which is applied to each position separately and identically. This consists of two linear transformations with a ReLU activation in between

除了注意力子层之外,我们的编码器和解码器中的每个层都包含一个完全连接的前馈网络,该网络分别且相同地应用于每个位置。这包括两个线性转换,中间有一个 ReLU 激活

  • 两个MLP,一个MLP负责放大维度到 4 ∗ d m o d e l 4*d_{model} 4∗dmodel,两一个负责输出回 d m o d e l d_{model} dmodel。

不要忘记:中间有一个GELU作为激活

Add&Norm

  • 残差连接后 ,再归一化

位置编码

位置编码的动机:Transformer没有序列先后顺序这一概念.

位置编码对于Transformer的作用明显,不加会掉点.

模型Workflow

  • 接受两个句子作为输入
  • 根据Softmax自回归输出token.

参考文献

cpp 复制代码
@misc{vaswaniAttentionAllYou2023,
  title = {Attention {{Is All You Need}}},
  author = {Vaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N. and Kaiser, Lukasz and Polosukhin, Illia},
  year = {2023},
  number = {arXiv:1706.03762},
  eprint = {1706.03762},
  primaryclass = {cs},
  publisher = {arXiv},
  doi = {10.48550/arXiv.1706.03762},
  archiveprefix = {arXiv}
}
相关推荐
AI新兵26 分钟前
AI大事记12:Transformer 架构——重塑 NLP 的革命性技术(上)
人工智能·自然语言处理·transformer
Dongsheng_20191 小时前
【汽车篇】AI深度学习在汽车零部件外观检测——刹车片中的应用
人工智能·汽车
LONGZETECH1 小时前
【龙泽科技】汽车转向悬架与制动安全系统技术1+X仿真教学软件(1.2.3 -初级)
人工智能·科技·汽车·汽车仿真教学软件·汽车教学软件
JAVA学习通1 小时前
PostgreSQL 的 hstore、arrays 数据类型
人工智能·自然语言处理
材料科学研究2 小时前
掌握PINN:从理论到实战的神经网络进阶!!
深度学习·神经网络·pinn
B站计算机毕业设计之家2 小时前
多模态项目:Python人脸表情系统 CNN算法 神经网络+Adaboost定位+PyQt5界面 源码+文档 深度学习实战✅
python·深度学习·神经网络·opencv·yolo·计算机视觉·情绪识别
AKAMAI2 小时前
云成本困境:开支激增正阻碍欧洲AI创新
人工智能·云原生·云计算
大模型真好玩2 小时前
LangGraph实战项目:从零手搓DeepResearch(一)——DeepResearch应用体系详细介绍
人工智能·python·mcp
IT古董2 小时前
【第五章:计算机视觉-项目实战之生成式算法实战:扩散模型】3.生成式算法实战:扩散模型-(4)在新数据集上微调现有扩散模型
人工智能
嵌入式-老费3 小时前
Easyx图形库使用(潜力无限的图像处理)
图像处理·人工智能