Bert的Transformer原理

多义词如何应对：

答：通过Self attention，不同的上下文，对同一个"苹果"，得到截然不同的embedding激活值；

Multi-head的作用：

有些类似CNN里用的多个卷积核得到多个Channel的特征图；

从不同的角度去看，每个head侧重不同的特征维度，注意力放在和当前词在某些视角上相似的上下文词。

Attention是矩阵运算：

：对Q或K的特征维度，进行开平方。因为分子是多个乘积加和到一起，方差变大了，除以这个d是为了将方差复原。

模型定义：

d_model是Input和Output的维度；

（如果用了Group-MHA，则k和v的矩阵列数会减少N倍，减少了参数量、计算量、kv-cache量）

Attention:

query的维度顺序：(batch, head, seq_len, feature-dimention)

key经过转置之后：(batch, head, feature-dimention, seq_len)

PyTorch的@矩阵乘法，是对最里面2个维度构成的矩阵，进行的矩阵乘法。

query和key乘完之后：(batch, head, seq_len, seq_len)

前向计算：

注意：入参q,k,v，在Self-attention计算时，都是本句子tokens的上游激活；在Cross-attention计算时，只有q是本句子tokens的上游激活，k和v都是encoder句子tokens的对应层的；

乘完各自的变换矩阵W之后，query、key、value的维度都是:

(batch, seq_len, all-feature-dimention)

经过多头注意力划分，得到:

(batch, seq_len, head, per-head-feature-dimention)

对中间2个维度进行转置，得到：

(batch, head, seq_len, per-head-feature-dimention)

经过Attention计算完成之后，又将中间两个维度转置回来，相当于将所有head的矩阵concat到一起了；

LayerNormalization:

注意，是对每个token，其所有特征维度，进行标准化。

是可学习的，维度是hidden-size的维度；

残差层：

好处：在层数多的网络里，有一条直达捷径，可以让梯度直接传到到前面；解决了梯度消失问题；

全连接FFN层：

2个矩阵乘法，中间的激活的维度d_ff，可以不等于输入和输出的维度d_model；

2个矩阵乘法之间，有ReLU和Dropout

Position Embedding:

i是第几维度的特征；t是token所在句子中的位置；

i小的时候，w接近1，值随t的变化大；

i大的时候，w接近0，值随t的变化小；

特性1：句子再长，也能拿到位置编码向量；

特性2：两个token之间，保持一定的距离，无论他俩在句子中的什么位置，2个token的位置编码的点乘，都是不变的：

代码：

Decoder的Masked Self-attention:

Decoder侧，每个token只能把句子左侧和自己的token，参与计算；

代码：

softmax之前，将mask的维度，赋予极小负数，e的x次方接近0，softmax之后，该维度的值就接近0；

Decoder的Cross-Attention:

代码：

Self-Attention, Q、K、V的输入，都是decoder侧的tokens的上游激活值；

Cross-Attention，Q的输入是decoder侧的，K、V的输入是encoder侧的tokens的对应层的激活值；

（注意：以上激活值，再attention内部，还要乘以各自的W矩阵，才得到Q、K、V）

视频课程：

大模型修炼之道(一): Transformer Attention is all you need_哔哩哔哩_bilibili