Transformer模型-5-Multi-Head Attention

上图红色圈中的部分为 Multi-Head Attention ，是由多个Self-Attention组成的，虽然Encoder与Decoder中都有Multi-Head Attention，但他们略有区别。Encoder block包含一个 Multi-Head Attention，而Decoder block包含两个 Multi-Head Attention。

Decoder block包含两个 Multi-Head Attention，其中第一层的多头注意力用到Masked，第二层其数据组成则是由 Encoder输出数据的3/4直接送入( Encoder输出的另外1/4数据入了Add&Norm层) 再加上由Decoder的Outputs进入的经Token Embedding和Position Enbedding计算后得的向量，经过第一层多头注意力后的数据

注意力

Attention函数可以描述为将query和一组key-value对映射到输出，其中query、key、value和输出都是向量。输出为value的加权和，其中分配给每个value的权重通过query与相应key的兼容函数来计算。

------ 来自(www.yiyibooks.cn/yiyibooks/A...

QKV的理解

在《Attention is all you need》论文中首次提出Transformer时构建了三个辅助向量QKV。而所谓QKV也就是Q(Query 查询)，K(Key 键值)，V(Value 实际的特征信息)。他们本质上是代表了三个独立的矩阵，都是我们原本的序列X做了不同的线性变换之后的结果，都可以作为X的代表。简单的可理解成：

如下图所示：

多头注意力

什么是多头注意力

所谓多头，是分别将线性的变换之后的QKV切分为H份，然后对每一份进行后续的self-attention操作。最后再连接并做线性回归产生输出。如下图：

观察上图的多头注意力结构的中间的Scaled Dot-Product Attention(点积自注意力)，我们可以把拆为理解为高维向量被拆分为H分低维向量，并在H个低维空间里求解各自的self-Attention。

多头注意力的理解

代码层面: 把原始的维度切成H份，假如h=8(切成8份)，每份则为512/8=64。在每个64维做相关度(即相乘)计算
原理层面: 把原来在一个高维空间里衡量一个文本的任意两个字之间的相关度，变成了在8维空间里去分别衡量任意两个字的相关度的变化

工作原理

QKV获取

经过position embedding 与 word embedding 计算后得到的向量x进入Encoder，经过3次线性变化之后，得到QKV，如下图：

获取每个字都形成`512/H`维度的信息

一个完整的数据矩阵, 经过计算得到QKV之后，分别获取三个(batch_size)维向量矩阵(下图右侧第一列），再次水平切分矩阵为(seq_len * 512维的信息) 数据(如下图右侧第二列)按，按字按维度切成H份(如最右侧的第三列)。再然后，计算一个字的维度。即将一个字分成H分，每一份为512/H维信息，那么一个完整的字一共有512/H维度的信息(transformer中h=8)。

在H维空间中矩阵拆变如下：

csharp 复制代码

1  [batch-size、seq-len、dim]
2  [batch_size, seq_len, h, dim/h]
3
4  ---举例---
5  [1024,  5,     512  ]
6  [1024,  5,  8, 512/8]

在H个子维度里计算任意两个字的盯关度

每个字的第1头和其他字的第一头分别相乘

比如 "我" 字，按h=8拆分，得64(512/8) 维的信息。接下来再把我字的第一个64维度的信息分别和其他字的第一个64维的信息进行向量相乘。如果相乘的结果越大代表两个向量相似度接高，越小两个向量的相似度越低。如下图，右侧说明一个序列的第1个字的64维分别与其他字的第一个64维的向量相乘（对于我要吃汉堡，一共是5个字，对应右侧的5个图，从左到向，从上一下：我想吃汉堡）。