【自然语言处理五-注意力其他--多头注意力&位置编码等】

y_dd2024-03-03 7:04

之前用四篇博客说明了注意力以及自注意力的运作流程，下面来介绍剩余点。

多头注意力、位置编码

多头注意力 multi-head attention

单头的注意力是这样的：

而多头的矩阵是这样的：

也就是说我们由输入生成的q k v矩阵是多组，上面的图就显示2头注意力的示意图。

事物之间的关系，往往不止一种，多头就意味着多种不同类型的相关性

单头的注意力的过程是这样的：

而多头的注意力，计算注意力分数、softmax等操作都是相同的，只不过会有两次这样的操作，最终每一个输入对应的bⁱ会生成多个，以两头注意力为例子：

第一次生成b^i,1，第二次生成b^i,2,下面是示例了生成b^i,2的过程：

而注意力层最终的输出是将(b^i,1,b^i,2)又做了一次矩阵乘法

整体注意力层对外的输出 的bⁱ就整合了多头(b^i,1,b^i,2)的信息了。

前面讲的自注意力其实缺少了一部分，没有任何关于位置的信息。

但是在自然语言处理领域，位置信息有时候很重要，比如词性识别的时候，动词在开头的概率一般很小。因此self attention中又加入了位置信息编码：

postion encoding，具体的做法就是在输入加上一个位置信息向量eⁱ，Q K V的信息中就包括了位置的信息，如下图：

这个eⁱ的生成有多重方法：

1.transformer论文中用sin和cos的函数

2.手动设置

3.其他。在其他的论文中还有很多种做法