【自然语言处理五-注意力其他--多头注意力&位置编码等】

自然语言处理五-self attention的其他问题(多头注意力&位置编码)等

之前用四篇博客说明了注意力以及自注意力的运作流程,下面来介绍剩余点。

多头注意力、位置编码

多头注意力 multi-head attention

单头的注意力是这样的:

而多头的矩阵是这样的:

也就是说我们由输入生成的q k v矩阵是多组,上面的图就显示2头注意力的示意图。

多头注意力的意义是什么?

事物之间的关系,往往不止一种,多头就意味着多种不同类型的相关性

多头注意力的运作流程

单头的注意力的过程是这样的:

而多头的注意力,计算注意力分数、softmax等操作都是相同的,只不过会有两次这样的操作,最终每一个输入对应的bi会生成多个,以两头注意力为例子:

第一次生成bi,1,第二次生成bi,2,下面是示例了生成bi,2的过程:

而注意力层最终的输出是将(bi,1,bi,2)又做了一次矩阵乘法

整体注意力层对外的输出 的bi就整合了多头(bi,1,bi,2)的信息了。

位置编码postion encoding

前面讲的自注意力其实缺少了一部分,没有任何关于位置的信息。

但是在自然语言处理领域,位置信息有时候很重要,比如词性识别的时候,动词在开头的概率一般很小。因此self attention中又加入了位置信息编码:

postion encoding,具体的做法就是在输入加上一个位置信息向量ei,Q K V的信息中就包括了位置的信息,如下图:

这个ei的生成有多重方法:

1.transformer论文中 用sin和cos的函数

2.手动设置

3.其他。在其他的论文中还有很多种做法

相关推荐
没有梦想的咸鱼185-1037-16636 分钟前
【降尺度】基于统计方法与机器学习技术在气候降尺度中的实践应用
人工智能·机器学习·数据分析
skyfengye7 分钟前
DC2T:用于半监督跨站点持续分割的解缠引导整合与一致性训练
人工智能·计算机视觉
九河云14 分钟前
华为云能源行业云边协同:构筑新能源电站智能运维新基座
人工智能·华为云·数字化转型
SkyPhy - 格物智慧17 分钟前
英伟达收购SchedMD深度解析:完成AI基础设施垂直整合的最后一块拼图
人工智能
这张生成的图像能检测吗20 分钟前
(论文速读)RoShuNet:一个轻量级的基于卷积神经网络的可见图像特征提取器
人工智能·深度学习·计算机视觉·语义分割·目标追踪·分类模型
ApiHug22 分钟前
智能采购新革命:真惠采——让工业品采购降本增效双突破
大数据·人工智能
得贤招聘官34 分钟前
告别“感觉选人”:AI重构招聘的效率、精准与体验闭环
人工智能·重构
Jerryhut36 分钟前
Opencv总结2——图像金字塔与轮廓检测
人工智能·opencv·计算机视觉
数字孪生家族37 分钟前
视频+数字孪生技术在隧道智慧综合管控平台中的典型应用
人工智能·视频孪生技术·智慧隧道建设·数字孪生交通·空间智能应用
dulu~dulu41 分钟前
机器学习题目总结(二)
人工智能·机器学习·支持向量机·聚类·集成学习·降维·贝叶斯分类器