【自然语言处理五-注意力其他--多头注意力&位置编码等】

自然语言处理五-self attention的其他问题(多头注意力&位置编码)等

之前用四篇博客说明了注意力以及自注意力的运作流程,下面来介绍剩余点。

多头注意力、位置编码

多头注意力 multi-head attention

单头的注意力是这样的:

而多头的矩阵是这样的:

也就是说我们由输入生成的q k v矩阵是多组,上面的图就显示2头注意力的示意图。

多头注意力的意义是什么?

事物之间的关系,往往不止一种,多头就意味着多种不同类型的相关性

多头注意力的运作流程

单头的注意力的过程是这样的:

而多头的注意力,计算注意力分数、softmax等操作都是相同的,只不过会有两次这样的操作,最终每一个输入对应的bi会生成多个,以两头注意力为例子:

第一次生成bi,1,第二次生成bi,2,下面是示例了生成bi,2的过程:

而注意力层最终的输出是将(bi,1,bi,2)又做了一次矩阵乘法

整体注意力层对外的输出 的bi就整合了多头(bi,1,bi,2)的信息了。

位置编码postion encoding

前面讲的自注意力其实缺少了一部分,没有任何关于位置的信息。

但是在自然语言处理领域,位置信息有时候很重要,比如词性识别的时候,动词在开头的概率一般很小。因此self attention中又加入了位置信息编码:

postion encoding,具体的做法就是在输入加上一个位置信息向量ei,Q K V的信息中就包括了位置的信息,如下图:

这个ei的生成有多重方法:

1.transformer论文中 用sin和cos的函数

2.手动设置

3.其他。在其他的论文中还有很多种做法

相关推荐
来让爷抱一个8 小时前
MonkeyCode 多模型切换技巧:什么时候用 Claude/GPT/DeepSeek
人工智能·ai编程
李白你好8 小时前
AI Agent 架构的自动化渗透测试工具
运维·人工智能·自动化
2601_949499948 小时前
8 大工业光模块供应商选型:芯瑞科技 400G OSFP 助力 AI 算力集群升级
人工智能·科技
温柔只给梦中人8 小时前
NLP学习:注意力机制
人工智能·学习·自然语言处理
广州灵眸科技有限公司8 小时前
瑞芯微RV1126B开发板(EASY-EAI-PI2) Easy-Eai编译环境准备与更新
服务器·前端·人工智能·python·深度学习
深度学习lover8 小时前
<数据集>yolo樱桃识别<目标检测>
人工智能·深度学习·yolo·目标检测·计算机视觉·数据集·樱桃识别
深圳市机智人激光雷达9 小时前
技术筑牢安全冗余:激光雷达在自动驾驶高阶感知中的底层价值与范式演进
人工智能·安全·机器学习·3d·机器人·自动驾驶·无人机
江澎涌9 小时前
拆解与 AI 的一次对话
人工智能·算法·程序员
lqqjuly9 小时前
神经架构搜索深度解析(Neural Architecture Search, NAS)
人工智能·知识图谱
AI刀刀9 小时前
Kimi 保存 pdf 显示该页的尺寸超出范围令人困扰,AI 导出鸭一键修复参数,导出 PDF 更顺畅
人工智能·pdf·ai导出鸭