【自然语言处理五-注意力其他--多头注意力&位置编码等】

自然语言处理五-self attention的其他问题(多头注意力&位置编码)等

之前用四篇博客说明了注意力以及自注意力的运作流程,下面来介绍剩余点。

多头注意力、位置编码

多头注意力 multi-head attention

单头的注意力是这样的:

而多头的矩阵是这样的:

也就是说我们由输入生成的q k v矩阵是多组,上面的图就显示2头注意力的示意图。

多头注意力的意义是什么?

事物之间的关系,往往不止一种,多头就意味着多种不同类型的相关性

多头注意力的运作流程

单头的注意力的过程是这样的:

而多头的注意力,计算注意力分数、softmax等操作都是相同的,只不过会有两次这样的操作,最终每一个输入对应的bi会生成多个,以两头注意力为例子:

第一次生成bi,1,第二次生成bi,2,下面是示例了生成bi,2的过程:

而注意力层最终的输出是将(bi,1,bi,2)又做了一次矩阵乘法

整体注意力层对外的输出 的bi就整合了多头(bi,1,bi,2)的信息了。

位置编码postion encoding

前面讲的自注意力其实缺少了一部分,没有任何关于位置的信息。

但是在自然语言处理领域,位置信息有时候很重要,比如词性识别的时候,动词在开头的概率一般很小。因此self attention中又加入了位置信息编码:

postion encoding,具体的做法就是在输入加上一个位置信息向量ei,Q K V的信息中就包括了位置的信息,如下图:

这个ei的生成有多重方法:

1.transformer论文中 用sin和cos的函数

2.手动设置

3.其他。在其他的论文中还有很多种做法

相关推荐
马***4117 小时前
适配成人英语学习痛点,打造落地性强的学习辅助方式
人工智能·学习
夜焱辰7 小时前
浏览器端 Agent 的文件版本管理:不用 Git,基于 OPFS + SQLite 自己造了一个
前端·人工智能
Ricky05537 小时前
CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)
人工智能·机器人·世界模型
jeffer_liu7 小时前
Spring AI 生产级实战:工具调用
java·人工智能·后端·spring·ai编程
阿乔外贸日记7 小时前
2026尼日利亚五项清关政策更新,拉高能源装备进口综合成本
大数据·人工智能·搜索引擎·智能手机·云计算·能源
民乐团扒谱机8 小时前
【AI笔记】短时纯音时长对音高感知偏移效应研究综述
人工智能·笔记
侃谈科技圈8 小时前
破除数据中台落地困境:2026数据治理平台差异化能力与选型决策指南
大数据·人工智能
大象说8 小时前
Python多进程共享队列无报错僵死 120G Nginx访问日志清洗踩坑全记录
人工智能·自然语言处理
Cosolar8 小时前
AutoGen 精通教程:从零到企业级多 Agent 系统架构师
人工智能·后端·面试
甲维斯8 小时前
Claude Code 省钱小妙招!200K和自动压缩
人工智能