【自然语言处理五-注意力其他--多头注意力&位置编码等】

自然语言处理五-self attention的其他问题(多头注意力&位置编码)等

之前用四篇博客说明了注意力以及自注意力的运作流程,下面来介绍剩余点。

多头注意力、位置编码

多头注意力 multi-head attention

单头的注意力是这样的:

而多头的矩阵是这样的:

也就是说我们由输入生成的q k v矩阵是多组,上面的图就显示2头注意力的示意图。

多头注意力的意义是什么?

事物之间的关系,往往不止一种,多头就意味着多种不同类型的相关性

多头注意力的运作流程

单头的注意力的过程是这样的:

而多头的注意力,计算注意力分数、softmax等操作都是相同的,只不过会有两次这样的操作,最终每一个输入对应的bi会生成多个,以两头注意力为例子:

第一次生成bi,1,第二次生成bi,2,下面是示例了生成bi,2的过程:

而注意力层最终的输出是将(bi,1,bi,2)又做了一次矩阵乘法

整体注意力层对外的输出 的bi就整合了多头(bi,1,bi,2)的信息了。

位置编码postion encoding

前面讲的自注意力其实缺少了一部分,没有任何关于位置的信息。

但是在自然语言处理领域,位置信息有时候很重要,比如词性识别的时候,动词在开头的概率一般很小。因此self attention中又加入了位置信息编码:

postion encoding,具体的做法就是在输入加上一个位置信息向量ei,Q K V的信息中就包括了位置的信息,如下图:

这个ei的生成有多重方法:

1.transformer论文中 用sin和cos的函数

2.手动设置

3.其他。在其他的论文中还有很多种做法

相关推荐
humors22114 分钟前
AI案例:头脑风暴创作-正反论证-报告撰写-摘要总结
人工智能·ai·写作·总结·案例·论证
HIT_Weston16 分钟前
115、【Agent】【OpenCode】项目配置(SemVer)
人工智能·agent·opencode
Sam092718 分钟前
OpenClaw 和 Hermes 怎么结合:从聊天入口到隔离执行器的 Agent 工程实践
人工智能·ai
沪漂阿龙24 分钟前
LangChain 系列之 Messages:为什么大模型对话不是简单字符串?
人工智能·深度学习·langchain
jiuLives24 分钟前
从 Prompt Engineering 到 Loop Engineering:AI 工程范式的演进
人工智能·prompt
ACP广源盛1392462567325 分钟前
IX7008 PCIe 交换芯片@ACP#RTX Spark 经济型 8 口扩展芯片(对比 ASM1806)
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
SEOETC34 分钟前
GEO:杭州AI优化企业实战指南
人工智能·搜索引擎
大模型任我行35 分钟前
腾讯:原生多模态建模路线图
人工智能·语言模型·自然语言处理·论文笔记
搜移IT科技36 分钟前
工业设备更新行动全面推进,通用设备板块增量空间与受益环节解析
人工智能·科技·生活
lauo40 分钟前
碳基心脏最后的堡垒——ibbot青春版:你的随身Token生产厂
大数据·人工智能·chatgpt·智能手机·ai-native