多头注意力机制

1、什么是多头注意力机制

从多头注意力的结构图中,貌似这个所谓的多个头就是指多组线性变换,但是并不是,只使用了一组线性变换层,即三个变换张量对 Q、K、V 分别进行线性变换,这些变化不会改变原有张量的尺寸,因此每个变换矩阵都是方阵,得到输出结果后,多头的作用才开始显现,每一个头开始从词义层面分割输出的张量,也就是每一个头都先获得一组 Q、K、V进行注意力机制的计算,但是句子中的每个词的表示只获得一部分,也就是只分割了最后一维的词嵌入向量,这就是所谓的多头,将每个头获取的输入送到注意力机制中就形成了多头注意力机制。

2、多头注意力机制结构图

3、多头注意力机制的作用

这种结构的设计能让每个注意力机制去优化每个词汇的不同特征部分,从而均衡同一种注意力机制可能产生的偏差,让词义拥有来自多元的表达,实验表名可以从而提升模型效果

相关推荐
尘觉1 天前
OpenClaw 入门:本地 AI 助手架构、功能与使用场景说明(2026-3月最新版)
人工智能·架构·openclaw
weixin_446260851 天前
win11本地部署openclaw实操第9集-配置 OpenClaw 连接本地模型参数
人工智能
人工智能AI技术1 天前
一人公司(OPC)神器:用C#+OpenClaw搭建7×24自动接单系统,单机实现百万营收闭环
人工智能
yiyu07161 天前
3分钟搞懂深度学习AI:实操篇:ResNet
人工智能·深度学习
啊巴矲1 天前
小白从零开始勇闯人工智能:bert自然语言框架(2)
人工智能·深度学习·bert
冬奇Lab1 天前
一天一个开源项目(第49篇):Anything to NotebookLM - 多源内容智能处理器,一句话变播客、PPT、思维导图、Quiz
人工智能·开源·资讯
南极星10051 天前
视觉项目(k230+opencv+yolo)--云台实时追踪项目
人工智能·opencv·yolo
放下华子我只抽RuiKe51 天前
AI大模型开发-实战精讲:从零构建 RFM 会员价值模型(进阶挑战版)
人工智能·深度学习·算法·机器学习·数据挖掘·数据分析·聚类
新科技事物1 天前
AI编曲软件帮原创音乐人,用清唱歌词的音频快速做出专业的歌曲编曲伴奏
人工智能·音视频