多头注意力机制

1、什么是多头注意力机制

从多头注意力的结构图中,貌似这个所谓的多个头就是指多组线性变换,但是并不是,只使用了一组线性变换层,即三个变换张量对 Q、K、V 分别进行线性变换,这些变化不会改变原有张量的尺寸,因此每个变换矩阵都是方阵,得到输出结果后,多头的作用才开始显现,每一个头开始从词义层面分割输出的张量,也就是每一个头都先获得一组 Q、K、V进行注意力机制的计算,但是句子中的每个词的表示只获得一部分,也就是只分割了最后一维的词嵌入向量,这就是所谓的多头,将每个头获取的输入送到注意力机制中就形成了多头注意力机制。

2、多头注意力机制结构图

3、多头注意力机制的作用

这种结构的设计能让每个注意力机制去优化每个词汇的不同特征部分,从而均衡同一种注意力机制可能产生的偏差,让词义拥有来自多元的表达,实验表名可以从而提升模型效果

相关推荐
企业智能研究2 分钟前
企业如何高效构建BI团队,解锁数据价值新高地?
大数据·数据库·人工智能
我想睡觉2615 分钟前
Python训练营打卡DAY51
开发语言·人工智能·python·深度学习·机器学习
Blossom.1187 分钟前
基于生成对抗网络(GAN)的图像生成与编辑:原理、应用与实践
人工智能·python·深度学习·机器学习·计算机视觉·分类·tensorflow
羑悻的小杀马特8 分钟前
解码 K-Means 聚类:开启数据星河的炫酷聚类新纪元
机器学习·k-means
欧博东方(北京)文化传媒有限公司10 分钟前
2025年AI生成PPT平台推荐榜单:五大智能工具革新演示创作体验
人工智能·powerpoint
Abbylolo11 分钟前
AI助手一键生成专业PPT(Gamma/Genspark/Kimi)
人工智能·powerpoint
海底火旺22 分钟前
从零实现语音合成:基于火山引擎TTS的前端实践
前端·人工智能·react.js
猛犸MAMMOTH27 分钟前
Python打卡第51天
开发语言·python·深度学习
atbigapp.com30 分钟前
告别excel:AI 驱动的数据分析指南
人工智能·数据分析·aigc
只有左边一个小酒窝42 分钟前
(十)量子注意力机制:深度学习与量子计算的交叉融合探索
人工智能·深度学习