多头注意力机制

1、什么是多头注意力机制

从多头注意力的结构图中,貌似这个所谓的多个头就是指多组线性变换,但是并不是,只使用了一组线性变换层,即三个变换张量对 Q、K、V 分别进行线性变换,这些变化不会改变原有张量的尺寸,因此每个变换矩阵都是方阵,得到输出结果后,多头的作用才开始显现,每一个头开始从词义层面分割输出的张量,也就是每一个头都先获得一组 Q、K、V进行注意力机制的计算,但是句子中的每个词的表示只获得一部分,也就是只分割了最后一维的词嵌入向量,这就是所谓的多头,将每个头获取的输入送到注意力机制中就形成了多头注意力机制。

2、多头注意力机制结构图

3、多头注意力机制的作用

这种结构的设计能让每个注意力机制去优化每个词汇的不同特征部分,从而均衡同一种注意力机制可能产生的偏差,让词义拥有来自多元的表达,实验表名可以从而提升模型效果

相关推荐
rsuhbsrjms2 分钟前
可视采耳仪器多少钱一台?可视耳勺哪个牌子好?口碑好的可视耳勺
网络·人工智能·算法
Swift社区4 分钟前
AI + 鸿蒙游戏:下一代交互革命
人工智能·游戏·harmonyos
凌波粒4 分钟前
深度学习入门(鱼书)第4章笔记——神经网络的学习
笔记·深度学习·神经网络
羊羊小栈6 分钟前
农业病害知识管理系统(基于前后端Web开发)
前端·人工智能·毕业设计·大作业
Auto FAE进阶之路7 分钟前
基于VS Code+Claude Code搭建你的AI编码助手
人工智能·claude code
机 _ 长7 分钟前
【项目03】基于ResNet实现猫狗识别
人工智能·深度学习
sunneo8 分钟前
S3.3数据虚荣陷阱——关注真正的北极星指标
人工智能·产品运营·产品经理·用户运营·用户体验
yyuuuzz8 分钟前
运维场景中AI模型的常见问题
运维·服务器·人工智能·深度学习·机器学习·云计算·aws
妄想出头的工业炼药师8 分钟前
腿式里程计
人工智能·算法·开源
RSTJ_16258 分钟前
PYTHON+AI LLM DAY SIXTY-FIVE
人工智能