多头注意力机制

1、什么是多头注意力机制

从多头注意力的结构图中,貌似这个所谓的多个头就是指多组线性变换,但是并不是,只使用了一组线性变换层,即三个变换张量对 Q、K、V 分别进行线性变换,这些变化不会改变原有张量的尺寸,因此每个变换矩阵都是方阵,得到输出结果后,多头的作用才开始显现,每一个头开始从词义层面分割输出的张量,也就是每一个头都先获得一组 Q、K、V进行注意力机制的计算,但是句子中的每个词的表示只获得一部分,也就是只分割了最后一维的词嵌入向量,这就是所谓的多头,将每个头获取的输入送到注意力机制中就形成了多头注意力机制。

2、多头注意力机制结构图

3、多头注意力机制的作用

这种结构的设计能让每个注意力机制去优化每个词汇的不同特征部分,从而均衡同一种注意力机制可能产生的偏差,让词义拥有来自多元的表达,实验表名可以从而提升模型效果

相关推荐
音视频牛哥1 小时前
SmartMediakit在四足机器人和无人机巡检中的创新应用方案
人工智能·机器学习·计算机视觉
致Great1 小时前
推理大模型的后训练增强技术-强化学习篇
人工智能·llm
致Great1 小时前
关于DeepResearch设计实现的碎碎念
人工智能·llm
致Great1 小时前
推理大模型的后训练增强技术--LLM 推理模型的现状
人工智能·llm
致Great1 小时前
大语言模型对软件工程师的影响曲线
人工智能·llm
AI Echoes1 小时前
大语言模型(LLM)的微调与应用
人工智能·语言模型·自然语言处理
Python测试之道2 小时前
Camel AI Owl + 阿里云QWQ 本地部署
人工智能·阿里云·云计算
訾博ZiBo2 小时前
AI日报 - 2025年3月13日
人工智能
音视频牛哥2 小时前
如何在Python下实现摄像头|屏幕|AI视觉算法数据的RTMP直播推送
人工智能·opencv·计算机视觉