大模型中的注意力机制——MHA、GQA、MQA

注意力机制是Transformer模型的核心组件。考虑到注意力机制的计算效率问题,研究人员也进行了许多研究。代表的就是以下三种模式:

MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。

GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。若GQA-H具有与头数相等的组,则其等效于MHA。

显然,GQA介于MHA和MQA之间。下图展示了他们的具体结构:

相关推荐
code_pgf8 小时前
Qwen2.5-VL 算法解析
人工智能·深度学习·算法·transformer
大模型最新论文速读8 小时前
合成数据的正确打开方式:格式比模型重要,小模型比大模型好用
论文阅读·人工智能·深度学习·机器学习·自然语言处理
菜鸟‍10 小时前
【论文学习】Transformer中的数据流动
深度学习·学习·transformer
昵称小白10 小时前
图像在深度学习里是怎么表示的:像素、通道、tensor、batch(二)
深度学习·batch
阿_旭10 小时前
基于YOLO26深度学习的【辣椒成熟度检测与计数系统】【python源码+Pyqt5界面+数据集+训练代码】
人工智能·python·深度学习·辣椒成熟度检测
高洁0110 小时前
大模型在天文科研中的应用:天体数据分析
人工智能·深度学习·数据挖掘·transformer·知识图谱
白羊by10 小时前
Softmax 激活函数详解:从数学原理到应用场景
网络·人工智能·深度学习·算法·损失函数
-cywen-12 小时前
VAE(Variational AutoEncoder)
人工智能·深度学习
Karl_wei12 小时前
Vide Coding 的基础:LLM 大模型
llm·ai编程·领域驱动设计
Z.风止13 小时前
Large Model-learning(6)
pytorch·深度学习·机器学习