大模型中的注意力机制——MHA、GQA、MQA

注意力机制是Transformer模型的核心组件。考虑到注意力机制的计算效率问题,研究人员也进行了许多研究。代表的就是以下三种模式:

MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。

GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。若GQA-H具有与头数相等的组,则其等效于MHA。

显然,GQA介于MHA和MQA之间。下图展示了他们的具体结构:

相关推荐
CCC:CarCrazeCurator7 小时前
Diffusion Transformer(DiT):原理、与 U-Net 对比及在视频生成中的深度应用
人工智能·音视频·transformer
RockHopper20257 小时前
智能体的《目的论》模型
人工智能·llm·智能体
冰西瓜6008 小时前
深度学习的数学原理(四十)—— Transformer 推理全过程
人工智能·深度学习·transformer
XLYcmy8 小时前
面向Agent权限系统的快速审计工具
python·网络安全·ai·llm·飞书·agent·字节跳动
Akirweiwen8 小时前
约束显化:通过意图协议将 LLM 不可突破边界转化为机器可读契约
llm·schema·design system
jiayong238 小时前
AI架构师面试问题与解答 - 深度学习架构篇
人工智能·深度学习
是馒头阿8 小时前
95、仇恨与爱
深度学习·神经网络·脑机接口·神经同步采集与刺激平台·植入式脑机接口
逻辑君9 小时前
Foresight研究报告【20260014】
人工智能·深度学习
YOLO数据集集合9 小时前
低空林业巡检数据集|生态监测树木识别|深度学习树种分类数据集
人工智能·深度学习·yolo·目标检测·分类·无人机
cesske9 小时前
机器学习模型评估指标|准确率、召回率、F1详解
人工智能·深度学习·机器学习·模型评估·召回率·准确率