【NLP】MHA、MQA、GQA机制的区别

Note

  • LLama2的注意力机制使用了GQA。三种机制的图如下:

MHA机制(Multi-head Attention)

MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA机制(Multi-Query Attention)

MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。

GQA机制(Grouped-Query Attention)

GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。若GQA-H具有与头数相等的组,则其等效于MHA。GQA介于MHA和MQA之间。GQA机制,多头共用 KV Cache。

Reference

1\] [一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA](https://blog.csdn.net/v_july_v/article/details/134228287) \[2\] [Transformer系列:注意力机制的优化,MQA和GQA原理简述](https://www.jianshu.com/p/c7b40d8526dd) \[3\] [Navigating the Attention Landscape: MHA, MQA, and GQA Decoded](https://iamshobhitagarwal.medium.com/navigating-the-attention-landscape-mha-mqa-and-gqa-decoded-288217d0a7d1)

相关推荐
渣渣苏11 小时前
NLP从入门到精通
ai·大模型·nlp·lstm·transform
thginWalker11 小时前
AI 应用
大模型
阿正的梦工坊12 小时前
R-Zero:从零数据自进化推理大语言模型
人工智能·算法·语言模型·大模型·llm
后端研发Marion1 天前
【JoyAgent-JDGenie 全栈多智能体系统技术文档】
人工智能·大模型·智能体·langflow·joyagent
后端研发Marion1 天前
【Gemini 3 技术深度解析:架构、性能与生态应用】
ai·大模型·llm·ai编程·gemini3
Study9961 天前
科普专栏|大语言模型:理解与生成语言的人工智能
人工智能·深度学习·机器学习·大模型·agent·大模型微调·大模型应用开发
肥猪猪爸1 天前
TextToSql——Vanna的安装与使用
人工智能·python·算法·机器学习·大模型·ollama·vanna
青衫客361 天前
浅谈 ReCAP(Recursive Context-Aware Reasoning and Planning)——大模型推理与规划的递归范式
大模型·agent·智能体·recap
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2025-12-10)
ai·开源·大模型·github·ai教程
青衫客361 天前
用 LangGraph 从零实现 ReCAP:一个可运行的递归任务规划框架(纯模拟版)
大模型·llm·agent·智能体·recap