【NLP】MHA、MQA、GQA机制的区别

Note

  • LLama2的注意力机制使用了GQA。三种机制的图如下:

MHA机制(Multi-head Attention)

MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA机制(Multi-Query Attention)

MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。

GQA机制(Grouped-Query Attention)

GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。若GQA-H具有与头数相等的组,则其等效于MHA。GQA介于MHA和MQA之间。GQA机制,多头共用 KV Cache。

Reference

1\] [一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA](https://blog.csdn.net/v_july_v/article/details/134228287) \[2\] [Transformer系列:注意力机制的优化,MQA和GQA原理简述](https://www.jianshu.com/p/c7b40d8526dd) \[3\] [Navigating the Attention Landscape: MHA, MQA, and GQA Decoded](https://iamshobhitagarwal.medium.com/navigating-the-attention-landscape-mha-mqa-and-gqa-decoded-288217d0a7d1)

相关推荐
林泽毅5 小时前
Mac训练大模型:MLX-LM框架LoRA训练Qwen3并集成SwanLab进行可视化
人工智能·深度学习·macos·机器学习·大模型·模型训练
数据智能老司机7 小时前
精通文本分析——自然语言处理导论
python·nlp
MisterZhang66621 小时前
Java使用apache.commons.math3的DBSCAN实现自动聚类
java·人工智能·机器学习·自然语言处理·nlp·聚类
强哥之神1 天前
一文读懂:用PyTorch从零搭建一个Transformer模型
pytorch·深度学习·语言模型·大模型·transformer
zhangbaolin1 天前
open webui源码分析13-模型管理
大模型·open webui
陈敬雷-充电了么-CEO兼CTO1 天前
深度拆解判别式推荐大模型RankGPT!生成式精排落地提速94.8%,冷启动效果飙升,还解决了传统推荐3大痛点
大数据·人工智能·机器学习·chatgpt·大模型·推荐算法·agi
2501_906519672 天前
NLP:驱动人工智能迈向 “理解” 与 “对话” 的核心引擎
人工智能·nlp
大模型铲屎官2 天前
【数据结构与算法-Day 20】从零到一掌握二叉树:定义、性质、特殊形态与存储结构全解析
人工智能·python·深度学习·二叉树·大模型·计算机组成原理·数据结构与算法
AI人工智能+3 天前
竣工验收备案识别技术:通过AI和OCR实现智能化文档处理,提升效率与准确性,推动建筑行业数字化转型。
人工智能·nlp·ocr·竣工验收备案识别
zhangbaolin3 天前
open webui源码分析11-四个特征之记忆
python·大模型·memory·open webui