【NLP】MHA、MQA、GQA机制的区别

Note

  • LLama2的注意力机制使用了GQA。三种机制的图如下:

MHA机制(Multi-head Attention)

MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA机制(Multi-Query Attention)

MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。

GQA机制(Grouped-Query Attention)

GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。若GQA-H具有与头数相等的组,则其等效于MHA。GQA介于MHA和MQA之间。GQA机制,多头共用 KV Cache。

Reference

1\] [一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA](https://blog.csdn.net/v_july_v/article/details/134228287) \[2\] [Transformer系列:注意力机制的优化,MQA和GQA原理简述](https://www.jianshu.com/p/c7b40d8526dd) \[3\] [Navigating the Attention Landscape: MHA, MQA, and GQA Decoded](https://iamshobhitagarwal.medium.com/navigating-the-attention-landscape-mha-mqa-and-gqa-decoded-288217d0a7d1)

相关推荐
CoderJia程序员甲12 小时前
GitHub 热榜项目 - 日榜(2025-11-15)
ai·开源·大模型·github·ai教程
喜欢吃豆17 小时前
LangChain v1.0 技术研究报告:架构范式向智能体中间件与图运行时的演进
中间件·架构·langchain·大模型
AI人工智能+18 小时前
文档抽取技术:通过OCR、NLP和机器学习技术,将非结构化的合同、发票等文档转化为结构化数据
人工智能·计算机视觉·nlp·ocr·文档抽取
合合技术团队1 天前
论文解读-对话中的多模态情感识别综述
大数据·人工智能·算法·大模型·多模态
iioSnail1 天前
Spring Boot 集成 Spring AI:实现可被大模型调用的 MCP Server
spring boot·大模型·llm·mcp
KG_LLM图谱增强大模型2 天前
Vgent:基于图的多模态检索推理增强生成框架GraphRAG,突破长视频理解瓶颈
大数据·人工智能·算法·大模型·知识图谱·多模态
Thexhy2 天前
Java大模型后端开发全流程指南
java·ai·大模型
哥本哈士奇(aspnetx)2 天前
利用AI Agent,辅助销售团队制定培训和考试内容
大模型
九年义务漏网鲨鱼2 天前
【Agentic RL 专题】五、深入浅出Reasoning and Acting (ReAct)
前端·react.js·大模型·智能体
武子康2 天前
AI研究-129 Qwen2.5-Omni-7B 要点:显存、上下文、并发与成本
人工智能·深度学习·机器学习·ai·大模型·qwen·全模态