【NLP】MHA、MQA、GQA机制的区别

Note

  • LLama2的注意力机制使用了GQA。三种机制的图如下:

MHA机制(Multi-head Attention)

MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA机制(Multi-Query Attention)

MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。

GQA机制(Grouped-Query Attention)

GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。若GQA-H具有与头数相等的组,则其等效于MHA。GQA介于MHA和MQA之间。GQA机制,多头共用 KV Cache。

Reference

1\] [一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA](https://blog.csdn.net/v_july_v/article/details/134228287) \[2\] [Transformer系列:注意力机制的优化,MQA和GQA原理简述](https://www.jianshu.com/p/c7b40d8526dd) \[3\] [Navigating the Attention Landscape: MHA, MQA, and GQA Decoded](https://iamshobhitagarwal.medium.com/navigating-the-attention-landscape-mha-mqa-and-gqa-decoded-288217d0a7d1)

相关推荐
Sherlock Ma3 小时前
基于LightRAG进行本地RAG部署(包括单卡多卡本地模型部署、调用阿里云或DeepSeekAPI的部署方法、RAG使用方法)
人工智能·阿里云·大模型·aigc·检索增强·rag·deepseek
鸿乃江边鸟8 小时前
快速部署大模型 Openwebui + Ollama + deepSeek-R1模型
大模型·deepseek
X.Cristiano18 小时前
智谱开源 9B/32B 系列模型,性价比超 DeepSeek-R1,Z.ai 平台上线
大模型·glm
张高兴20 小时前
张高兴的大模型开发实战:(五)使用 LLaMA Factory 微调与量化模型并部署至 Ollama
python·ai·大模型
兔子的倔强20 小时前
FoundationPose 4090部署 真实场景迁移
大模型·nerf·6d位姿估计
meisongqing1 天前
【大模型】GPT-4、DeepSeek应用与Prompt使用技巧
人工智能·大模型·prompt
耿雨飞2 天前
二、The Power of LLM Function Calling
人工智能·大模型
杀生丸学AI2 天前
【三维重建与生成】GenFusion:SVD统一重建和生成
大模型·llm·aigc·三维重建·稀疏重建·蒸馏与迁移学习·扩散模型与生成模型
程序员洲洲2 天前
3款顶流云电脑与传统电脑性能PK战:START云游戏/无影云/ToDesk云电脑谁更流畅?
ai·大模型·todesk·性能·云电脑·ollama
Nicolas8933 天前
【大模型理论篇】Search-R1: 通过强化学习训练LLM推理与利⽤搜索引擎
大模型·强化学习·深度搜索·r1·深度研究·search-r1·深度检索增强