GQA（Grouped Query Attention）：分组注意力机制的原理与实践《一》

GQA（Grouped Query Attention ）是近年来在大语言模型中广泛应用的一种注意力机制优化方法，最初由 Google 在 2023 年提出。它是对 Multi-Query Attention (MQA) 的扩展，旨在平衡模型性能与计算效率。

GQA 是一种将查询头（Query Heads）分组，并共享键（Key）和值（Value）头的注意力机制变体。

它试图在 标准的多头注意力（MHA） 和 多查询注意力（MQA） 之间找到一个折中点：

注意力类型	Query Heads	Key/Value Heads	共享情况
MHA	多个	多个	不共享
GQA	多个	少于 Query 的多个	分组共享
MQA	多个	1	完全共享

在标准的 Transformer 中：

公式如下：

Q = X W Q , K = X W K , V = X W V Q = XW_Q, \quad K = XW_K, \quad V = XW_V Q=XWQ,K=XWK,V=XWV

其中 $W_Q, W_K, W_V$ 是可学习参数。

每个 head 的 Q/K/V 是从这些矩阵中切出来的。

在 GQA 中：

例如：

这样做的好处是：

优势	描述
✅ 推理速度更快	更少的 Key/Value 向量意味着更小的 KV Cache，减少解码时的内存访问延迟
✅ 内存占用更低	特别是在批量生成或长文本生成时，KV Cache 占用显著降低
✅ 比 MQA 表现更好	相比完全共享 Key/Value 的 MQA，GQA 保留了部分多样性，模型表现通常更优
✅ 适合部署	对硬件资源友好，特别适合在有限算力设备上运行的大模型

Llama 3 使用了 GQA 技术来提升推理效率。

这意味着：

这样可以保持大部分 MHA 的表达能力，同时节省内存和计算开销。

GQA 特别适用于以下场景：