【翻译】现代LLM中注意力变体的可视化指南:从MHA和GQA到MLA、稀疏注意力机制和混合架构 A Visual Guide to Attention Variants in Modern LLMs:From MHA and GQA to MLA, sparse attention, and hybrid architectures
我原本计划写一篇关于 DeepSeek V4 的文章。由于它还没有发布,我利用这段时间做了一件我一直想做的事情,那就是收集、整理和完善我在过去几年中介绍过的各种 LLM 架构。
因此,在过去两周里,我将这项工作转化为一个 LLM 架构展示库(截至撰写本文时已有 45 个项目),其中整合了之前文章中的素材以及一些我尚未记录的重要架构。每个项目都配有一张可视化模型卡片,我计划定期更新展示库。

图 1: LLM 架构图库及其可视化模型卡的概览 。
分享初版后,一些读者询问是否会有海报版本。现在, Redbubble 上推出了海报版本。我订购了中号(26.9 x 23.4 英寸)来测试印刷效果,结果清晰锐利。不过,在这个尺寸下,一些最小的文字元素已经很小了,所以如果您希望所有内容都清晰可读,我不建议选择更小的尺寸。

图 2: 架构图库海报版本,其中包含一些随机物体以显示比例。
我认为在本文中回顾近年来在著名的开放权重架构中开发和使用的所有注意力机制变体将会很有趣。
我的目标是让这个合集既能作为参考资料,又能作为轻量级的学习资源。希望您觉得它有用且有教育意义!
1. Multi-Head Attention(MHA)
自注意力机制(Self-attention)允许每个标记(token)查看序列中其他可见的标记,为它们分配权重,并使用这些权重来构建新的输入上下文感知表示。
多头注意力机制(MHA)是该思想的标准 Transformer 版本。它并行运行多个自注意力头,每个注意力头学习不同的投影(projections),然后将它们的输出组合成一个更丰富的表征。

图 3:Olmo 2 作为使用 MHA 的示例架构。
以下章节首先简要介绍自注意力机制,以便解释多头注意力(MHA)。这更像是一个快速概述,为后续讲解分组查询注意力、滑动窗口注意力等相关注意力概念奠定基础。如果您对自注意力机制感兴趣,想要更深入、更详细地了解,可以阅读我撰写的《理解和编码 LLM 中的自注意力、多头注意力、因果注意力和交叉注意力》一文。
示例架构:
1.2 注意力机制的由来和历史趣闻
注意力机制早于 Transformer 和 MHA 出现。它的直接应用背景是用于翻译的编码器-解码器循环神经网络(encoder-decoder RNNs)。
在那些较早的系统中,编码器 RNN 会逐个读取源句子的词元(token),并将其压缩成一个隐藏状态(hidden states)的序列,或者在最简单的版本中压缩成一个最终状态。然后,解码器 RNN 必须根据这个有限的摘要生成目标句子。这种方法对于简短的句子是有效的,但一旦下一个输出词的相关信息位于输入句子的其他位置,就会出现明显的瓶颈。
简而言之,其局限性在于隐藏状态无法存储无限多的信息或上下文,因此需要时能够回溯查阅完整的输入序列是很有用的。
下面的翻译示例展示了这种方法的一个局限性。例如,即使句子保留了许多局部合理的词语选择,如果模型过于简单地将问题视为逐词映射,翻译仍然会失败。(图中展示了一个夸张的例子,我们逐词翻译了句子;显然,生成的句子语法是错误的。)事实上,正确的下一个词取决于句子的结构层面,以及在该步骤中哪些前文源词起到关键作用。当然,使用循环神经网络(RNN)仍然可以很好地翻译这种情况,但它在处理更长的序列或知识检索任务时会遇到困难,因为如前所述,隐藏状态能够存储的信息量是有限的。

图 4:即使许多单独的词语选择看起来合理,翻译也可能失败,因为句子层面的结构仍然很重要(原始来源 LLMs-from-scratch )。
下图更直接地展示了这种变化。当解码器生成输出标记时,它不应局限于一条压缩后的记忆(memory)路径,而应能够直接访问更相关的输入标记。

图 5:注意力机制通过让当前输出位置重新访问完整的输入序列,而不是仅仅依赖于一个压缩状态,从而打破了 RNN 的瓶颈(原始来源 LLMs-from-scratch )。
Transformer 保留了上述注意力机制改进型 RNN 的核心思想,但移除了循环。在经典论文 《Attention Is All You Need 》中 ,注意力机制本身成为了主要的序列处理机制(而不再仅仅是 RNN 编码器-解码器的一部分)。
在 Transformer 模型中,这种机制被称为自注意力机制(self-attention),其中序列中的每个词元都会计算所有其他词元的权重,并利用这些权重将来自这些词元的信息组合成一个新的表示。多头注意力机制则是将相同的机制并行运行多次。
1.3 The Masked Attention Matrix 掩码注意力矩阵
对于有 T 个token的序列 ,注意力机制需要每个token有一行权重,因此总共得到一个 T x T 矩阵。
每一行都对应一个简单的问题:在更新当前token时,每个可见token的重要性应该如何设定?在仅解码器架构(decode-only)的大语言模型中,未来的位置会被掩码屏蔽,这也是下图中矩阵右上角区域呈现灰色的原因。
自注意力机制从根本上讲就是在因果掩码(causal mask)下学习这些词元之间的权重模式,然后利用它们来构建上下文感知的词元表示。

图 6:一个具体的掩码注意力矩阵,其中每一行属于一个token,每个条目都是一个注意力权重,未来的标记条目通过因果掩码被移除(原始来源:理解和编码自注意力)。
1.4 Self-Attention Internals自注意力的内部机制
下图展示了Transformer如何从输入嵌入 X 计算注意力矩阵 ( A ) ,然后使用该矩阵生成变换后的输入 ( Z )。
这里 , Q 、 K 和 V 分别代表查询、键和值。
-
查询(query)表示某个词元正在寻找什么。
-
键(key)表示每个词元提供的用于匹配的信息。
-
值(value)表示在计算出注意力权重后,被融入到输出结果中的信息。
计算步骤如下:
-
Wq、Wk和Wv是权重矩阵,它们将输入嵌入X投影到Q、K和V上。 -
QK^T生成原始的词元间相关性得分。 -
softmax 将这些分数转换为我们在上一节中讨论的归一化注意力矩阵
A。 -
将
A应用于V以生成输出矩阵Z。
请注意,注意力矩阵并非一个单独的手动构造对象。它是由 Q 、 K 和 softmax 函数生成的。

图 7:完整的单头注意力流程,从输入嵌入 X 到归一化注意力矩阵 A 和输出表示 Z(原始来源:理解和编码自注意力)。
下图展示了与上图相同的概念,但注意力矩阵的计算隐藏在"缩放点积注意力(scaled-dot-product attention)"框内,并且我们只对一个输入标记进行计算,而不是对所有输入标记进行计算。这是为了在下一节将其扩展到多头注意力之前,展示一种紧凑的单头自注意力机制。

图 8:一个注意力头已经是一个完整的机制。一组学习到的投影产生一个注意力矩阵和一个上下文感知的输出流(原始来源:理解和编码自注意力)。
1.5 From One Head To Multi-Head Attention 从单头到多头注意力
一组 Wq/Wk/Wv 矩阵构成一个注意力头,这意味着会生成一个注意力矩阵和一个输出矩阵Z。(这一概念在前一节中已有说明。)
多头注意力机制简单地让多个注意力头并行运行,每个注意力头使用不同的可学习投影矩阵。
这很有用,因为不同的词头(head)可以专注于不同的词类关系。一个词头可能侧重于短的局部依存关系,另一个侧重于更广泛的语义联系,还有一个侧重于位置或句法结构。

图 9:多头注意力保持相同的基本注意力配方,但将其并行地重复到多个头上,以便模型可以一次学习多个标记到标记的模式(原始来源:理解和编码自注意力)。
2. Grouped-Query Attention(GQA)分组查询注意力机制
分组查询注意力机制是源自标准 MHA 的一种注意力机制变体。它由 Joshua Ainslie 及其同事在 2023 年发表的论文 《GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints》 中提出。
它不给每个查询头分配自己的键和值,而是让多个查询头共享相同的键值投影,这使得 KV 缓存(KV caching)的成本大大降低(主要是减少内存),而无需对整个解码器方案进行太多更改。

图 10:GQA 保持与 MHA 相同的整体注意力模式,但通过在多个查询头之间共享键值头来减少键值头的数量(原始来源:大型 LLM 架构比较)。
示例架构:
稠密模型 Dense Models: Llama 3 8B 、 Qwen3 4B 、 Gemma 3 27B 、 Mistral Small 3.1 24B 、 SmolLM3 3B 和 Tiny Aya 3.35B 。
稀疏(混合专家)模型 Sparse (Mixture-of-Experts) Models: Llama 4 Maverick 、 Qwen3 235B-A22B 、 Step 3.5 Flash 196B 和 Sarvam 30B 。
2.1 Why GQA Became Popular GQA为什么流行
在我的架构对比文章中 ,我将 GQA 定位为经典多头注意力机制 (MHA) 的新标准替代方案。原因在于,标准的 MHA 为每个注意力头分配独立的键值对,这从建模角度来看更优,但一旦我们在推理过程中需要将所有状态保存在键值缓存中,成本就会很高。
在 GQA 中,我们保留了更大的查询头集合(query heads),但减少了键值头(key-value heads)的数量,并允许多个查询共享它们。这样既降低了参数数量,也减少了键值缓存的 流量,而无需像多头潜在注意力机制 (MLA) 那样进行大幅度的实现变更(MLA 将在后面讨论)。
在实际应用中,这一特性使其一直深受各类实验室的青睐,这些实验室既希望方案比多头注意力机制(MHA)成本更低,又想要其实现难度低于MLA等新型高压缩比替代方案。
2.2 GQA Memory Savings GQA的内存节省
由于每层维护的键值对数量越少,每个token所需的缓存状态就越少,因此 GQA 可以显著节省键值存储。这就是为什么随着序列长度的增加,GQA 的优势会更加明显。
GQA 也是一个连续谱(spectrum)。如果我们把键值组数量减少到只有一个共享键值组,实际上就进入了多查询注意力机制(multi-query attention)的范畴,虽然缓存成本更低,但对模型质量的损害也更明显。最佳方案通常介于多查询注意力机制(1 个共享键值组)和 MHA(键值组数量等于查询数量)之间,在这个范围内,缓存节省显著,而相对于 MHA 的建模质量下降幅度又控制在可接受的范围内。

图 11:数值越低越好。上下文窗口越大,键值缓存的节省效果就越明显。(原始资料来源: LLMs-from-scratch GQA materials)
2.3 Why GQA Still Matters In 2026 为什么GQA在2026年依然重要
更高级的变体(如 MLA)正变得越来越流行,因为它们可以在相同的 KV 效率水平下提供更好的建模性能(例如,如 DeepSeek-V2 论文的消融研究中所讨论的那样 ),但它们也涉及更复杂的实现和更复杂的注意力堆栈。
GQA 仍然很有吸引力,因为它很稳健,更容易实现,也更容易训练(根据我的经验,因为需要的超参数调优较少)。
这就是为什么一些新版本仍然刻意保持经典架构的原因。例如,我在 a dream of spring for open weight文章中提到过 MiniMax M2.5 和 Nanbeige 4.1,它们都是非常经典的架构,只使用了分组查询注意力机制(GQA),而没有堆砌其他效率优化技巧。Sarvam 也是一个非常有用的对比对象:30B 版本保留了经典的GQA,而 105B 版本则切换到了MLA。

图 12:105B Sarvam(使用 MLA)与 30B Sarvam(使用 GQA)与使用普通 MHA 的总 KV 缓存大小。
3. Multi-Head Latent Attention(MLA)多头潜空间注意力
多头潜空间注意力机制 (MLA) 的设计动机与分组查询注意力机制 (GQA) 类似。两者都是为了降低KV-cache 的内存需求。GQA 和 MLA 的区别在于,MLA 通过压缩存储的内容来缩小缓存,而不是像 GQA 那样通过共享注意力头来减少存储的键值对数量。

图 13:与 GQA 不同,MLA 并非通过分组词头来降低键值成本,而是通过缓存压缩的潜在表示来降低成本。请注意,它也应用于查询,为了简洁起见,图中未显示查询部分(原始出处:大型 LLM 架构比较)。
MLA 最初在 DeepSeek-V2 论文中提出,后来成为 DeepSeek 时代的标志性思想(尤其是在 DeepSeek-V3 和 R1 之后)。它比 GQA 更难实现,部署也更复杂,但如今,当模型规模和上下文长度足够大,缓存流量开始占据主导地位时,MLA 往往更具吸引力,因为在相同的内存缩减速率下,它可以保持更好的建模性能(稍后会详细介绍)。
示例架构:
DeepSeek V3, Kimi K2, GLM-5, Ling 2.5, Mistral Large 3, and Sarvam 105B
3.1 Compressing,Not Shaing 压缩,而非共享
与 MHA 和 GQA 缓存全分辨率键值张量不同,MLA 存储的是潜在表示,并在需要时重构可用状态。本质上,它是一种嵌入注意力机制中的缓存压缩策略,如上图所示。
下图显示了与常规 MHA 相比节省的KV-cache大小。

图 14:一旦上下文长度增加,缓存潜在表示而不是完整 K/V 张量所节省的成本就变得非常明显(原始来源: LLMs-from-scratch MLA 部分)。
3.2 MLA Ablation Studies MLA消融研究
"Ablation" 的意思是消融、切除 ,在人工智能 / 机器学习 领域特指消融实验,即通过移除模型组件来验证其作用与重要性。
DeepSeek-V2 的论文提供了一些消融实验结果,其中 GQA 在建模性能方面不如 MHA,而 MLA 的表现则好得多,甚至在精心调优后可以超越 MHA。这比"它(也)节省内存"更有说服力。
换句话说,MLA 之所以是 DeepSeek 的优选注意力机制,不仅是因为它效率高,还因为它在大规模模型中似乎是一种能够保持质量的高效方法。(但同事们也告诉我,MLA 只在一定规模下才能发挥良好作用。对于较小的模型,比如小于 1000 亿(100B)的模型,GQA 似乎效果更好,或者至少更容易调优和优化。)

图 15:GQA 在此处性能低于 MHA,而 MLA 仍保持竞争力,甚至略优于 MHA。底层论文:DeepSeek-V2
下面再次比较 30B Sarvam 中的 GQA 与 105B Sarvam 中的 MLA。

图 16:GQA 和 MLA 从不同的方向解决同一个瓶颈问题。二者之间的权衡在于:在简化模型和提高大型模型的建模性能之间取得平衡。
3.3 How MLA Spread After DeepSeek DeepSeek 之后 MLA 是如何传播的
DeepSeek V3/R1、V3.1 等版本在 V2 版本推出该设计后将其规范化,这一设计随即开始出现在第二代架构中。Kimi K2 沿用了 DeepSeek 的设计方案并进行了扩容升级。GLM-5 同时采用了 MLA 以及 DeepSeek 稀疏注意力机制(源自 DeepSeek V3.2)。Ling 2.5 将 MLA 与线性注意力混合机制相结合。Sarvam 发布了两款模型,其中 30B 参数模型仍采用经典的 GQA 机制,而 105B 参数模型则改用了 MLA 机制。
最后一对例子尤其有用,因为它将技术复杂性的讨论放在一边。也就是说,Sarvam 团队实现了两种变体,并特意选择对其中一种变体使用 GQA,对另一种变体使用 MLA。因此,从某种意义上说,这使得 MLA 不再像是一种理论上的替代方案,而更像是产品系列扩展后的一种切实可行的架构升级路径。
4. Sliding Window Attention(SWA) 滑动窗口注意力
滑动窗口注意力机制通过限制每个位置可以关注的先前词元数量,来降低长上下文推理的内存和计算成本。每个词元不再关注整个前缀,而是只关注其位置周围一个固定窗口内的最近词元。由于注意力被限制在局部词元邻域内,因此这种机制通常被称为局部注意力(local attention)。
有些架构将这些局部层(使用SWA的层)与偶尔出现的全局注意力层(使用full-attention的层)结合起来,以便信息仍然可以在整个序列中传播。

图 17:概念上的转变很简单。常规注意力机制是全局注意力机制,而滑动窗口注意力机制是局部注意力机制。全局注意力机制让每个词元都能看到完整的前缀;SWA 将其中许多层转换为局部注意力层(原始来源:大型 LLM 架构比较)。
示例架构:
Gemma 3 27B, OLMo 3 32B, Xiaomi MiMo-V2-Flash, Arcee Trinity, Step 3.5 Flash, and Tiny Aya
4.1 Gemma 3 As A Reference Point 以Gemma3作为参考点
Gemma 3 仍然是近期最清晰的 SWA 示例之一,因为它很容易与 Gemma 2 进行比较。Gemma 2 已经采用了混合注意力机制,局部层和全局层的比例为 1:1,窗口大小为 4096 个 token。Gemma 3 进一步将局部层和全局层的比例提高到 5:1,并将窗口大小减小到 1024 个 token。
研究的核心结论并非局部注意力计算成本更低,因为这一点早已为人所知。而在 Gemma 3 的消融实验中,更具价值的发现是:更为激进地采用该机制,似乎仅会对模型性能造成轻微的负面影响。

Gemma 消融研究表明,较小的窗口和更激进的局部/全局比率(local:global ratio)对困惑度(perplexity)影响甚微。参考文献: Gemma 3 论文(原始来源:大型 LLM 架构比较)。
4.2 The Ratio And Window Size 比例和窗口大小
实际上,说一个模型"使用 SWA"并不意味着它完全依赖于 SWA。通常重要的是局部到全局的层模式(the local-to-global layer pattern)和注意力窗口大小。例如:
-
Gemma 3 和小米采用 5:1 的本地到全局模式。
-
OLMo 3 和 Arcee Trinity 使用 3:1 模式。
-
小米也使用了 128 的窗口大小,这比 Gemma 的 1024 小得多,因此也更激进。
SWA 本质上是一个可以调节的旋钮,可以使其调节得更激进或更保守。

图 18:节省长上下文的原因是将许多完全注意力层转换为局部注意力层,从而减少了这些层需要考虑的缓存上下文量(原始来源: LLMs-from-scratch SWA 材料)。
4.3 Combining SWA with GQA 将SWA和GQA相结合
SWA 经常与 GQA 一起出现 ,因为这两种思想分别针对同一个推理问题的不同方面。
-
SWA 减少了局部层需要考虑的上下文信息量。
-
GQA 减少了每个词元对缓存贡献的键值状态信息量。
因此,许多近期的稠密模型都同时使用这两种注意力机制,而不是将它们视为替代方案。Gemma 3 就是一个很好的例子,因为它在同一架构中结合了滑动窗口注意力机制和分组查询注意力机制。
5. DeepSeek Sparse Attention(DSA)DeepSeek稀疏注意力机制
DeepSeek 稀疏注意力是 DeepSeek V3.2 系列中出现的架构变化之一 ,后来又出现在 GLM-5 中。
具体来说,DeepSeek V3.2 将其与多头潜空间注意力 (MLA) 相结合 ,而 GLM-5 出于相同的总体原因采用了相同的组合,即在上下文长度变大时降低推理成本。
示例架构:
5.1 Changes Relative To Sliding-Window Attention 与滑动窗口注意力相关的变化
在滑动窗口注意力机制中,当前token并不关注完整的前缀,而只关注一个固定的局部窗口。这与 DeepSeek 稀疏注意力机制的基本思想相同,在 DeepSeek 稀疏注意力机制中,每个token也只关注先前token的一个子集。
然而,所选token并非由固定宽度的局部窗口决定。相反,DeepSeek Sparse Attention 使用可学习的稀疏模式。简而言之,它采用索引器加选择器(indexer-plus-selector)的架构,其中快速索引器计算相关性得分,而token选择器仅保留得分较高的历史位置的一小部分。
DeepSeek 稀疏注意力机制与滑动窗口注意力机制的主要区别在于选择词元子集的方式。滑动窗口注意力机制硬编码了局部性。DeepSeek 稀疏注意力机制虽然也限制了注意力范围,但它允许模型自行决定哪些先前的词元值得重新访问。

图 19:与滑动窗口注意力类似,DeepSeek 稀疏注意力也将每个标记限制在先前标记的子集中,但它不是使用固定的局部窗口来实现的(原始来源:从 DeepSeek V3 到 V3.2:架构、稀疏注意力和强化学习更新)。
5.2 DeepSeek Sparse Attention and MLA DeepSeek 稀疏注意力和 MLA
DeepSeek V3.2 同时采用了多头潜空间注意力机制 (MLA) 和 DeepSeek 稀疏注意力机制(DSA)。
-
MLA 通过压缩存储的内容来降低KV-cache成本。
-
DSA减少了模型需要重访的先验上下文信息量。
换句话说,MLA 优化了缓存表示,而DSA则在此基础上优化了注意力模式。

图 20:DeepSeek V3.2 是显而易见的参考点,因为这是与稀疏注意力思想联系最紧密的模型系列。
这种稀疏模式并非随机,可以分为两个阶段:
-
第一阶段是一个快速索引器(lightning indexer),针对每个新的查询词元对先前词元进行评分。它采用 MLA 的压缩词元表示形式,并基于前文语境计算经过学习的相似度分数,从而使模型能够对哪些先前位置值得重新访问进行排序。
-
第二阶段是词元选择器(token selector)。它只保留一个较小的高分数子集,例如,过去位置的
top-k个token,并将该子集转换为稀疏注意力掩码。因此,关键在于 DeepSeek 稀疏注意力机制并没有硬编码稀疏模式,而是学习保留哪些过去的标记。

图 21:该机制由一个快速索引器和一个选择器组成,快速索引器对先前的标记进行评分,选择器只保留一个较小的子集用于注意力(原始来源:从 DeepSeek V3 到 V3.2:架构、稀疏注意力和强化学习更新)。
DeepSeek 稀疏注意力机制相对较新,实现起来也相对复杂,因此它还没有像分组查询注意力机制 (GQA) 那样得到广泛应用。
6. Gated Attention 门控注意力
门控注意力最好理解为一种改进的完全注意力(full-attention)模块,而不是一个独立的注意力家族。
它通常出现在混合堆栈结构(hybrid stacks)中,这类结构仍会保留部分完整注意力层以实现精确的内容检索,同时在原本常见的缩放点积注意力(scaled dot-product attention)模块基础上,新增了若干面向稳定性的改进设计。

图 22:Trinity Large 是一个很好的对比,因为门控注意力机制并非 Qwen 独有(稍后会详细介绍)。在这里,门控机制出现在缩放点积注意力输出之后、输出投影之前,采用的是不同的长上下文架构(原始出处:《A Dream of Spring for Open-Weight LLMs》)。
6.1 Where Gated Attention Appears 门控注意力出现的地方
Qwen3-Next 和 Qwen3.5 架构表明,最近的混合模型(hybrid,将在下一节中介绍)并没有完全取代注意力机制。相反,它们用更经济的替代方案替换了大部分注意力层,并在模型结构中保留了较少数量的全注意力层。
这些保留下来的全注意力层,正是门控注意力通常出现的位置。Qwen3-Next 与 Qwen3.5 将其与Gated DeltaNet 以 3:1 的比例搭配使用。
但撇开混合架构不谈,Trinity 在更为传统的注意力堆栈中采用了相关的门控思路,如上文前一幅图所示。
6.2 Gated Attention Relative To Standard Attention 门控注意力相对于标准注意力
Qwen 式混合模型或 Trinity(并非混合模型)中的门控注意力模块本质上是标准的缩放点积注意力机制,只是在此基础上进行了一些修改。在最初的门控注意力论文中 ,这些修改被提出是为了使保留的完整注意力层在混合模型堆栈中表现得更加可预测。
该模块看起来仍然像标准的(完全)注意力机制,但它增加了:
-
一个输出门,用于在将注意力结果加回残差之前对其进行缩放。
-
对于 q 和 k,使用以零为中心的 QK 范数变体(zero-centered QK-Norm variant)代替标准 RMSNorm。
-
部分RoPE(partial RoPE)。
这些变化并非 MLA 或线性注意力层面的变化,而仅仅是对原本熟悉的注意力模块进行的稳定性和控制方面的改变。

图 23:在 Qwen3-Next 和 Qwen3.5 中,门控注意力表现为完全注意力层,它会周期性地打破 Gated DeltaNet 模块的运行。
请注意,上图还包括Gated DeltaNet,我们将在下面的下一节中介绍。
7. Hybrid Attention 混合注意力
混合注意力机制是一种更广泛的设计模式,而非某种特定的单一机制。其总体思路是保留类似 Transformer 的架构,但用更经济的线性计算或状态空间序列模块(state-space sequence modules)替换大部分开销较大的全注意力层。
其设计初衷是提升长上下文处理效率。完全注意力机制的复杂度随序列长度呈二次方增长,因此当模型上下文扩展至 128K、256K乃至 1M token 时,注意力机制的内存占用与计算开销会变得极高。此时在多数网络层中采用更便宜的序列模块,仅保留少量计算量较大的检索层,会成为更合理的方案。(不过需要注意,这一做法会在一定程度上牺牲模型性能。)
在 Qwen3-Next 中,这种模式表现为Gated DeltaNet 和Gated Attention模块以 3:1 的比例混合。Gated DeltaNet 也与 Mamba-2 密切相关(参见论文《门控 Delta 网络:利用 Delta 规则改进 Mamba2 》),其机制可以理解为 DeltaNet 式的快速权重更新与 Mamba 式门控的结合。后续架构保留了相同的总体思路,但替换为其他轻量级序列混合器,例如 Kimi Delta Attention、Lightning Attention 或标准 Mamba-2。

图 24:基本混合模式,其中大多数块是更轻量的序列混合器,每四个块恢复一个更重的注意力层(原始来源:大型 LLM 架构比较)。
7.1 Gated DeltaNet in Qwen3-Next Qwen3-Next 中的门控 DeltaNet
据我所知,第一个接近旗舰级的混合注意力 LLM 的突出例子是 2025 年的 Qwen3-Next,它并没有完全消除注意力,而是将三个Gated DeltaNet 模块与一个Gated Attention模块混合在一起。
在这里,轻量级Gated DeltaNet 模块承担了大部分长上下文处理工作,使得内存增长相较于完全注意力机制更为平缓。之所以保留更重的gated-attention层,是因为 DeltaNet 在基于内容的检索方面精度较低。
在Gated DeltaNet模块内部,模型会计算Q/K/V向量,同时生成两个可学习门控参数(α、β)。它不会构建常规的词元间注意力矩阵,而是通过增量规则(delta-rule)更新,将信息写入一个小型快速权重存储器。简单来说,该存储器会存储历史信息的压缩动态摘要,而门控则控制新信息的注入量与原有状态的保留量。
这使得 Gated DeltaNet 成为一种线性注意力(linear-attention)或循环式机制(recurrent-style mechanism),而不仅仅是 MHA 的另一种改进。与 Mamba-2 相比,二者的紧密联系在于它们都属于线性时间门控序列模型家族,但 Gated DeltaNet 使用的是 DeltaNet 式的快速权重记忆更新(DeltaNet-style fast-weight memory update),而不是 Mamba 的状态空间更新(state-space update)。

图 25:混合模型背后的实际动机如图所示,即内存曲线。与普通的完全注意力模型相比,Gated DeltaNet 的混合模型堆栈随着上下文长度的增长速度要慢得多(原始来源 LLMs-from-scratch DeltaNet 材料)。
Qwen3.5 将原 Qwen3-Next 混合架构机型纳入 Qwen 的主力旗舰系列,这是一个有趣的改动。这基本上表明混合架构策略取得了成功,未来我们可能会看到更多采用这种架构的机型。

图 26:Qwen3.5 显示 Qwen 团队将以前的 Qwen3-Next 分支推广到主要型号系列,而不是将其保留为一次性效率变体(原始来源:A Dream of Spring for Open-Weight LLMs)
7.2 Kimi Linear And Modified Delta Attention Kimi 线性及改进的 Delta 注意力
Kimi Linear 保留了整体相同的 Transformer 架构以及 3:1 的比例结构,但对模型设计的两个核心部分都做了改动。
-
在轻量级方面,Kimi Delta Attention 是 Gated DeltaNet 的改进版。Qwen3-Next 使用每个注意力头的标量门控来控制记忆衰减,而 Kimi 使用通道级门控,从而可以更精细地控制记忆更新。
-
在重量级方面,Kimi 使用Gated MLA 层替换了 Qwen3-Next 中的Gated Attention层 。
因此,其整体架构模式与 Qwen3-Next 和 Qwen3.5 仍保持一致,但两个核心组成部分均略有调整。也就是说,大多数层依旧采用计算开销更低的线性机制处理,同时保留周期性的复杂层以实现更强的检索能力。

图 27:Kimi Linear 保持了相同的整体混合模式,同时改变了堆栈的轻量级部分和较重的注意力部分(原始来源:大型 LLM 架构比较)。
7.3 Ling 2.5 And Lightning Attention
Ling 2.5 在轻量级方面又做了一些调整。它不再使用 Gated DeltaNet,而是使用了一种名为 Lightning Attention 的更简单的循环线性注意力机制。在重量级方面,它保留了 DeepSeek 中的 MLA。
大部分序列混合发生在成本较低的线性注意力模块中,而保留少量成本较高的层以保持更强的检索能力。不同之处在于,这里使用的轻量级机制是 Lightning Attention,而不是 DeltaNet 或 Kimi Delta Attention。

图 28:Ling 2.5 和 Qwen 3.5 都是线性注意力混合模型,尽管 Ling 用 Lightning Attention 和 MLA 代替了 Qwen 的配方(原始来源:A Dream of Spring for Open-Weight LLMs)。
Ling 2.5 更注重长上下文效率,而非绝对的基准测试领先地位。据 Ling 团队表示,在 32k token长度下,其运行速度显著快于 Kimi K2,而这正是这类混合架构模型所追求的实际价值。

图 29:Ling 2.5 被视为一个强大的效率升级,在相同的万亿参数规模下,其 32k 令牌吞吐量比 Kimi K2 高得多(原始来源 Ling 2.5 模型中心页面)。
8. Nemotron And Mamba-2
Nemotron 将模型模式进一步推离了 Transformer 基线。Nemotron 3 Nano 是一种 Mamba-Transformer 混合模型,它将 Mamba-2 序列建模模块与稀疏的 MoE 层交错排列,并且仅在一小部分层中使用自注意力机制。
这是上述基本权衡思路的一种更为极端的体现。此处的轻量级序列模块采用Mamba-2状态空间模块,而非DeltaNet风格的快速权重更新,但二者的基本权衡逻辑是相似的。

图 30:Nemotron 3 Nano 使用 Mamba-2 进行大部分序列建模工作,自注意力机制仅出现在一小部分层中(原始来源:大型 LLM 架构比较)。
更大的 Nemotron 3 Super 保留了 Mamba-2 混合注意力机制,并增加了其他面向效率的改进,例如潜空间 MoE (latent MoE)和用于推测性解码的共享权重多标记预测 (MTP, shared-weight multi-token prediction)。

图 31:Nemotron 3 Super 保留了 Mamba-2 混合注意力模式,同时在其上添加了潜在的 MoE 和共享权重 MTP(原始来源:大型 LLM 架构比较)。
Conclusion 结论
当然,文献中还有许多其他(大多是小众的)注意力机制变体,我在这里并未提及。本文重点关注的是目前最先进的(开源)模型中使用的那些机制。
尤其令我期待的是:
(1)看到全新的 Mamba-3 层被集成到上述混合架构中(取代 Gated DeltaNet);
(2)注意力残差得到普遍应用。
实际上,你可能还会想知道目前"最佳"架构是什么。这个问题很难回答,因为目前还没有公开的实验数据,使用相同的训练数据训练不同的架构等等。
因此,我们目前只能回答针对特定问题的最佳(已训练)模型选择。在我看来,混合架构仍是一种新颖的技术,其主要卖点在于(长上下文)效率,而不仅仅是模型性能。因此,我认为它们非常适合智能体上下文(例如 OpenClaw)。
就我个人而言,我认为混合架构的问题还在于推理栈还没有得到充分优化,我发现使用更经典的设置(例如带有GQA的 GPT-OSS)在本地运行 LLM 时,可以获得更好的 tok/sec 吞吐量。
总之,我很好奇 DeepSeek V4 会带来什么,因为 DeepSeek 在近两年来一直是相当可靠的潮流引领者。
