背景
近年来,大语言模型与通用序列模型的核心矛盾逐渐从"能否做大"转向"如何高效做大"。随着上下文长度、模型容量和在线推理规模不断提升,经典 Transformer 架构在以下几个方面暴露出明显瓶颈:
- 注意力计算成本高:标准自注意力的计算与序列长度呈二次关系增长,长上下文训练和推理的成本迅速上升。
- KV Cache 占用大:在线推理尤其是长上下文场景中,Key/Value 缓存成为显著的显存压力来源。
- 参数规模与激活成本失衡:MoE 虽然能增加总参数容量,但专家路由、跨设备通信和工程复杂度也随之上升。
- 硬件友好性不足:某些理论上高效的序列建模结构,在 GPU/TPU 上未必具备良好的张量核利用率。
围绕这些瓶颈,业界和学术界形成了三条代表性技术路线:
- Mamba-2:从状态空间模型(SSM)出发,以结构化状态空间对偶(SSD)为核心,试图构建一种可替代大部分 attention 的高效序列建模骨干。
- Jamba:采用 Transformer + Mamba + MoE 的混合架构,以工程折中方式兼顾建模能力、长上下文效率与参数容量。
- DeepSeek-V2:保留 Transformer 主框架,在注意力侧引入 MLA 压缩 KV Cache,在前馈层侧引入 DeepSeekMoE,以系统级方式降低训练与推理成本。
下文将从"问题背景、核心结构、效率来源、优缺点、适用场景、横向对比"六个维度,对 Mamba-2、Jamba 和 DeepSeek-V2 三类高效架构进行系统分析。
1. 背景:为什么需要高效架构?
Transformer 之所以成功,在于其具备优异的并行训练能力和强大的上下文建模能力。但在大模型时代,以下问题越来越突出:
1.1 长序列的计算瓶颈
标准自注意力在长度为 (L) 的序列上需要构造 (L \times L) 的相关性矩阵,其复杂度随序列长度二次增长。随着上下文从 4K、8K 扩展到 128K、256K,甚至 1M token,attention 的代价迅速成为系统瓶颈。
1.2 推理阶段的显存瓶颈
在自回归解码场景中,模型通常需要缓存历史 token 的 Key/Value,用于后续注意力计算。随着层数、头数和序列长度增加,KV Cache 会吞噬大量显存,限制批大小、并发能力以及最大可支持上下文长度。
1.3 容量扩展与计算控制的矛盾
稠密模型要想提升性能,往往需要线性增加参数和计算。MoE 通过"增加总参数但限制每 token 激活参数"提供了解决思路,但它也带来了路由不均衡、跨卡通信和部署复杂度问题。
1.4 理论高效不等于硬件高效
很多线性序列模型在理论复杂度上优于 attention,但在 GPU/TPU 实际实现上,常因缺乏适合 tensor core 的矩阵乘形式而难以发挥硬件潜力。
因此,高效架构的核心目标不只是降低理论复杂度,而是同时实现:
- 更低的训练成本
- 更高的长上下文吞吐
- 更小的推理显存占用
- 更好的硬件映射效率
- 与主流 Transformer 体系相当或接近的建模性能
2. Mamba-2:以 SSD 为核心的高效状态空间建模
2.1 设计目标
Mamba-2 的出发点并不是简单优化 Transformer,而是探索一种可以在大规模语言建模中替代 attention 的高效骨干。其目标包括:
- 建立 SSM 与 attention 之间的统一理解框架;
- 让 SSM 的训练和推理更适配现代硬件;
- 在保持或接近 Transformer 性能的前提下,实现更高吞吐和更强长序列扩展性。
2.2 核心思想:State Space Duality(SSD)
Mamba-2 的关键创新是 State Space Duality(SSD)。这一思想表明,某一类结构化状态空间模型与 attention/结构化矩阵之间存在对偶关系。借助这种对偶关系,可以把原本偏递归、偏 scan 的计算形式,转写为更适合矩阵乘实现的形式。
相比 Mamba-1,Mamba-2 对状态转移矩阵施加了更强的结构约束,例如将某些转移形式约束为标量乘单位阵。这种约束虽然看似降低了自由度,但换来了两个重要收益:
- 更清晰的理论结构,可与 attention 统一分析;
- 更适合 GPU/TPU 的分块与矩阵乘计算。
2.3 为什么 Mamba-2 比 Mamba-1 更高效?
Mamba-1 的 selective scan 已经具备线性序列复杂度优势,但其训练实现仍然较依赖 scan/递归式算子,难以像标准 matmul 那样充分利用 tensor core。
Mamba-2 的核心改进在于:
- 用 SSD 将序列计算转化为更适合块状计算的形式;
- 强化矩阵乘在核心计算中的占比;
- 提升训练阶段的硬件利用率;
- 允许更大的状态维度,同时保持可接受的效率。
这意味着它的效率来源不只是"线性复杂度",而是:
状态压缩建模 + SSD 对偶化 + matmul 友好的实现方式
2.4 架构特征
从架构视角看,Mamba-2 代表的是"用状态代替显式历史缓存"的路线:
- Transformer:显式依赖历史 token 的 K/V 缓存;
- Mamba-2:将历史信息递归压缩到状态中。
因此其优势主要体现在:
- 更适合超长序列;
- 推理阶段不依赖传统大规模 KV Cache;
- 在吞吐与内存占用之间具有更好的扩展潜力。
2.5 Mamba-2 的优势
- 长序列扩展性强:状态递归建模避免了完整二次注意力矩阵。
- 训练硬件效率更好:SSD 让 SSM 更接近 matmul 友好的形式。
- 推理缓存压力小:不依赖传统大规模 KV Cache。
- 代表后 Transformer 骨干方向:理论与结构创新较强。
2.6 Mamba-2 的挑战
- 生态迁移成本高:许多针对 Transformer 优化的系统栈不能直接复用。
- 架构范式变化大:工程团队需要重新适配并行策略、批处理和部署逻辑。
- 通用性验证仍在演进:相比 Transformer 生态,产业成熟度仍偏早期。
2.7 适用场景
Mamba-2 更适合以下方向:
- 超长序列建模研究
- 后 Transformer 骨干探索
- 希望弱化 KV Cache 压力的高吞吐推理场景
- 对序列建模理论统一性有研究需求的工作
3. Jamba:Transformer + Mamba + MoE 的混合高效架构
3.1 设计动机
Jamba 的思想非常务实:
- 纯 Transformer:长上下文成本高;
- 纯 Mamba:虽然高效,但未必在所有语言建模能力上都优于 Transformer;
- 因此,最合理的选择可能不是"二选一",而是"按优势分工"。
Jamba 由此提出一种混合架构:
用少量 attention 保留 Transformer 优势,用大量 Mamba 提升长上下文效率,再用 MoE 扩展总参数容量。
3.2 三部分结构分工
3.2.1 Transformer 层
保留部分 attention 层,用于维持标准 Transformer 在全局关系建模和语言表达方面的优势。
3.2.2 Mamba 层
在更多层中引入 Mamba 块,以降低长序列下的计算和缓存开销。随着上下文变长,Mamba 层承担主要效率收益来源。
3.2.3 MoE 层
将部分 MLP 替换为 MoE,以较低的活跃参数成本换取更高总参数容量。典型做法是多 expert、top-k 激活,使每个 token 只访问部分专家。
3.3 Jamba 的效率来源
Jamba 的效率并不依赖单个革命性模块,而来自"混合分工"策略:
- Mamba 降低长上下文成本:相较 attention,在长上下文场景中更高效;
- 减少 KV Cache:由于并非所有层都使用 attention,缓存规模显著降低;
- MoE 扩总量不扩满激活:总参数可以大幅提升,但单 token 激活的计算仍被控制;
- 保留 Transformer 的稳定性:减少纯新架构带来的性能与工程风险。
3.4 Jamba 的架构定位
Jamba 本质上是一种 折中型高效骨干:
- 它不像 Mamba-2 那样彻底偏向新 backbone;
- 也不像 DeepSeek-V2 那样完全留在标准 Transformer 内部;
- 它是在几种高效思想之间做结构级融合。
因此,Jamba 的价值在于:
它可能不是最"纯"的创新路线,但往往是更符合大模型工程现实的折中方案。
3.5 Jamba 的优势
- 工程现实性强:不完全抛弃 Transformer。
- 长上下文效率较好:Mamba 层能显著改善长序列吞吐。
- 参数容量可扩展:MoE 支持更大总参数规模。
- 质量---效率平衡较优:混合结构适合做综合权衡。
3.6 Jamba 的不足
- 系统复杂度较高:attention、Mamba、MoE 三类模块并存。
- 调参与训练更复杂:混合比例、专家设置、路由策略都影响性能。
- 部署链路更重:需要同时处理 attention cache、Mamba 状态和 MoE 路由。
3.7 适用场景
Jamba 更适合:
- 需要长上下文但又不想完全放弃 Transformer 的模型设计
- 追求工程折中与稳妥演进的团队
- 希望在单模型中同时兼顾吞吐、容量和质量的架构探索
4. DeepSeek-V2:在 Transformer 内部做系统级高效优化
4.1 设计思想
DeepSeek-V2 并没有选择替代 Transformer 主干,而是保留其主体结构,在内部最昂贵的两个环节进行定向优化:
- 注意力侧:降低 KV Cache;
- FFN 侧:降低激活计算与训练成本。
其对应的两个核心模块为:
- MLA(Multi-head Latent Attention)
- DeepSeekMoE
这条路线的本质是:
不推翻 Transformer,而是将其最贵的系统部件逐个重构。
4.2 MLA:以低秩潜变量压缩 KV Cache
MLA 的核心思路是:
- 不再直接缓存完整的 K/V;
- 而是先对 K/V 做联合低秩压缩;
- 在线推理时主要缓存压缩后的 latent representation。
这样做的直接收益是:
- 显著降低 KV Cache 占用;
- 保留 attention 的表达能力;
- 对 Transformer 工程栈更友好;
- 相较简单 GQA/MQA,有更好的压缩---性能平衡。
与 Mamba-2 的对比非常清晰:
- Mamba-2:尽量不用传统 KV Cache;
- DeepSeek-V2:继续使用 attention,但把 KV Cache 压缩得非常小。
4.3 DeepSeekMoE:面向效率的专家设计
DeepSeekMoE 不是简单复用传统 MoE,而是在两个方面进行了结构性强化:
4.3.1 Fine-grained Expert Segmentation
将专家划分得更细粒度,使 routed expert 更容易形成专业化能力,减少"粗专家"带来的冗余。
4.3.2 Shared Expert Isolation
单独设置共享专家来承载共通知识,减少所有 routed experts 都重复学习通用模式的问题,从而提升专家利用效率。
4.4 Device-limited Routing
MoE 的一个现实问题是跨设备通信。DeepSeek-V2 在设计中加入了面向设备约束的路由策略,用以降低专家并行带来的通信成本。这说明其优化并不局限于模型层,而是考虑了大规模训练/推理系统中的真实瓶颈。
4.5 DeepSeek-V2 的效率来源
DeepSeek-V2 的效率来自两个方向的协同:
- MLA 降低 KV Cache:缓解长上下文推理显存压力;
- DeepSeekMoE 降低 FFN 激活成本:在较大总参数下控制单 token 计算;
- 系统级路由优化:减少跨卡通信损耗;
- 与 Transformer 生态兼容性高:更容易接入现有训练与服务框架。
4.6 DeepSeek-V2 的优势
- 保留 Transformer 主框架:迁移成本更低;
- KV Cache 压缩效果强:适合长上下文在线推理;
- MoE 系统意识强:不仅关注 FLOPs,也关注通信与部署;
- 更适合服务化落地:易于与现有大模型平台结合。
4.7 DeepSeek-V2 的不足
- 仍未脱离 attention 主体:极长序列下理论复杂度问题没有完全消失;
- MLA/DeepSeekMoE 实现复杂:需要较成熟的工程基础;
- 大规模部署依赖强系统优化:通信与量化策略仍是关键。
4.8 适用场景
DeepSeek-V2 更适合:
- 长上下文在线服务
- 需要大规模推理吞吐的部署系统
- 已有 Transformer 训练/推理基础设施的团队
- 优先考虑工程落地与成本控制的场景
5. 三类高效架构的横向对比
5.1 方法路线对比
| 维度 | Mamba-2 | Jamba | DeepSeek-V2 |
|---|---|---|---|
| 主路线 | 新型 SSM 骨干 | 混合骨干 | Transformer 内部优化 |
| 核心思想 | SSD + 高效状态建模 | Attention + Mamba + MoE 分工 | MLA + DeepSeekMoE |
| 是否依赖传统 attention | 弱依赖/可大幅替代 | 部分保留 | 明确保留 |
| KV Cache 压力 | 低 | 中低 | 低 |
| 长上下文优势 | 强 | 强 | 强 |
| 工程迁移成本 | 高 | 中高 | 中 |
| 系统复杂度 | 中 | 高 | 高 |
| 生态兼容性 | 较弱 | 中等 | 较强 |
| 适合研究方向 | 后 Transformer | 混合架构 | 产业化高效 Transformer |
5.2 效率来源对比
Mamba-2
效率本质来源于:
- 用状态替代显式全历史交互;
- 用 SSD 让 SSM 更适合块状矩阵乘;
- 让训练和推理更贴近现代加速器的高效执行模式。
Jamba
效率本质来源于:
- 用 Mamba 层减少长上下文成本;
- 用少量 attention 保留核心建模优势;
- 用 MoE 扩展容量而不线性增加每 token 计算。
DeepSeek-V2
效率本质来源于:
- 用 MLA 极大压缩 KV Cache;
- 用 DeepSeekMoE 降低 FFN 激活成本;
- 用系统级路由设计约束通信开销。
5.3 哲学差异
三者实际上代表了三种完全不同的架构哲学:
Mamba-2:范式替代
其核心问题是:
能不能用一种不同于 attention 的序列建模骨干,重新定义大模型主干?
Jamba:混合折中
其核心问题是:
如果不同模块各有优势,能否让它们在同一网络中分工协作?
DeepSeek-V2:系统优化
其核心问题是:
在不抛弃 Transformer 的前提下,能否把最昂贵的系统部件逐个高效化?
6. 关键优缺点总结
6.1 Mamba-2
优点:
- 代表后 Transformer 新方向
- 长序列潜力强
- 缓存压力小
- 理论与结构创新强
缺点:
- 工程生态尚不成熟
- 系统迁移成本大
- 需要重建不少基础设施与最佳实践
6.2 Jamba
优点:
- 折中现实,易于理解
- 兼顾质量、容量与效率
- 适合长上下文与较大模型规模
缺点:
- 结构复杂,训练与部署链路重
- 多种模块并存,调试与调参成本高
6.3 DeepSeek-V2
优点:
- 兼容 Transformer 主框架
- KV Cache 压缩显著
- 适合服务化部署
- 系统优化思路成熟
缺点:
- attention 主体仍在,极长序列理论优势不如纯 SSM
- MLA 与 MoE 工程门槛较高
- 依赖强系统实现能力
7. 面向实际项目的选型建议
7.1 如果你关注后 Transformer 骨干研究
优先研究 Mamba-2。
原因:
- 它不是简单 patch,而是新的骨干范式;
- 对状态建模、长序列建模和理论统一有较高研究价值;
- 适合作为学术研究、前沿模型探索和新型高效骨干设计的起点。
7.2 如果你关注工程折中与长上下文综合表现
优先研究 Jamba。
原因:
- 它更像"现实世界里可行的混合方案";
- 保留 attention,降低完全换骨干的风险;
- 适合在已有 Transformer 基础上做渐进式高效化探索。
7.3 如果你更关注大规模部署与服务化效率
优先研究 DeepSeek-V2。
原因:
- 它直接命中线上服务最昂贵的两个模块:KV Cache 与 FFN;
- 便于接入现有 Transformer 生态;
- 对实际推理吞吐、显存和系统成本更友好。
8. 总结
Mamba-2、Jamba、DeepSeek-V2 并不是同一问题的微小变体,而是三种差异显著的高效架构路线。
- Mamba-2 代表"以 SSM 替代 attention"的新骨干方向;
- Jamba 代表"让 attention、Mamba、MoE 各司其职"的混合架构方向;
- DeepSeek-V2 代表"在 Transformer 主框架内做系统级高效优化"的产业化方向。
若从技术演进路径看:
- Mamba-2 更偏研究前沿;
- Jamba 更偏结构折中;
- DeepSeek-V2 更偏工程落地。
这三条路线很可能会在未来继续交汇:
- Transformer 会进一步吸收状态建模思想;
- SSM 路线会继续向更强硬件友好性演进;
- MoE 与 KV 压缩将成为大模型系统设计中的长期主题。
因此,对这三类架构的理解,不仅有助于把握当前高效大模型的发展方向,也有助于为后续多模态、长上下文、边缘部署和大规模服务化系统的设计提供参考。
9. 参考资料
- Tri Dao, Albert Gu. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. arXiv, 2024.
- Tri Dao. State Space Duality (Mamba-2) Blog Series. 2024.
- AI21 Labs et al. Jamba: A Hybrid Transformer-Mamba Language Model. arXiv, 2024.
- DeepSeek-AI. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arXiv, 2024.
- DeepSeek-V2 official repository and technical materials.
10.速记结论
- Mamba-2:用状态空间模型重新定义高效序列骨干。
- Jamba:用混合架构在质量、容量与效率之间取平衡。
- DeepSeek-V2:在 Transformer 内部对 KV Cache 和 MoE 做系统级降本提效。