Mamba 会替代 Transformer 成为 AI 的下一代底层模型吗？

2017 年之前，AI 处理序列的方式不是那么聪明------RNN 和 LSTM这两种神经网络，必须要一个字一个字读取，对于全文的意思理解不够。

然后，Google 发了篇论文叫《Attention is All You Need》，AI的起源。

核心就一句话：不要一个字一个字读了，可以同时看到其他所有的字。

这一个改动，训练速度快了 100 倍，效果还更好。

于是所有人都来了。ChatGPT、Opus、DeepSeek、Sora------全部基于 Transformer。它统一了语言、视觉、语音、视频，成了 AI 的"标准答案"。

大家都了解，计算复杂度是Transfer最大的软肋。Transformer 的注意力机制是 O(n²) 复杂度------序列长度翻倍，计算量翻四倍。

实际后果：

大模型越来越"能聊"，但也越来越"健忘"。

2023 年底，一个叫 Mamba 的架构出来了。

核心创新就一点：让模型根据内容动态决定记什么、忘什么。

这很反直觉。传统模型对所有输入一视同仁，Mamba 不一样------它会挑重点。

就像你读论文，方法和结论细看，而过渡句扫一眼就行了。Mamba 让 AI 学会了这种"偷懒"。

Jamba 是第一个 Mamba+Transformer 混合的语言模型，AI21 Labs 做的。256K 上下文窗口，推理速度比同规模 Transformer 快 3 倍，显存省 40%。

这说明什么？

具体来说：

这对长文档、对话、代码补全这些场景，是质的飞跃。

我判断有三种可能：

场景一：Mamba 取代 Transformer（15%）

需要 Mamba 在 100B+ 参数规模上证明自己，还要硬件厂商全面支持。目前看，很难。

场景二：融合共存（60%）

最可能的结果。短序列继续用 Transformer，长序列用 Mamba，混合架构成为主流。就像今天 CNN 和 Transformer 在视觉领域的共存。

场景三：Mamba 被遗忘（25%）

如果 Transformer 的优化（比如 Flash Attention）持续进步，Mamba 又在大规模训练中遇到瓶颈，可能退居学术研究。类似当年 Capsule Network 的命运。

高潜力场景：

低潜力场景：

Transformer 不是唯一的答案。AI 的底层架构还有很大探索空间。

技术人现在该做的：学原理，关注进展，在合适的场景尝试。但别押注它替代 Transformer------大概率是共存，不是替代。