

子玥酱 (掘金 / 知乎 / CSDN / 简书 同名)
大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。
我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括 前端工程化、小程序、React / RN、Flutter、跨端方案,
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。
技术方向: 前端 / 跨端 / 小程序 / 移动端工程化 内容平台: 掘金、知乎、CSDN、简书 创作特点: 实战导向、源码拆解、少空谈多落地 **文章状态:**长期稳定更新,大量原创输出
我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在"API 怎么用",而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。
子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取 11 类前端进阶学习资源 (工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学"明白",也用"到位"
持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱
文章目录
-
- 引言
- 一、首先要搞清楚一个误区
- [二、GPT 为什么统治了一个时代](#二、GPT 为什么统治了一个时代)
- [三、GPT 最大的问题是什么](#三、GPT 最大的问题是什么)
- [四、MoE 本质上是在修补 GPT](#四、MoE 本质上是在修补 GPT)
- [五、为什么 DeepSeek 选择 MoE](#五、为什么 DeepSeek 选择 MoE)
- [六、MoE 的致命弱点](#六、MoE 的致命弱点)
- [七、Mamba 为什么突然火了](#七、Mamba 为什么突然火了)
- [八、Mamba 真正吸引人的地方](#八、Mamba 真正吸引人的地方)
- [九、为什么 Mamba 没有取代 Transformer](#九、为什么 Mamba 没有取代 Transformer)
- 十、真正的未来可能不是三选一
- 十一、真正的竞争已经变了
- 总结
引言
过去两年,大模型领域最有意思的一件事,不是参数规模突破了多少。
而是:
text
模型架构开始重新洗牌。
2023 年以前,整个行业几乎只有一个答案:
text
Transformer
大家做的事情非常统一:
text
GPT-3
GPT-4
Llama
Qwen
Claude
本质都是:
text
Dense Transformer
不断扩大:
text
参数
数据
算力
即可。但到了 2024~2026 年,越来越多人发现:
text
Attention 太贵
推理太贵
长上下文太贵
于是出现了两条新的路线。
第一条:
text
MoE
代表:
text
GPT-4
DeepSeek-V3
Mixtral
Qwen-MoE
第二条:
text
Mamba
代表路线是:
text
State Space Model
于是整个行业开始出现一个问题:
下一代大模型,到底应该往哪里走?
是继续相信 GPT?还是拥抱 MoE?还是彻底放弃 Transformer,转向 Mamba?
今天我们从架构角度来聊聊:
GPT、MoE、Mamba,谁更可能代表下一代大模型?
一、首先要搞清楚一个误区
很多人会把:
text
GPT
MoE
Mamba
放在一起比较。实际上这里有两个不同维度。
GPT:
text
Dense Transformer
MoE:
text
Sparse Transformer
Mamba:
text
State Space Model
因此真实关系应该是:
text
Transformer
├─ Dense(GPT)
└─ Sparse(MoE)
Mamba
也就是说,MoE 并不是 Transformer 的敌人。
而是:
text
Transformer 的进化版
真正挑战 Transformer 的,其实是:
text
Mamba
二、GPT 为什么统治了一个时代
GPT 最大的贡献其实不是能力。而是:
text
证明了 Scaling Law
过去大家不知道:
text
模型越来越大
到底有没有意义
GPT 告诉行业,答案是:
text
有意义
只要不断增加:
text
参数
数据
算力
模型能力会持续提升,形成的趋势是:
text
Loss
↓
↓
↓
于是整个行业进入暴力 Scaling 时代。
GPT 的优势非常明显:
1、简单
text
Dense Transformer
2、稳定
text
训练经验丰富
3、生态成熟
text
PyTorch
Megatron
DeepSpeed
全部支持,所以直到今天 GPT 架构仍然是风险最小的选择。
三、GPT 最大的问题是什么
答案也很明显:
text
太贵
例如,600B Dense Model。每个 Token:
text
600B 参数全部激活
即:
text
参数规模
≈
计算规模
这意味着,参数翻倍:
text
FLOPS翻倍
推理成本翻倍、训练成本翻倍。于是出现一个问题:
text
能力增长
开始追不上成本增长
这也是 GPT 路线面临的最大挑战。
四、MoE 本质上是在修补 GPT
MoE 并没有推翻 Transformer,而是解决一个问题:
为什么所有参数都要上班?
例如:
text
600B 参数
用户问:
text
1+1=?
Dense GPT:
text
600B 参数全部参与
显然浪费。于是 MoE 引入:
text
Router
形成:
text
Token
↓
Router
↓
Expert
例如:
text
600B 参数
只激活 30B
于是出现:
text
能力 ≈ 600B
成本 ≈ 30B
形成 Sparse Scaling 路线。
五、为什么 DeepSeek 选择 MoE
过去几年,行业逐渐发现,训练不是最大的成本,推理才是。
例如:
text
训练一次
推理无数次
如果:
text
API 每天百万用户
推理成本远超训练成本,MoE 最大价值就在这里:
text
降低推理 FLOPS
例如,DeepSeek-V3:
text
671B 参数
实际激活:
text
37B
于是:
text
能力接近超大模型
成本接近中型模型
这是 Dense GPT 无法做到的。
因此,未来几年:
text
MoE 大概率继续增长
六、MoE 的致命弱点
很多人觉得:
text
MoE 完胜 GPT
其实未必,因为它带来了新的问题:
text
通信
Dense:
text
AllReduce
已经够痛苦,MoE 变成:
text
AllToAll
例如:
text
TokenA
↓
Expert17
GPU1
TokenB
↓
Expert83
GPU16
每个 Token 都可能跨节点。于是:
text
网络压力爆炸
这也是为什么?MoE 越大,越依赖:
text
RDMA
InfiniBand
NVSwitch
很多时候:
text
GPU没满
网络先满
因此 MoE 的瓶颈已经从:
text
Compute
变成:
text
Network
七、Mamba 为什么突然火了
Mamba 出现的时候,整个行业眼前一亮。
因为它解决的是,Transformer 最根本的问题。
Attention:
text
O(N²)
长文本:
text
128K
256K
1M
成本极高。而 Mamba 核心复杂度:
text
O(N)
意味着:
text
Context翻10倍
计算量近似翻10倍
而不是:
text
翻100倍
于是很多人认为:
text
Transformer 时代结束了
八、Mamba 真正吸引人的地方
不仅仅是复杂度,还有:
text
KV Cache
Transformer:
text
Context 越长
KV 越大
最终:
text
显存爆炸
而 Mamba 本质是:
text
状态压缩
只维护:
text
Hidden State
形成:
text
固定大小记忆
于是:
text
长文本推理
优势巨大,特别适合一下场景:
text
1M Context
Agent Memory
长期记忆
九、为什么 Mamba 没有取代 Transformer
理论上很好,现实却很残酷,原因只有一句话:
text
生态
今天整个世界:
text
GPU
CUDA
PyTorch
FlashAttention
vLLM
TensorRT-LLM
全部围绕 Transformer 优化。而 Mamba 缺少:
text
成熟训练框架
成熟推理框架
成熟部署经验
于是出现一下现象:
text
理论领先
工程落后
这也是过去几年一直发生的事情。
十、真正的未来可能不是三选一
很多人喜欢讨论:
text
GPT
VS
MoE
VS
Mamba
实际上未来更可能是融合了:
text
GPT + MoE + Mamba
例如:
text
Attention Layer
↓
Mamba Layer
↓
MoE Layer
形成:
text
Hybrid Architecture
未来模型可能同时拥有:
1、Transformer 负责:
text
全局理解
2、MoE 负责:
text
降低 FLOPS
3、Mamba 负责:
text
超长上下文
大家共同组成:
text
Transformer 2.0
十一、真正的竞争已经变了
有趣的是,今天很多人还在讨论:
text
模型架构
但头部 AI 公司关注的东西已经变成:
text
训练系统
推理系统
Agent Runtime
因为对于 GPT、MoE、Mamba 来说,真正限制发展的已经不是:
text
算法
而是:
text
GPU
网络
KV Cache
推理成本
未来最大的突破,很可能来自:
text
系统工程
而不是:
text
新的模型结构
总结
如果用一句话概括 GPT、MoE、Mamba 的竞争:
GPT 解决了"大模型能否变强",MoE 解决了"大模型能否养得起",Mamba 解决了"大模型能否记得住"。
三者分别代表:
text
GPT
=
能力扩展
text
MoE
=
成本优化
text
Mamba
=
长上下文扩展
从当前趋势来看,未来几年最可能发生的事情不是:
text
某一个架构消灭其它架构
而是:
text
Transformer 保留
MoE 普及
Mamba 融合
最终形成一种新的混合架构,因为 AI 行业已经慢慢发现:
下一代大模型竞争的核心,不是谁拥有最多参数。
而是谁能在能力、成本、上下文长度之间找到最优平衡点。