大模型是否即将到达算法极限:深入总结
一、核心结论
目前的大模型确实已经非常强大,但更准确的判断不是:
大模型算法潜力即将到达极限。
而是:
纯 Transformer + 纯互联网语料 + 纯预训练 scaling 这条旧路线,正在接近阶段性瓶颈。
也就是说:
- 第一代大模型红利正在进入平台期
- 但智能系统的算法潜力远没有结束
- 未来增长点会从"更大预训练模型"转向"推理、工具、记忆、验证、智能体系统"
二、什么东西正在接近瓶颈?
过去几年大模型主要依赖:
text
能力提升 ≈ 参数量 × 训练 token 数 × 训练算力
也就是:
text
更大模型 + 更多数据 + 更多算力
这条路线确实带来了 GPT-3、GPT-4、DeepSeek、Claude、Gemini 等模型的爆发。
但是现在出现几个明显瓶颈:
1. 高质量公开语料接近天花板
互联网文本并不是无限的。
继续堆低质量、重复、噪声数据,收益会越来越低。
过去是:
text
数据越多越好
未来会变成:
text
高质量数据 > 海量低质量数据
2. 纯预训练的边际收益下降
预训练 scaling 仍然有效,但越来越贵。
也就是说:
text
继续堆参数和数据,模型还会变强
但:
text
每提升一点能力,需要越来越多算力和成本
这说明旧路线进入边际收益递减阶段。
3. Transformer 结构本身有清晰瓶颈
标准 Transformer 的核心瓶颈包括:
- Attention 复杂度是 (O(n^2))
- 长上下文成本高
- KV cache 显存占用大
- 静态参数不能持续学习
- 训练完成后知识更新困难
- 模型容易幻觉
- 缺少真实世界交互闭环
所以,标准 decoder-only Transformer 不是终极结构。
三、为什么这不等于"大模型到极限"?
因为大模型能力不只有预训练一条轴。
未来至少有六条新的增长方向。
四、方向一:后训练与强化学习
过去大模型主要学习:
P(x_t \\mid x_{\ 也就是: 但 reasoning model 的方向是学习:
P(\\text{正确推理轨迹} \\mid \\text{问题})
这已经不是普通语言建模,而是: 未来模型能力提升会越来越依赖: 也就是说,模型不只是"会说",而是要"会思考、会验证、会修正"。 过去的 scaling 主要发生在训练阶段: 现在出现第二种 scaling: 也就是模型在回答问题时可以: 这类似于围棋 AI: 所以,即使模型主体结构不变,推理过程也可以显著提升能力。 公开文本快到天花板,不代表智能数据到天花板。 未来更重要的数据包括: 例如: 这些不是普通网页文本,价值密度更高。 合成数据不是简单地让模型生成文本喂给自己。 有价值的合成数据必须满足: 例如: 所以未来不是: 而是: 虽然 decoder-only Transformer 很强,但它不是终点。 未来可能是混合架构:
\\text{Transformer} + \\text{SSM} + \\text{MoE} + \\text{Memory} + \\text{Tool}
Mamba 等状态空间模型试图解决: 它们把历史信息压缩进状态:
h_t = A h_{t-1} + Bx_t
从而用 (O(1)) 或接近 (O(1)) 的状态替代显式 KV cache。 MoE 的思想是: 这类似人脑: MoE 可以在计算成本不同比例增加的情况下扩大模型容量。 未来主流可能不是纯 Transformer 或纯 Mamba,而是: 单个 LLM 本质上是: 但真正的智能系统应该是: 未来模型要解决的核心问题不是: 而是: 因此关键能力会转向: 模型本体会变成一个"认知中枢",而不是孤立的文本生成器。 当前大模型的上下文窗口和 KV cache 只是短期记忆。 真正智能系统需要: 这意味着未来智能体会从: 演化为: 你之前提出过一个很好的类比: 现在的大模型本质是: 它通过多层堆叠隐式逼近高阶组合。 但未来还缺三类东西: 在科学、化学、材料、复杂因果系统中,三元/四元关系可能非常重要。 KV cache 是短期记忆,不是真正长期记忆。 模型内部概率高,不等于现实世界正确。 所以未来智能不是:
P(\\text{text})
而是:
P(\\text{action succeeds in world})
也就是: 这类极限正在逼近。 包括: 这条路边际收益正在下降。 还没有完全到,但瓶颈已经清楚: 这个远远没到。 因为现在模型还远没有做到: 所以语言模型已经很强,但智能系统仍处于早期。 可以总结成三句话: 高质量公开文本有限,继续硬堆参数、数据、算力,收益会越来越贵。 新战场是: 未来的核心不是: 而是: 大模型不是到极限了,而是"靠静态语料预训练获得智能"的第一阶段快到平台期;下一阶段的核心,是从语言模型进化为可验证、可执行、可长期学习的智能系统。 如果从技术选择看,未来更有价值的方向可能不是简单训练一个大模型,而是围绕大模型构建系统能力: 这也是为什么 AI 编译器、算子优化、推理引擎、Agent 系统、机器人闭环系统 仍然有很大空间。 过去的大模型是: 未来的大模型系统会是: 这才是下一阶段真正的算法潜力所在。
给定前文,预测下一个 token
推理轨迹建模
五、方向二:Test-time Scaling
训练时投入更多算力
推理时投入更多算力
不是只靠直觉网络,而是直觉网络 + 搜索
六、方向三:合成数据与可验证数据
1. 专家数据
2. 合成数据
可验证 + 有新信息 + 有难度梯度
AI 写数据,AI 吃数据
AI 生成任务,工具/环境/验证器筛选数据
七、方向四:模型结构仍然会演化
1. Mamba / SSM
2. MoE
总参数很大,但每个 token 只激活一部分专家
不是每次激活整个大脑,而是按任务激活局部专家模块
3. 混合架构
短距离复杂关系:Attention
长距离状态记忆:SSM / Mamba
稀疏专家能力:MoE
外部知识:Retrieval
可靠执行:Tool / Code / Environment
八、方向五:工具调用和外部验证
语言概率模型
LLM + 工具 + 记忆 + 搜索 + 执行器 + 验证器
能不能生成看起来合理的话
能不能可靠完成任务
九、方向六:长期记忆和智能体系统
一次性问答系统
长期运行的认知操作系统
十、用"泰勒展开"框架理解
二阶 dense attention + 多层非线性堆叠1. 显式高阶结构
2. 动态记忆
3. 外部验证
行动成功概率建模
十一、真正的极限分三类
第一类:旧 scaling 极限
第二类:Transformer 结构极限
第三类:智能系统极限
十二、最终判断
1. 纯预训练大模型的旧路线正在接近阶段性极限
2. 算法潜力没有到极限,而是在换战场
3. 真正的大机会不是再造一个更大的 GPT,而是造智能系统
一个更大的语言模型
一个能思考、验证、执行、记忆、迭代的智能系统
十三、一句话压缩
十四、对个人方向的启发
结尾
大语料 + 大参数 + 大算力
模型 + 工具 + 记忆 + 搜索 + 验证 + 执行 + 环境反馈