大模型是不是到顶了？瓶颈到底在哪

这两年很多人有个共同的体感：每一代新模型发布，惊艳感都在变弱。从 GPT-3 到 GPT-4，那是一次让人坐直身子的跳跃；而再往后，参数更大、跑分更高，用起来却像是"又强了一点点"。于是一个问题越来越频繁地被问起：大模型是不是到顶了？

我想先把这个问题拆开。因为大多数关于"到顶"的争论，吵的根本不是同一件事。

"到顶了"其实藏着三个问题

把它们分清楚，结论会清楚很多。

第一个问题：靠把模型继续堆大，还能不能换来感知得到的能力提升？ 这条路确实在变平，下面会讲为什么。

第二个问题：Transformer 这套架构是不是到极限了？目前没有证据支持。上下文长度、记忆、效率都有改进空间，但把它换成别的架构，短期内大概率不会带来一次新的跳跃------卡住当前模型的不是架构。

第三个问题：大模型这种"用海量数据拟合智能"的整体路线是不是走到尽头了？离尽头还远，因为除了堆规模，它还有别的增长方式没被用尽。

人们嘴上说的"大模型到顶了"，几乎都只在第一个问题上成立。把这三个问题混在一起谈，就会得出"AI 要停滞了"这种过头的结论。

那条著名的定律，预测的是损失，不是能力

要理解第一条路为什么变平，得先认识 Scaling Law（缩放定律）。

2020 年 OpenAI 提出了一个经验规律：模型的预测误差（loss），会随着参数量、数据量、算力的增大而平滑下降，下降的轨迹是一条幂律曲线。2022 年 DeepMind 的 Chinchilla 又补了一刀：算力和数据要按比例一起放大，大约每个参数配 20 个 token 才最划算。这套规律的威力在于，它让训练大模型从炼丹变成了能做预算的工程------先用小模型拟合出曲线，再决定花多少钱训多大的模型。

但这里有一个最容易被忽略、也最要命的细节：Scaling Law 预测的是 loss，不是能力。

模型优化的目标，是把"预测下一个词"的误差压低。而我们想要的，是推理、规划、不胡说。这两者之间隔着一层。很多能力不是随 loss 平滑长出来的，而是到某个规模才突然出现；反过来，loss 还在缓慢下降时，对应的下游能力可能早就饱和了------你把误差再压低一点，模型只是多背了些冷僻知识，并不会更会推理。

所以那条曲线能精准告诉你下一代模型的 loss 落在哪，却答不出它会不会推理、会不会少犯错。用一条预测损失的曲线，去推断能力的天花板，这本身就是一次误读。 它从来没说过"到此为止"，它只说"越往后，每多花十倍算力，loss 只能再降一点点"。换句话说，它描述的是收益递减的速度，不是某个终点。

卡住它的，是两堵很硬的墙

如果说曲线变平是趋势，那真正把"堆大模型"这条路逼到墙角的，是两个具体的约束。

第一堵是数据墙，这是最硬的一堵。 Chinchilla 告诉我们算力和数据得同比例放大。算力可以靠砸钱无限堆，但高质量的文本是有限存量。研究机构 Epoch AI 的估算是，互联网上真正高质量、低重复的文本，会在 2028 年前后被前沿模型用尽。Ilya Sutskever 在 2025 年底说得更直白：我们正在迎来"数据峰值"，他把这比作化石燃料------烧一点少一点，不会再生。数据喂不上，参数再大也只是回到那种"参数过剩、吃不饱"的低效状态。合成数据是补救，但有模型自我循环导致质量坍塌的风险，不是无限燃料。

第二堵是成本账单，而且账单是反着涨的。 想让 loss 线性下降，算力得指数上升。前沿模型的训练成本已经从百万级冲到上亿美元，每代涨一个数量级，电力、芯片、数据中心都成了实打实的天花板。幂律的残酷就在这里：你付出的是指数级的代价，换回的是对数级的回报。

这两堵墙叠加的结果，已经能在产品上看到。据多方报道，OpenAI 下一代基座模型（代号 Orion）相比 GPT-4 的进步，远小于当年 GPT-3 到 GPT-4 的跨度，某些编程能力甚至不升反降。这不是哪里出了 bug，这正是幂律收益递减该有的样子。

但车没坏，它还剩两个油门

把大模型的发展想象成一辆车。过去几年，它主要踩的是"预训练规模"这一个油门，现在这个油门快踩到底了，所以你感觉它没劲了。但车本身没坏，它最近长出了另外两个油门。

第一个油门是后训练，尤其是强化学习。 同一个基座，靠对齐和强化学习把已有的能力榨出来。在数学、代码这类对错可判定的领域，用可验证的奖励信号做强化学习，效果已经被反复验证。2025 年初 DeepSeek R1 把这条路开源复现，让整个行业都看到了它的潜力。

第二个油门是推理时计算，它最值得关注。 以前模型是一遍过给答案，现在让它在回答时多想一会------展开长推理链、多次采样、做搜索。OpenAI 的 o 系列走的就是这条路。它的迷人之处在于，"想得更久"本身也服从一条幂律：投入越多推理算力，答案质量越高。 这等于在"训练规模"之外，又打开了一个全新的算力预算维度，而且短期内它比再训一个十倍大的基座便宜得多、见效得多。

2025 年之后，前沿模型普遍是三种方式一起上：预训练把基座推到极限，后训练注入对齐和风格，推理时再靠思维链补强。Ilya 把 2020 到 2025 称作"scaling 的时代"，并宣布它结束了，接下来是"research 的时代"------进步要靠算法突破，而不再是蛮力堆料。

所以，还会有大跃迁吗

我的判断分两层。

如果你问的是"再把模型堆大十倍，会不会再现 GPT-3 到 GPT-4 那种跳跃"，大概率不会，那条曲线已经平了。 但如果你问的是"AI 还会不会有下一次让人坐直身子的进步"，我倾向于会------只是它不会来自更大，而会来自更会用算力：推理时计算、强化学习，以及把模型组装成能调工具、能多步执行、能自我纠错的 Agent 系统。单次回答的智能有上限，系统的智能上限要高得多。

至于很多人担心的"是不是只能退而求其次，转去做垂直领域和工程化"------我的看法恰恰相反。工程化和垂直化不是通用能力到顶后的退路，它本身就是这个阶段释放价值的主战场。现在很多瓶颈不在模型不够聪明，而在它的聪明没被有效地组织和约束：同一个基座，配上好的检索、好的工具、好的反馈回路，效果能差出一个数量级。

更被低估的一点是，垂直领域还在反过来给下一轮增长喂料。通用模型撞上的是数据墙，而在编程、医疗、法律这些专业场景里，专业数据和"对错可判定"的反馈，正是稀缺而新鲜的燃料------它恰好补上了通用预训练缺的那一块。垂直化不只是应用层的事，它在为能力的下一段增长积蓄原料。

当前真正的不确定性，从来不是"规模还能不能涨"------技术上还能涨。而是这几条新油门，能不能像当年的预训练那样，堆出跨数量级的复利。这一点目前没有定论，乐观的人和谨慎的人都拿不出决定性的证据。能确定的只有一件事：那个靠把模型做大就能稳定收获惊喜的时代，已经过去了；接下来比的，是谁更懂得把有限的算力，花在对的地方。