这两年很多人有个共同的体感:每一代新模型发布,惊艳感都在变弱。从 GPT-3 到 GPT-4,那是一次让人坐直身子的跳跃;而再往后,参数更大、跑分更高,用起来却像是"又强了一点点"。于是一个问题越来越频繁地被问起:大模型是不是到顶了?
我想先把这个问题拆开。因为大多数关于"到顶"的争论,吵的根本不是同一件事。
"到顶了"其实藏着三个问题
把它们分清楚,结论会清楚很多。
第一个问题:靠把模型继续堆大,还能不能换来感知得到的能力提升? 这条路确实在变平,下面会讲为什么。
第二个问题:Transformer 这套架构是不是到极限了?目前没有证据支持。上下文长度、记忆、效率都有改进空间,但把它换成别的架构,短期内大概率不会带来一次新的跳跃------卡住当前模型的不是架构。
第三个问题:大模型这种"用海量数据拟合智能"的整体路线是不是走到尽头了?离尽头还远,因为除了堆规模,它还有别的增长方式没被用尽。
人们嘴上说的"大模型到顶了",几乎都只在第一个问题上成立。把这三个问题混在一起谈,就会得出"AI 要停滞了"这种过头的结论。
那条著名的定律,预测的是损失,不是能力
要理解第一条路为什么变平,得先认识 Scaling Law(缩放定律)。
2020 年 OpenAI 提出了一个经验规律:模型的预测误差(loss),会随着参数量、数据量、算力的增大而平滑下降,下降的轨迹是一条幂律曲线。2022 年 DeepMind 的 Chinchilla 又补了一刀:算力和数据要按比例一起放大,大约每个参数配 20 个 token 才最划算。这套规律的威力在于,它让训练大模型从炼丹变成了能做预算的工程------先用小模型拟合出曲线,再决定花多少钱训多大的模型。
但这里有一个最容易被忽略、也最要命的细节:Scaling Law 预测的是 loss,不是能力。
模型优化的目标,是把"预测下一个词"的误差压低。而我们想要的,是推理、规划、不胡说。这两者之间隔着一层。很多能力不是随 loss 平滑长出来的,而是到某个规模才突然出现;反过来,loss 还在缓慢下降时,对应的下游能力可能早就饱和了------你把误差再压低一点,模型只是多背了些冷僻知识,并不会更会推理。
所以那条曲线能精准告诉你下一代模型的 loss 落在哪,却答不出它会不会推理、会不会少犯错。用一条预测损失的曲线,去推断能力的天花板,这本身就是一次误读。 它从来没说过"到此为止",它只说"越往后,每多花十倍算力,loss 只能再降一点点"。换句话说,它描述的是收益递减的速度,不是某个终点。
卡住它的,是两堵很硬的墙
如果说曲线变平是趋势,那真正把"堆大模型"这条路逼到墙角的,是两个具体的约束。
第一堵是数据墙,这是最硬的一堵。 Chinchilla 告诉我们算力和数据得同比例放大。算力可以靠砸钱无限堆,但高质量的文本是有限存量。研究机构 Epoch AI 的估算是,互联网上真正高质量、低重复的文本,会在 2028 年前后被前沿模型用尽。Ilya Sutskever 在 2025 年底说得更直白:我们正在迎来"数据峰值",他把这比作化石燃料------烧一点少一点,不会再生。数据喂不上,参数再大也只是回到那种"参数过剩、吃不饱"的低效状态。合成数据是补救,但有模型自我循环导致质量坍塌的风险,不是无限燃料。
第二堵是成本账单,而且账单是反着涨的。 想让 loss 线性下降,算力得指数上升。前沿模型的训练成本已经从百万级冲到上亿美元,每代涨一个数量级,电力、芯片、数据中心都成了实打实的天花板。幂律的残酷就在这里:你付出的是指数级的代价,换回的是对数级的回报。
这两堵墙叠加的结果,已经能在产品上看到。据多方报道,OpenAI 下一代基座模型(代号 Orion)相比 GPT-4 的进步,远小于当年 GPT-3 到 GPT-4 的跨度,某些编程能力甚至不升反降。这不是哪里出了 bug,这正是幂律收益递减该有的样子。
但车没坏,它还剩两个油门
把大模型的发展想象成一辆车。过去几年,它主要踩的是"预训练规模"这一个油门,现在这个油门快踩到底了,所以你感觉它没劲了。但车本身没坏,它最近长出了另外两个油门。
第一个油门是后训练,尤其是强化学习。 同一个基座,靠对齐和强化学习把已有的能力榨出来。在数学、代码这类对错可判定的领域,用可验证的奖励信号做强化学习,效果已经被反复验证。2025 年初 DeepSeek R1 把这条路开源复现,让整个行业都看到了它的潜力。
第二个油门是推理时计算,它最值得关注。 以前模型是一遍过给答案,现在让它在回答时多想一会------展开长推理链、多次采样、做搜索。OpenAI 的 o 系列走的就是这条路。它的迷人之处在于,"想得更久"本身也服从一条幂律:投入越多推理算力,答案质量越高。 这等于在"训练规模"之外,又打开了一个全新的算力预算维度,而且短期内它比再训一个十倍大的基座便宜得多、见效得多。
2025 年之后,前沿模型普遍是三种方式一起上:预训练把基座推到极限,后训练注入对齐和风格,推理时再靠思维链补强。Ilya 把 2020 到 2025 称作"scaling 的时代",并宣布它结束了,接下来是"research 的时代"------进步要靠算法突破,而不再是蛮力堆料。
所以,还会有大跃迁吗
我的判断分两层。
如果你问的是"再把模型堆大十倍,会不会再现 GPT-3 到 GPT-4 那种跳跃",大概率不会,那条曲线已经平了。 但如果你问的是"AI 还会不会有下一次让人坐直身子的进步",我倾向于会------只是它不会来自更大,而会来自更会用算力:推理时计算、强化学习,以及把模型组装成能调工具、能多步执行、能自我纠错的 Agent 系统。单次回答的智能有上限,系统的智能上限要高得多。
至于很多人担心的"是不是只能退而求其次,转去做垂直领域和工程化"------我的看法恰恰相反。工程化和垂直化不是通用能力到顶后的退路,它本身就是这个阶段释放价值的主战场。现在很多瓶颈不在模型不够聪明,而在它的聪明没被有效地组织和约束:同一个基座,配上好的检索、好的工具、好的反馈回路,效果能差出一个数量级。
更被低估的一点是,垂直领域还在反过来给下一轮增长喂料。通用模型撞上的是数据墙,而在编程、医疗、法律这些专业场景里,专业数据和"对错可判定"的反馈,正是稀缺而新鲜的燃料------它恰好补上了通用预训练缺的那一块。垂直化不只是应用层的事,它在为能力的下一段增长积蓄原料。
当前真正的不确定性,从来不是"规模还能不能涨"------技术上还能涨。而是这几条新油门,能不能像当年的预训练那样,堆出跨数量级的复利。这一点目前没有定论,乐观的人和谨慎的人都拿不出决定性的证据。能确定的只有一件事:那个靠把模型做大就能稳定收获惊喜的时代,已经过去了;接下来比的,是谁更懂得把有限的算力,花在对的地方。