算力的迷雾

引言

站在2025年的尾巴上,全球AI行业呈现出一种令人眩晕的撕裂感。

在旧金山,耗资数倍算力训练出来的GPT-5并没有像GPT-4那样带来预期中的、断层式的跃迁。

在山景城,Google的Gemini 3 Pro却席卷全球,助推母公司Alphabet的市值逼近4万亿美元大关。

如果我们仅仅根据GPT-5的表现就断言Scaling Law失效,那是短视的。

如果我们因为Google的股价就盲目乐观,那更是无知的。

Scaling Law

同样的算力洪流,却给出了完全不同的答案。

这不是巧合,而是一层正在缓慢下沉的迷雾。

让我们回到那个著名的经验公式Scaling Law(缩放定律):

这个公式曾向我们承诺,只要把参数、数据、算力往上推,模型误差就能下降,智能就一定会涌现。

这就像是物理学定律一样,给了投资人们无限的信心,让他们敢于在沙漠里建设核电站级别的数据中心。

在科学家的对数世界里,Scaling Law是一条通往天堂的直线。

但在工程师的线性世界里,它是一条通往地狱的收益递减曲线。

Power Law

模型的误差L与参数量N、数据量D之间,是一个幂律关系(Power Law)。

这意味着,它们在双对数坐标系(Log-Log Plot)下才是一条直线。

这就是所谓的视觉欺骗,也是对数陷阱的来源。

在AI发展的早期,从1亿参数到100亿参数,算力的指数级增长带来了智能的肉眼可见的飞跃。

我们习惯了这种投入一分,收获一分的线性快感。

但当我们迈入10万亿参数的深水区时,数学规律露出了另外的一面。

要想获得同样的线性智力增长,需要10倍、100倍甚至更多的算力。

在万亿参数区间,数据难度与优化地形发生结构性变化,使得幂律的有效斜率开始随规模降低。

我们正在进入一个可怕的区间,边际收益逼近边际成本。

这到底是黎明前的迟滞?

还是宇宙给智能设置的物理上限?

为什么Scaling Law会出现动摇?

为什么投入了天文数字的算力,Loss曲线(误差)却有时拒绝下降,甚至莫名其妙地发散?

如果我们只是简单地将其归结为算力不够或数据不够,那就太傲慢了。

真正的问题在于,我们在用三维世界的直觉,去揣测万亿维空间的几何结构。

从碗到迷宫

在教科书里,或者在简单的机器学习模型中,我们习惯了凸优化 (Convex Optimization)的思维。

哪怕是三维空间,损失函数的曲面看起来就像一个光滑的碗。只要你沿着坡度(梯度)往下滚,无论你从哪里出发,最终一定能滚到碗底(全局最优解)。

但在拥有10万亿参数的大模型里,这个地形图变成了10万亿维。

这是一个极其诡异、反直觉的非凸 (Non-convex)世界。它不是一个碗,它是喜马拉雅山脉的褶皱里藏着无数个马里亚纳海沟,如同迷宫一般。

在这个高维世界里,SGD(随机梯度下降)算法就像一个被蒙住双眼的登山者。

他手里没有地图,看不见远方,只能靠脚底板感受到的那一点点坡度,来决定下一步往哪走。

鞍点的迷魂阵

在这个高维迷宫中,最大的敌人甚至不是悬崖(梯度爆炸),而是鞍点 (Saddle Point)。

想象一下马鞍的形状,前后是翘起来的,左右是耷拉下去的。中心点是平的。

在高维数学中,存在一个反直觉的现象。维度越高,出现局部死胡同(局部最小值)的概率反而越低,但出现鞍点的概率呈指数级上升。

这构成了迷雾的核心,平庸的广阔性。

当我们的优化算法(SGD)走到这里时,它会发现,脚下是平的,四周也是平的,梯度消失了,指南针(导数)指向了零。

算法的鬼打墙

此刻,我们就陷入了所谓的高维鬼打墙。

工程师看到Loss不动,只能两种猜测:

  • 猜测一:我们真的已经到达了谷底(收敛),模型已经学尽了数据里的所有智慧,再训练下去就是过拟合。

  • 猜测二:我们只是被困在了半山腰的一片巨大平原(鞍点)上,而在平原的边缘,也许就藏着通往超级智能的、更深邃的峡谷。

这就是迷雾的本质,我们失去了坐标系,无法区分是到了终点还是困在半路。

在万亿维度的黑暗森林里,我们拿着手电筒(算力),却照不到地图的边界。

这时候,单纯地堆算力,加大Batch Size或学习率,就像是在平原上从走路变成了狂奔。

但这有用吗?

也许你跑得更快了,能冲出这片平原,发现新大陆(Grokking,顿悟现象)。

也许你只是在原地打转得更快了,甚至因为惯性太大,冲出了安全的边界,导致模型崩溃。

我们不知道前面是死路,还是转角。

Langevin Dynamics

面对这个让数学家头秃的高维迷宫,物理学家们却会心一笑:

这不就是分子的布朗运动吗?

在物理学中,描述微小粒子在流体中受到随机撞击而运动的朗之万动力学 (Langevin Dynamics),竟然揭示了AI训练最底层的秘密。

这个公式可以拆解成两股力量的博弈:

SGD = 梯度下降 + 随机扰动。

这部分是确定性的。它就是我们熟悉的梯度下降,指引着登山者往山谷的方向走。

这部分是随机性的。它是一个随机的推力,就像水分子的布朗运动在不停地撞击花粉,让系统获得能量跳出浅坑。

探索与利用的永恒矛盾

这构成了AI训练中最大的物理迷雾,温度的博弈。

高温状态(Small Batch Size):

  • 当我们使用较小的Batch Size时,噪声很大,系统温度很高。登山者像是一个喝醉了酒的疯子(布朗运动),步履蹒跚。

  • 代价:训练效率极低,算力无法跑满,甚至可能在原地打转。

  • 红利:正是这种乱动的能量,让他有机会跳出那些平庸的局部最优解(Local Minima),误打误撞地发现通往更深谷底(更高智能)的新路径,避免冻死在平庸里。这是探索的胜利。

低温状态(Large Batch Size):

  • 为了喂饱万卡集群,为了追求极致的训练速度,我们被迫疯狂加大 Batch Size。这相当于我们在人为地给系统降温。

  • 红利:登山者变得极其理性、稳重,沿着当前的坡度全速冲刺,效率拉满。

  • 代价:当温度逼近绝对零度,模型就失去了乱动的权利。一旦它掉进了一个看似不错、但实则平庸的坑里,它就再也没有能量跳出来了。这是利用的诅咒。

这就解释了AI训练中那个著名的悖论,为什么有时候不准确的小Batch,反而能训练出更好的模型?

因为当模型掉进一个浅浅的局部最优坑(Local Minima)时,高温(小Batch)引起的热噪声的能量,可以把它踢出来,让它有机会继续寻找更深的山谷(全局最优,Global Minima)。

临界点在哪里?

在万卡集群中,小Batch会导致吞吐骤降,工程师们不得不疯狂地加大Global Batch Size,从几千增加到几百万。

在物理学上,这是一个极其危险的操作。

我们在疯狂地给系统降温!

设想一下,当Batch Size趋向于无穷大时,公式里的噪声项将趋近于零,系统温度降到了绝对零度。

模型将变成了一个绝对理性的、但也绝对僵化的登山者。

他每一步都走得无比精确,但也正因为如此,一旦他掉进了一个平庸的鞍点或者小坑,他就再也没有能量跳出来了。

大模型在此时表现出的梯度消失、更新频率降低、顿悟减少,与过冷态(Supercooling)惊人一致。

我们可能正处在这样一个危险的临界点,算力越多、Batch越大,系统反而越难以涌现更高智能。

未知的相变

也许,在足够大的超高维空间里,地形会发生某种神奇的拓扑相变,最后只剩下一个通往真理的全局最优?

如果那样,现在的降温就是正确的。

但如果不是呢?

这就是迷雾的核心,我们不知道自己是在冻结,还是在逼近相变?

当前训练模式更像是快速淬火而不是缓慢退火,系统在降温过程中失去跳出次优区域的能力。

你想用大Batch和快收敛来走捷径,宇宙就给你一个局部最优的残次品。

你想得全局最优的正果,你就必须忍受漫长的、充满波动与噪声的修行。

没有噪声,就没有探索。

没有探索,就没有涌现。

这就是热力学给AI设下的终极防线。

三条路径

面对Scaling Law的迷雾,行业并没有达成共识,反而分裂出了三条截然不同的探险路径。

每一条路径背后,都站着一位拥有顶级大神。

Ilya Sutskever:向内求索

作为深度学习的教父,Ilya 的转身最为决绝。

他那句"Scaling时代结束了",并非是指算力无用,而是指单纯通过堆砌数据来进行预训练(Pre-training)的边际效益已经归零。

他的逻辑:人类互联网上的高质量数据已经枯竭。继续喂给模型垃圾数据,只会导致模型塌陷。

他的赌注:System 2(慢思考)与价值对齐。

  • 他认为智能的飞跃不再来自于读更多的书,而来自于更深刻的思考。

  • 他试图通过重构算法,让模型学会像人类一样进行长链条的逻辑推理,学会自我反思和顿悟。

本质:这是一条生物学路线。他试图在硅基芯片上,复刻人类大脑从直觉到逻辑的进化过程。

黄仁勋:向外扩张

黄仁勋抛出了一张三级火箭图,向世界宣告:算力的需求正在从单一的预训练,裂变为预训练+后训练+推理的三重叠加。

特别是Test-time Scaling(推理时扩展),它意味着未来AI的思考过程本身,就是一个巨大的算力黑洞。

他在告诉全世界的投资者和客户,别担心Scaling Law失效,别担心你们买的GPU会闲置。

只要你们想让AI具备逻辑推理能力(Reasoning),你们不仅需要买卡做预训练,还需要买更多的卡做后训练,更需要买海量的卡做推理!

他的逻辑:如果把模型练得更聪明变得很难,那我们就让它在考试时多想一会儿。

为了回答一个难题,模型可以在后台生成一万种解法,进行自我博弈、验证、搜索,最后输出一个最佳答案。

他的赌注:暴力穷举。

以前推理只需要几毫秒,现在可能需要几分钟。算力消耗不仅没有减少,反而指数级上升了。

本质:这是一条工程学路线。既然质变太难,那就用量变,无限的计算时间,来模拟质变。

Demis Hassabis:系统融合

DeepMind 的掌舵人Demis,则站在了两者之间,试图构建一个混合系统。

他的逻辑:大模型(LLM)只是大脑的语言中枢,负责直觉和表达,它天生缺乏逻辑和规划能力。试图让语言模型学会做数学,本身就是一种错配。

他的赌注:AlphaGo范式。

50%Scaling(保持直觉的敏感度) + 50% 搜索/规划算法(引入逻辑的严密性)。

他试图将蒙特卡洛树搜索(MCTS)植入大模型,让AI在回答问题前,先在思维空间里推演未来的几步棋。

本质:这是一条系统论路线。他不相信单一模型的全能,他相信结构的力量。

分歧

在这个十字路口,人类最顶尖的智慧发生了分歧。

这恰恰说明,我们对于智能本质的理解,依然处于盲人摸象的阶段。

智能是压缩?

如Ilya认为是从海量信息中提取规律。

是搜索?

如Demis和黄仁勋认为是在可能性空间中寻找最优解。

还是涌现?

如Scaling派认为是量变引起质变。

每一个流派,可能都只是摸到了真理的大象的一部分。

Ilya摸到了认知,黄仁勋摸到了计算,Demis摸到了结构。

也许他们最终会在山顶汇合,但在迷雾消散之前,每一条路都充满了巨大的风险与诱惑。

中美竞争

尽管理论的迷雾如此浓重,尽管路线的争论如此激烈,但在现实的物理世界里,我们看到的却是一幅更加疯狂、甚至带有某种宗教狂热色彩的景象。

在美国,OpenAI正在规划耗资千亿美元的星际之门 (Stargate)计划。

白宫的创世纪任务(Genesis Mission),直接将AI研发提升到了曼哈顿计划的战略高度,并拿出了能源部、NASA、NIH等的几十年积累的联邦科学数据集。

但是,如果物理墙是刚性的,这将成为一场消耗巨大、产出寥寥的建设。

在中国,国家机器正在编织一张跨越几千公里的算力巨网,试图将西部的风与光,转化为东部的智能。

政府发布了《人工智能+行动意见》,选择了工程化落地与产业赋能,试图用AI重塑实体经济的每一个细胞。

但是,实用主义路线可能会在通往AGI的圣杯之战中,因缺乏极致的单点突破而落后。

这是一个极其有趣的现象。

在科学上,Scaling Law的边际效应正在递减,Loss曲线正在变平。

但在工程上,人类对算力的投入却在呈指数级增长。

为什么在迷雾最浓的时候,中美两个超级大国,都不约而同地选择了把油门踩死?

因为智能的涌现是非线性的,对国家而言,算力是确定性投资,而模型能力提升是随机变量。

在不对称风险下,最优策略是先确保平台,再赌突破。

另外,如果竞争对手做到了,而我们没做到,那就可能是灭顶之灾。

这是一场以力破巧的终极实验。

我们试图用人类工业文明的极限,去点燃智能时代的第一级火箭。

总结

未来的竞争可能不仅仅是算力规模,而是如何在保持高噪声探索能力的前提下,继续扩展规模。

Scaling Law的动摇,更像是宇宙给人类的一个警醒。

哪怕我们拥有了富可敌国的财富,哪怕我们动用了国家机器的雷霆手段,在客观的数学法则与物理定律面前,我们依然微不足道。

我们要敬畏规律,但我们更要保持行进。

科学的历史,本就是一部在迷雾中摸索的历史。

牛顿不知道引力的本质,但他写出了万有引力定律。卡诺不知道分子的存在,但他推导出了热力学第二定律。

经验公式(Scaling Law)是我们手中唯一的火把。

虽然它可能会摇曳,甚至可能会熄灭,但在那之前,我们别无选择。

迷雾的尽头,也许是吞噬万亿财富的深渊,也许是通往新大陆的桥梁。

但人类这种生物,最擅长的,就是在深渊之上,架起桥梁。

因为,只有触碰到了边界,我们才知道自己究竟能飞多高。

相关推荐
财迅通Ai2 小时前
德福科技2025年净利增长145.91% 高端突破引领成长新篇
大数据·人工智能·科技·德福科技
何何____2 小时前
web组第一次考核题解
算法
AI医影跨模态组学2 小时前
Nature Reviews Cancer(IF=66.8)澳门科技大学张康教授等团队:人工智能推动多组学与临床数据整合在基础和转化癌症研究中的进展
人工智能·科技·深度学习·论文·医学影像
天使的翅膀20252 小时前
BM25为何精准匹配专有名词?
人工智能
weixin_669545202 小时前
支持 18W 快充的 2 节/3 节串联锂电池高效同步升压充电芯片 SW7306
人工智能·单片机·嵌入式硬件·硬件工程
wayz112 小时前
Day 16:PCA主成分分析与降维
人工智能·算法·机器学习
昇腾CANN2 小时前
4月28日直播丨基于TorchTitan的DeepSeek-V4昇腾续训练优化实践
人工智能·昇腾·cann·deepseek
熬夜敲代码的猫2 小时前
C++继承:让你从入门到深入
c++·算法·继承
jackyrongvip2 小时前
快速理解本体论
人工智能·本体论