从“大力出奇迹”到“四两拨千斤”：AI中的Scaling Law进化史（上篇)

如果你关注过AI这几年的发展，一定听过这样一句话："大力出奇迹"。

从ChatGPT横空出世，到GPT-4惊艳全球，再到各种大模型百花齐放，背后似乎都藏着一个简单的逻辑：只要模型够大、数据够多、算力够猛，智能就会像变魔术一样涌现出来。

这个逻辑，就是今天我们要聊的主角------AI中的Scaling Law。

别被这个听起来像物理学术语的名字吓到。其实，它的道理朴素得惊人。这篇文章，我会用两篇的篇幅，把这个"暴力美学"的前世今生、内部流派，以及它为什么最近总被推上风口浪尖，掰开揉碎了讲给你听。

一.这玩意儿到底是谁发明的？

很多人以为Scaling Law是OpenAI在2020年才提出的"新大陆"。其实不然，这玩意儿跟很多伟大的发现一样，早就在角落里蹲了几十年。

故事要追溯到1993年，那时候互联网还没普及，大多数人还在用Windows 3.1。在贝尔实验室，一群科学家正为一件头疼的事发愁------算力太贵了。

当时他们训练一个分类器（就是让机器学会判断这是猫还是狗的那种程序），每次都要把整个数据集跑一遍。万一跑完了发现这模型不行，钱就打了水漂。于是他们想：能不能只拿一小部分数据先试试水，然后根据这个小样本的表现，预测一下如果我把数据扩大100倍，这模型能牛成什么样？

结果他们发现，还真行！

他们观察到，随着训练数据量的增加，模型的错误率会呈现出一条非常平滑的下降曲线。只要算出这条曲线的"斜率"，就能大致预测出再砸多少钱、喂多少数据，能换来多少性能提升。

你看，这就是Scaling Law最朴素的雏形------用已知推未知，用过去预测未来。

这个发现被写进了一篇名为《学习曲线：渐近值与收敛速度》的论文里，作者名单里有两个后来响当当的名字：Vladimir Vapnik和Corinna Cortes------没错，就是发明了鼎鼎大名的"支持向量机"的那两位大神。

所以，Scaling Law从一开始就不是为了"制造智能"，而是为了省钱。

二."大力出奇迹"的黄金时代

这粒种子在土里埋了将近30年，直到2017年，Transformer架构诞生；再到2020年，OpenAI那篇里程碑式的论文《神经语言模型的缩放定律》问世，Scaling Law才终于迎来了它的高光时刻。

OpenAI做了什么呢？简单说，他们用一堆烧钱的实验，把这个规律变成了一个可以指导实践的"配方"。

这个配方的核心就三个要素：

OpenAI发现，只要你不是抠抠搜搜地只放大其中一项，而是成比例地同步放大这三者，模型的性能就会像被施了魔法一样，沿着一条可以预测的幂律曲线稳定提升。

这是什么意思？意思就是，AI研究从一个充满玄学的"炼金术"时代，一脚跨进了可以按图纸施工的"工程学"时代。

以前你可能要绞尽脑汁设计各种精巧的算法结构，现在策略简单粗暴多了：做大，做大，再做大。

只要你肯砸钱堆算力，把模型从千亿参数堆到万亿参数，把数据从互联网文本堆到整个世界的视频，模型就一定会变得更聪明。这种对未来的确定性，在那个摸着石头过河的年代，简直比黄金还珍贵。

这就是后来被大家津津乐道的 "暴力美学" 。也是为什么Sam Altman敢满世界找钱，要搞7万亿美金芯片工厂的底层信仰。

为什么这个规律如此重要？因为它精准地解释了那个让全世界震惊的时刻------"涌现"。

不知道你还记不记得第一次用ChatGPT时的感受。明明之前的AI还是个"人工智障"，你说东它扯西，怎么一夜之间，它突然就能写诗、能编程、能跟你像模像样地谈人生了？

Scaling Law告诉你：这不是幻觉，这是量变引起质变。

当模型的参数规模超过某个临界点（比如10亿参数），那些原本隐藏在庞大神经网络里的"连接"，突然就激活了。模型学会了"举一反三"，学会了"推理"，学会了人类语言中那些微妙的隐喻和幽默。

就像水在100度时才会沸腾一样，在此之前，你看到的是气泡（一点小聪明）；在此之后，你看到的是蒸汽（大智慧）。

所以，Scaling Law不仅是指导训练的"说明书"，更是支撑整个AI泡沫的"神话"。它告诉投资者：现在的智能还很贵，但只要你继续投钱，它就会继续变强，没有天花板。