如果你关注过AI这几年的发展,一定听过这样一句话:"大力出奇迹"。
从ChatGPT横空出世,到GPT-4惊艳全球,再到各种大模型百花齐放,背后似乎都藏着一个简单的逻辑:只要模型够大、数据够多、算力够猛,智能就会像变魔术一样涌现出来。
这个逻辑,就是今天我们要聊的主角------AI中的Scaling Law。
别被这个听起来像物理学术语的名字吓到。其实,它的道理朴素得惊人。这篇文章,我会用两篇的篇幅,把这个"暴力美学"的前世今生、内部流派,以及它为什么最近总被推上风口浪尖,掰开揉碎了讲给你听。
一.这玩意儿到底是谁发明的?
很多人以为Scaling Law是OpenAI在2020年才提出的"新大陆"。其实不然,这玩意儿跟很多伟大的发现一样,早就在角落里蹲了几十年。
故事要追溯到1993年,那时候互联网还没普及,大多数人还在用Windows 3.1。在贝尔实验室,一群科学家正为一件头疼的事发愁------算力太贵了。
当时他们训练一个分类器(就是让机器学会判断这是猫还是狗的那种程序),每次都要把整个数据集跑一遍。万一跑完了发现这模型不行,钱就打了水漂。于是他们想:能不能只拿一小部分数据先试试水,然后根据这个小样本的表现,预测一下如果我把数据扩大100倍,这模型能牛成什么样?
结果他们发现,还真行!
他们观察到,随着训练数据量的增加,模型的错误率会呈现出一条非常平滑的下降曲线。只要算出这条曲线的"斜率",就能大致预测出再砸多少钱、喂多少数据,能换来多少性能提升。
你看,这就是Scaling Law最朴素的雏形------用已知推未知,用过去预测未来。
这个发现被写进了一篇名为《学习曲线:渐近值与收敛速度》的论文里,作者名单里有两个后来响当当的名字:Vladimir Vapnik和Corinna Cortes------没错,就是发明了鼎鼎大名的"支持向量机"的那两位大神。
所以,Scaling Law从一开始就不是为了"制造智能",而是为了省钱。
二."大力出奇迹"的黄金时代
这粒种子在土里埋了将近30年,直到2017年,Transformer架构诞生;再到2020年,OpenAI那篇里程碑式的论文《神经语言模型的缩放定律》问世,Scaling Law才终于迎来了它的高光时刻。
OpenAI做了什么呢?简单说,他们用一堆烧钱的实验,把这个规律变成了一个可以指导实践的"配方"。
这个配方的核心就三个要素:
-
模型大小:神经网络的"脑容量",也就是参数量。
-
数据量:喂给模型学习的"课本",也就是文本Token的数量。
-
计算量:用来训练的"电力",也就是浮点运算次数。
OpenAI发现,只要你不是抠抠搜搜地只放大其中一项,而是成比例地同步放大这三者,模型的性能就会像被施了魔法一样,沿着一条可以预测的幂律曲线稳定提升。
这是什么意思?意思就是,AI研究从一个充满玄学的"炼金术"时代,一脚跨进了可以按图纸施工的"工程学"时代。
以前你可能要绞尽脑汁设计各种精巧的算法结构,现在策略简单粗暴多了:做大,做大,再做大。
只要你肯砸钱堆算力,把模型从千亿参数堆到万亿参数,把数据从互联网文本堆到整个世界的视频,模型就一定会变得更聪明。这种对未来的确定性,在那个摸着石头过河的年代,简直比黄金还珍贵。
这就是后来被大家津津乐道的 "暴力美学" 。也是为什么Sam Altman敢满世界找钱,要搞7万亿美金芯片工厂的底层信仰。
为什么这个规律如此重要?因为它精准地解释了那个让全世界震惊的时刻------"涌现"。
不知道你还记不记得第一次用ChatGPT时的感受。明明之前的AI还是个"人工智障",你说东它扯西,怎么一夜之间,它突然就能写诗、能编程、能跟你像模像样地谈人生了?
Scaling Law告诉你:这不是幻觉,这是量变引起质变。
当模型的参数规模超过某个临界点(比如10亿参数),那些原本隐藏在庞大神经网络里的"连接",突然就激活了。模型学会了"举一反三",学会了"推理",学会了人类语言中那些微妙的隐喻和幽默。
就像水在100度时才会沸腾一样,在此之前,你看到的是气泡(一点小聪明);在此之后,你看到的是蒸汽(大智慧)。
所以,Scaling Law不仅是指导训练的"说明书",更是支撑整个AI泡沫的"神话"。它告诉投资者:现在的智能还很贵,但只要你继续投钱,它就会继续变强,没有天花板。