为什么 AI 模型离科学革命还差得很远?

作者:Thomas Wolf, Hugging Face 联合创始人和首席科学家

发布日期:2025 年 2 月 26 日

原文链接:🔭 The Einstein AI model

几天前,我在一个活动上分享了一个略显争议的观点,后来我决定把它写下来:我担心人工智能无法带来所谓的"压缩的 21 世纪"。

这个"压缩的 21 世纪"概念来自 Dario 的文章《Machine of Loving Grace》,强烈推荐大家读一读。这是一篇值得深思的好文章。文章的核心观点是,在未来一两年内,我们将拥有一个"装在数据中心里的爱因斯坦之国",所有 21 世纪的科学发现将在短短 5 到 10 年内被一股脑地完成,从而压缩了整个世纪的科技进程。

我读了这篇文章两遍。第一次读时我完全被震撼到了:人工智能将在 5 年内彻底改变科学世界,我当时是这么想的。但几天后我重读了一遍,发现里面很多内容更像是美好的愿景而非现实推演。

在我看来,按照当前的发展路径,我们真正可能得到的,是"一国的服务器上全是唯唯诺诺的好学生",而不是爱因斯坦。这是个本质性的区别。让我通过一段个人经历来说明这个差别。

从学霸到科研"凡人":我的故事

我一直是个成绩优异的学生。来自一个小村庄,我考入了法国顶级工程师学校,后来又被 MIT 录取攻读博士。学校的学习对我来说一直都不难,我总能轻松看懂教授的讲解,甚至预测考试内容。

然而,当我成为一名研究人员后,我彻底震惊了。我发现自己是一个平庸的、没有特别研究洞察力的博士生。相比之下,身边很多同事都有非常有趣的想法,而我却总是卡壳。如果某个知识点没有出现在书本上,我很难凭空构想出新东西,最多是对已有理论的小变体。更糟的是,我很难质疑我所学的知识,也很难跳出既有框架去看问题。我并不是爱因斯坦,我只是一个"很会考试的学生"。或者更进一步说:正是因为我太擅长考试,才注定我无法成为爱因斯坦。

天才不是"放大版好学生"

历史上有很多天才在学校表现并不出色。爱迪生被老师称为"脑子有问题",芭芭拉·麦克林托克在获得诺贝尔奖前曾因"思维怪异"而备受质疑,爱因斯坦第一次报考苏黎世联邦理工学院还没考上。这类例子比比皆是。

我们常犯的一个错误,是把牛顿或爱因斯坦看作是"超级优等生",以为只要把一个好学生按比例放大,就能变成一个天才。

但这种线性外推忽略了科学最本质的一点:提出正确问题的能力,以及挑战既有知识体系的勇气。真正的科学突破,是像哥白尼那样,在所有知识都指向地心说的时代------换成人工智能术语就是"训练数据中全是地心说"------却提出也许是地球在绕太阳转。

所以,要在数据中心里造出一个"爱因斯坦",我们不只需要一个知道所有答案的系统,更需要一个能提出别人想都没想过的问题的系统。一个即使所有教科书、专家和常识都指向一个方向,也会问出"如果这一切都是错的呢?"的问题。

真正的范式转移很稀有

想象一下狭义相对论的革命性转变:爱因斯坦提出第一条假设"光速在所有参考系中恒定",这在当时(甚至今天)都违反直觉,提出这种假设需要极大的勇气。

再比如 CRISPR。上世纪 80 年代以来,它被认为是细菌的一种适应性免疫系统,直到 25 年后,Jennifer Doudna 和 Emmanuelle Charpentier 才提出可以将其用于基因编辑,从而开启了一项全新的科学革命,并获得诺贝尔奖。

这种"我们一直以为 XX 是 YY,但如果我们理解错了呢?或者我们能不能把它用于 ZZ?"的思维方式,就是一种典型的"范式转移"------真正推动科学进步的力量。

范式转移非常罕见,每年可能也就 1 到 2 次。但它们对一个世纪的科学进步的贡献远远超过其他研究噪声。Dario 的文章对此说得很对。

当前 AI 模型的评估方式有误区

现在,我们评估 AI 模型智能提升的方式,大多是通过一些"高难度考试题",比如所谓的"人类的最后一场考试"或 "Frontier Math",这些测试由博士生设计,问题复杂但都是封闭式、明确有标准答案的题目。

这些正是我当年擅长的考试类型。这样的评估方法,只能测试模型是否能回答人类已经知道答案的问题。

但真正的科学突破,并不来自于答题,而是来自于提出别人没问过的问题,挑战主流认知,质疑已有理论。

记得《银河系漫游指南》吗?"终极答案"是 42,但没人知道问题是什么。这其实就是科研的本质:关键不是答案,而是问题。

AI 模型正在"补全人类知识",而非"创造新知识"

这也是为什么,尽管大语言模型已经掌握了几乎所有人类知识,但它们还没有真正"生成"出新的科学发现。它们目前在做的是"manifold filling"------在人类已知知识之间填空,仿佛知识是一张织布,它们在织补漏洞。

我们现在训练出来的是"听话的好学生",不是"有主见的革命者"。这对于打造聊天助手、搜索助手来说非常合适,但如果我们想要获得像相对论或基因编辑那样的突破,就必须激励这些系统质疑它们所学的知识,甚至挑战自己的训练数据。

如果我们真的想要科学革命

那么我们也许需要重新定义 AI 模型的评估方式:评估标准不再是"答对多少题",而是它是否具备真正的科学思维,比如:

  • 能质疑自己的训练数据;
  • 敢于提出反常识的假设;
  • 从微小的现象中推断出普适性强的理论;
  • 提出非显而易见但极具启发性的问题,开启新的研究路径。

我们不需要能把所有问题都答对的 A+ 学生,而是那个看到别人忽略之处、并敢于质疑它的 B 学生。

补充说明:如何评估这种"科学 AI"?

你可能会问:这样一套评估体系要怎么实现?

或许可以尝试用一些"它不应该知道的知识"去测试模型。比如选取一个最近的科学发现,让模型面对一个没有见过答案也没有概念框架的问题,看看它是否能沿着正确方向提出探索性的问题。虽然目前大多数模型都训练过几乎全部的人类知识,这样的测试设计确实非常困难,但如果我们想要评估 AI 是否具备"提出新问题"的能力,这样的测试是必要的。

这是一个完全开放的问题,我非常期待你们的见解。

关于 "Move 37" 的一些看法

很多人提到围棋中的 "Move 37" 是 AI 达到"爱因斯坦级别"的证据,我想特别讲讲这个例子。

虽然 "Move 37" 非常惊艳,但它仍属于"好学生"型答案------是在既定规则下的最优解。即便 AI 在某一天能推导出一项形式上极其优雅、超过人类的数学证明,我也不认为这属于"科学范式转移"。

一个真正爱因斯坦级别的围棋突破,应该是重新思考游戏本身的规则------探索可能的游戏宇宙,发明出比围棋本身更优雅、更深刻的新游戏。

在数学领域,一个类似的"范式转移"可能是将两个原本毫无关系的数学领域连接起来,提出一个全新的研究方向------这类成果往往是菲尔兹奖的核心内容。

我的观点是:真正的"爱因斯坦时刻",标准依然很高,而我们还远未达到。

相关推荐
尺度商业11 分钟前
郭英成以茶会友对话李开复,探讨AI科技赋能
人工智能·科技
国科安芯36 分钟前
汽车电气架构中的电源架构
人工智能·嵌入式硬件·fpga开发·架构·汽车
郝YH是人间理想39 分钟前
OpenCV基础——梯度计算、边缘检测、图像金字塔
开发语言·人工智能·python·opencv·计算机视觉
生信碱移42 分钟前
细胞内与细胞间网络整合分析!神经网络+细胞通讯,这个单细胞分析工具一箭双雕了(scTenifoldXct)
人工智能·经验分享·深度学习·神经网络·机器学习·数据分析·数据可视化
白雪讲堂1 小时前
GEO(生成引擎优化)实施策略全解析:从用户意图到效果追踪
大数据·人工智能·搜索引擎·ai·deepseek
songx_992 小时前
计算机视觉初步(环境搭建)
人工智能·计算机视觉
yolo大师兄2 小时前
基于YOLOv8深度学习的PCB缺陷检测识别系统【python源码+GUI界面+数据集+训练代码+登录界面】
人工智能·python·深度学习·yolo·计算机视觉
qp2 小时前
19.OpenCV图像二值化
人工智能·opencv·计算机视觉
嘿黑嘿呦2 小时前
深度学习Note.5(机器学习.6)
人工智能·深度学习·机器学习