Jason Wei：2025年 AI 发展的三个核心理念

斯坦福 AI 俱乐部专题演讲完整版

引言：理解 2025 年 AI 发展的三个核心理念

大家好，我是 Jason Wei，现在在 Meta 超级智能实验室担任研究科学家。之前我在 OpenAI 工作了两年，在那里我参与了 01 和 Deep Research 的开发。再之前，我在 Google Brain 担任研究科学家，我的研究帮助推广了思维链提示（chain of thought prompting）、指令微调（instruction tuning）以及许多新兴现象。

今天我想和大家分享三个我认为简单但 fundamental 的理念，帮助我们理解 2025 年的 AI 发展。当被问及 AI 将如何改变我们的世界时，你会得到非常广泛的答案，这取决于你问的是谁。

一个真实的故事：不同观点的碰撞

我的一个量化交易员朋友说，ChatGPT 虽然很酷，但在他的工作中并不能真正做那些复杂的工作。而在谱系的另一端，最近我问了一位顶尖实验室的 AI 研究员，他认为我们基本上还有两到三年的工作时间，然后 AI 就会取代他的工作。所以人们对 AI 如何发展的看法存在巨大的谱系。

因此，我将从三个思维方式来讨论这个话题：

智能将成为商品（intelligence as a commodity）
我称之为验证者定律（verifiers law）的概念
智能的锯齿边缘（jagged edge of intelligence）

第一个理念：智能商品化趋势

AI 进展的两个阶段

我认为思考 AI 进展的方式有两个阶段。第一个阶段是前沿突破阶段，这时 AI 还不能很好地完成某项任务，你正在解锁这种新能力。如果你看过去五年 MMLU（大规模多任务语言理解）这个非常常见的基准测试，你会看到在性能上逐渐取得进展。

第二个阶段是能力商品化阶段，一旦你拥有了一种能力，它就会变得商品化。

一个具体的例子：MMLU 性能成本的变化

这里有一个很好的例子，y 轴是时间，你可以看到在 MMLU 上获得特定性能水平的成本，以美元计算。你可以看到这个趋势是：每新的一年，使用具有特定智能水平的模型的成本都在下降。

你可能会问，为什么这个趋势会继续？我的论点是，这是深度学习历史上第一次自适应计算真正有效。

自适应计算时代的革命性意义

如果你看到去年之前的整个深度学习发展，我们处于这样一种模式：解决特定问题所使用的计算量是固定的，无论问题有多难------无论是回答加州首府这样的简单问题，还是解决非常难的竞赛数学题。

但现在我们进入了自适应计算时代，你可以根据任务的难度来调整使用的计算量。这个概念首先通过 01 模型得到验证（一年多前发布的），它表明如果你在测试时增加解决数学问题的计算量，在该基准测试上的性能会更高。

自适应计算的核心意义

自适应计算意味着你可以继续降低智能成本的原因是，你不必不断扩大模型规模。如果你有一个非常简单的任务，你可以继续推进到极限，只需花费最少的计算资源来完成那个任务。

信息获取效率的演进历史

让我们思考一下获取特定公共信息的时间变化。

具体例子：1983年釜山人口查询

互联网前时代：如果你想知道1983年釜山的人口，可能需要开车到图书馆，然后在大量百科全书中查找。这可能需要几个小时。
互联网时代：你可能会搜索，然后浏览各种网站来找到真正给你答案的网站，这可能需要几分钟。
现在：基本上可以立即获得答案。

更复杂的挑战：1983年釜山结婚夫妇数量

如果你想问一个更复杂的知识问题，比如1983年釜山有多少对夫妇结婚。在互联网前时代，如果你不住在韩国，你可能需要先飞到韩国，亲自去最近的有这种信息目录的政府图书馆，你可能需要翻阅几十本书来找到那个特定信息。

互联网时代可能更容易一些。你可以搜索，但如果你不会说韩语，你必须查看所有网站并找人来帮助你。在聊天机器人时代，这变得更容易一些。而在代理时代，我认为这可以在几分钟内找到答案。

极端复杂的查询：1983年亚洲30个最人口城市的结婚数量排序

即使对于更困难的事情，比如询问"1983年亚洲人口最多的30个城市按该年结婚人数排序"，我认为这现在可以在几小时内完成，但在互联网前时代回答这个问题需要几周时间。

真实的案例：OpenAI Operator的能力展示

这里有一个实际的例子，这个问题"1983年釜山有多少人结婚"并不是一个超级简单的问题。03 无法完成这个任务，但 OpenAI Operator 可以做到，因为它必须访问一个叫 Kosis 的数据库，你必须点击各种选项，直到找到正确的数据库查询，然后你才能找到答案。

测量信息获取能力的基准：BrowseComp

我们在 OpenAI 试图通过一个叫 BrowseComp（browsing competition）的基准测试来衡量这个能力。它包含一系列问题，一旦你有答案，验证答案很容易，但实际解决这些问题需要相当长的时间。

例如，给你一堆关于足球比赛的约束条件，然后找到真正符合所有这些约束条件的比赛。我们实际上要求很多人来回答这些问题。平均来说，有些问题需要两个多小时才能解决。如果你看规模，很多人在两小时内无法解决的问题比他们实际解决的问题要多。

但你可以看到 OpenAI 的 Deep Research 模型可以解决大约一半的问题，这是相当不错的进展。

智能商品化的社会影响

知识领域的民主化

一个影响是基于知识的领域将被民主化，这些领域之前被基于知识的随意进入门槛所限制。

编程领域的例子 编程绝对是一个例子，"vibe 编程"是一个很好的例子。过去编程需要专门训练，现在 ChatGPT 几乎可以给你一个相当好的医生能给你的任何信息。

个人健康管理的例子 个人健康可能是另一个例子。在过去，假设你想做生物黑客实验，你去看医生，说"我想改善我的鼻呼吸"，他们会说"嗯，你就试试我告诉你的方法"。他们不会真正帮助你理解如何做自己的实验。但现在 ChatGPT 几乎可以给你一个相当好的医生能给你的任何信息。

私人信息的相对价值提升

另一个影响是私人内部信息的相对价值略高。鉴于任何公共信息的相对成本现在低得多，私人信息的相对价格现在会高得多。

具体例子：不在市场上但可以出售的房产信息，现在这种信息变得更有价值。

个性化信息访问的未来

我认为我们最终将拥有无摩擦的信息访问。你不是访问一个对所有人都公开的互联网，而是获得你的个性化互联网，无论你想知道什么，都会有一个个性化的网站来向你展示这些信息。

第二个理念：验证者定律

验证不对称性的概念

验证不对称性是计算机科学中一个非常常见的概念，基本上就是对于某些任务，验证解决方案比找到解决方案要容易得多。

具体例子说明

数独：非常难解决，但如果你有答案，很容易验证是否正确。
Twitter 代码编写：显然需要团队，我估计数千名工程师，也许数百个马斯克运行公司来生成网站，但要验证它在工作，就容易多了。你只需渲染它并点击各种功能。
竞赛数学问题：我认为有些情况下，解决和验证的难度是一样的，所以这是一种中间情况。
数据处理代码：我认为这是另一个不同的情况。如果你想写一些脚本来处理某些数据，我认为写起来相当容易，但如果你给我别人的凌乱代码，我可能需要更多时间来弄清楚他们的代码在做什么，而不是写我自己的代码或检查他们的代码。
事实性文章写作：这是另一个我认为很容易提出看似可信但可能是虚假声明的例子，但事实核查特定声明可能极其繁琐。所以这是一个你具有相反不对称性的例子，很容易生成看似可信的文章，但验证它是否是一篇好文章需要更长时间。
制定新饮食方案：这个想法甚至延伸到创造新饮食等事情。我可以断言最好的饮食是只吃野牛肉，这只花了我10秒钟来断言。但如果你想验证这实际上是一个真实的声明，你需要大样本量，你必须等待长期结果，而且结果可能有噪音。

可视化验证不对称性

你可以像这样将其可视化。x 轴是多容易生成，y 轴是多容易验证。

数独：生成难度中等，但验证容易
Twitter：生成困难，验证相对容易
最佳饮食方案：生成容易，验证困难
中间地带：竞赛数学、数据处理代码等处于中间位置

通过特权信息改善验证不对称性

我想指出的有趣事情是，你实际上可以通过给予特权信息来改善任务在这个平面上的位置。

改进验证的具体例子

竞赛数学：如果我为你提供答案键，那么检查就变得非常容易。
代码编写：如果你在写代码，我给你测试用例（像我们在 Swedbench 中那样），检查也变得非常容易。

这个想法的核心是，有些任务你可以事先做一些工作来增加验证的不对称性。

验证者定律的表述

这引出了我称之为验证者定律的理念，或者如果你对"定律"这个词作为科学家感到不舒服，可以称之为验证者规则。

验证者定律的核心主张：训练 AI 解决特定任务的能力与该任务的可验证程度成正比。

推论：任何可解决的、容易验证的任务最终都会被 AI 征服。

可验证性的五个关键维度

更具体地说，我认为可验证性是这五个事物的函数：

客观真理性：什么是好响应，什么是坏响应存在客观标准
验证速度：验证有多快
可扩展性：你能一次性验证一百万个不同的提议响应吗
低噪声性：是否存在低噪声
连续奖励：你只区分通过和不通过，还是给出整个响应质量的光谱

大多数 AI 基准测试根据定义都容易验证，这是验证者定律的一个很好的实例化，你可以看到过去五年我们关心的所有基准测试都相对较快地被 AI 解决了。

AlphaEvolve：验证者定律的绝佳例证

利用验证不对称性的一个很好的例子，我鼓励你们如果还没有读过的就去看一下，是 DeepMind 的 AlphaEvolve。他们基本上能够通过大量计算采样和智能算法解决这些符合验证不对称性的任务，包括数学、计算优化使用等一堆任务。

AlphaEvolve 的具体任务示例

这里有一个例子，你可以想出这样的数学问题：找到这11个六边形的放置位置，你可以绘制围绕它的最小外六边形。然后你可以看到这样的解决方案清楚地满足这里所有五个标准。

客观性：你只需绘制它来检查答案
可扩展验证：因为它是计算性的
低噪声：每次检查都会得到相同的结果
连续奖励：六边形的大小直接给你一个答案比另一个答案更好的度量

AlphaEvolve 算法工作原理

你应该阅读论文，但我会给你一个大约一分钟的概述。

算法核心步骤：

采样生成：他们使用一个大语言模型，采样一堆候选解决方案。其中一些可能好，一些可能坏。
评估筛选：他们对它进行评分，因为他们通过选择的任务定义有一种评分方式。
迭代优化：他们采用最好的一个并将其反馈给大语言模型用于下一轮采样，作为某种形式的灵感。
持续改进：基本上，一旦你花费大量计算和迭代来这样做，你可以看到性能或你做任务的好坏程度明显随时间增加。

技术创新的关键洞察

他们在这里做的聪明事情是他们规避了传统深度学习的核心限制。在深度学习的大部分时间里，我们主要关心从训练到测试的泛化。这有两种形式：一种是相同任务但未见过的例子，另一种是未见过的任务。

但他们选择训练和测试相同的问题。你只是真的想知道一个特定问题的答案。这允许你规避很多这些问题。你必须选择那些你可能得到比你已经知道的更好答案的问题。

验证者定律的现实意义

自动化任务的优先级

我认为一个影响是最先被自动化的任务是那些非常容易验证的任务。

新兴商业机会

第二个影响是，如果你想创建公司或我认为会增长的领域，就是想出测量事物的方法，然后这些事物可以被 AI 优化。

第三个理念：智能发展的锯齿边缘

对 AI 影响的不同观点谱系

如果你问 AI 将如何改变世界，我认为人们有相当不同的观点。

来自专家的观点差异

这是来自今年早些时候，我的前同事 Boaz 说，东海岸的人低估了即将到来的变化规模。他们想，哦，当前模型不能做这个，他们不太考虑轨迹。而在湾区，我们可能低估了一些摩擦和我们训练的模型部署所需的时间滞后。

另一个我喜欢的观点（如果你还没关注他应该关注）是 Run，他说现在没有人应该给出或接受任何职业建议。每个人都广泛低估了变化的范围和规模以及你未来的高方差。你在 Meta 的 L4 工程师朋友告诉你"兄弟，CS 学位完蛋了"，他也不知道。

对快速起飞假设的质疑

长期以来存在的一个假设是快速起飞的理念。基本上是一旦你在某个方面超越人类，一旦你实现这个特定的事情，你会突然变得比人类强得多。所以你会有这个起飞持续时间，在短时间内获得这种巨大的智能。

我认为这可能不会发生，我会告诉你为什么。

渐进式自我改进的现实

快速起飞，这可能是他们论点的简化版本，基本上就像：哦，在很多年里你不能用 AI 训练 GPT n+1，然后在第二年你突然能做到。但我认为它更可能像这样：每年你在 AI 能够自我改进方面取得渐进进展。

第0年：你甚至无法获得代码库
第0年中：你也许可以训练某些东西，但结果并不真正令人印象深刻
后续阶段：它也许可以自主训练，但不如你把它交给10个最好的研究人员那样好
持续发展：也许有时你仍然需要人类偶尔干预来让它继续良好运行

所以我认为这更像是自我改进能力的光谱，而不是像二元的"哦，在你实现这个之后，你可以突然创造超智能"。

任务特定的改进速率

我认为自我改进率应该以任务特定方式来看待。你可以认为存在一个不同任务的光谱。

AI 能力的锯齿状分布

你可以这样思考。有这种锯齿边缘，对吧？在峰值，你有我们现在能够做得特别好的问题，比如困难数学问题、某些类型的竞赛编程。然后也有这些奇怪的谷底。

能力不足的具体例子

基础数学错误：很长一段时间里，ChatGPT 会说 9.11 大于 9.9
小众语言处理：比如 Flingit，我认为只有几百个美洲原住民能说的语言。我认为 ChatGPT 不能很好地做这个
复杂物理任务：需要现实世界交互的任务

我不认为我们会处于这种情况：你有一个自我改进的模型，然后突然什么都能做好。我认为你更可能处于右侧的情况，即每个任务都有不同的改进率。

AI 任务改进的启发式规律

数字任务的优势

我认为 AI 擅长数字任务。我不知道，这个家庭作业机器漫画实际上相当准确，考虑到它是1981年创建的关于 AI 如何工作的。但我们显然还没有真正的机器人，也许很快会有。

为什么数字任务发展更快

我认为 AI 在数字任务上发展如此之快的核心原因只是迭代速度。因为当你做数字任务时，你可以更容易地扩展计算，而不是扩展使用真实机器人的实验。

人类难度与 AI 难度的相关性

另一个相当明显的规律是，对人类更容易的任务往往对 AI 也更容易。

你可以有一个人类事情有多困难的光谱。我认为正在出现的是一种能够做人类可能因为作为生物大脑的根本限制而无法做的任务的能力。

超越人类限制的例子

比如，预测乳腺癌发生是一个可能的任务，如果你读过1000万张乳腺癌图像，你可以找到允许你预测的模式。但作为人类，我们活得不够长或没有足够注意力来做到这一点。

数据丰富性的关键作用

另一个极其简单的启发式是 AI 在数据丰富时往往会蓬勃发展。

这里有一个非常清晰的例子，你可以查看语言模型在不同语言中的数学表现。如果你绘制该语言的频率，换句话说，我们有多少数据，与性能的关系，这是一个相当清晰的趋势，你拥有的数据越多，你在该任务上做得越好。

单一度量优化的特殊策略

该规则的一个特殊例外或解锁是如果你有单一目标度量，那么你可以做 AlphaEvolve 或 AlphaZero 策略，你基本上可以通过强化学习生成合成数据。

我的前同事 Danny Du 有一个很好的推文：任何基准测试都可以快速解决，只要任务提供明确的评估度量，可以在训练期间用作奖励信号。

不同领域 AI 发展时间线预测

我有这个我之前展示过的表格，你可以使用这三个启发式规律来预测 AI 何时能够做某些事情。

领域	人类难度	数字化程度	数据可用性	预测时间
翻译（前50种语言）	容易	是	容易获取数据	已完成
基础代码调试	中等	是	容易获取数据	2023年
竞赛数学	困难	是	容易获取数据	已完成
进行 AI 研究	困难	是	数据获取/创建不那么容易	2027年（猜测）
化学研究	困难	否	数据获取/创建不那么容易	比 AI 研究晚
制作电影	非常困难	是	容易获取数据	2029年（猜测）
股票市场预测	非常困难	是	容易获取数据	不确定
翻译到特定方言	容易（对知道的人）	是	数据获取不那么容易	可能性较低
修理你的管道	中等	否	数据获取不容易	不确定
发型设计	我认为这对 AI 来说会相当困难	不确定
传统地毯制作	非常困难（需要一个月团队制作地毯）	否	数据获取不容易	很长时间内不会
带女朋友约会让她开心	不可能	否	数据获取不容易	我认为我们还要做一段时间

锯齿边缘的现实意义

影响的领域差异

AI 的影响将在满足特定特性的任务上最大：即数字任务、对人类容易的任务和数据丰富的任务。

某些领域将被 AI 极大地加速，软件开发显然是其中之一。然后其他领域可能保持不变，比如发型设计。

结论：三个核心理念的总结

核心洞察重述

智能和知识将变得快速廉价：一旦我们用 AI 实现了能力，其成本将被推向零。我认为这个趋势将继续。即时知识的理念，所以任何公开可用信息，你都能够立即获得访问。
验证者定律：测量是 AI 进步的驱动因素。任何容易验证的任务最终都会被 AI 解决。
智能边缘是锯齿状的：AI 对特定任务的能力和改进率将基于这些任务的某些特性而变化。不会有快速的超级智能起飞，因为每个任务都有不同的能力和改进率。

预期影响

高度加速的领域：软件开发等数字任务、数据丰富的领域
相对稳定的领域：手工艺、需要物理交互的服务行业
价值重构：公共信息价值下降，私人信息价值相对提升
测量行业机会：创建测量方法以供 AI 优化的新兴商机

这些理念为我们理解 2025 年及以后 AI 发展提供了框架，帮助我们预测技术演进路径并评估其对社会各领域的具体影响。

如果你对我的演讲有反馈，我会阅读。我也很乐意在 Twitter 上交流。

谢谢大家！