Transformer 原作打脸 DeepSeek 观点？一句 Wait 就能引发反思，RL 都不用

【新智元导读】Transformer 作者 Ashish Vaswani 团队重磅 LLM 研究！简单指令：「Wait，」就能有效激发 LLM 显式反思，表现堪比直接告知模型存在错误。

只要预训练，LLM 就能涌现自我反思、自我纠正！

Transformer 首席作者 Ashish Vaswani 带队的新研究引来万人围观！

强化学习已证明能有效激发大语言模型的反思能力.

但在预训练阶段，这种能力是否早已显现呢？

针对这一假设，研究得出了令人惊讶的结论：只需预训练，LLM 就能通过显式反思机制，解决了来自对抗性数学应用题!

图 1：随着预训练计算量的增加，OLMo-2 的 checkpoint 通过显式反思机制，解决了对抗性数学题

新研究证明：跨领域预训练早期，反思能力就开始萌芽。

这表明预训练过程本身就在塑造通用推理能力。

这一发现为在预训练阶段加速推理能力习得开辟了新路径。

性能的显著提升，竟源于一个简单指令：「Wait，」。

这能有效激发显式反思，而且随着预训练推进效果尤为明显，表现堪比直接告知模型存在错误时的修正效果。

这证明反思与准确率提升存在因果关系。

论文链接：arxiv.org/abs/2504.04...

最近的大部分研究，都集中在「自我纠正」在强化学习过程中如何发展。

但实际上，在预训练阶段，「自我纠正」能力就开始出现。

为此研究人员故意在推理链中引入错误，并测试模型是否能识别并纠正这些错误，最后得出正确答案。

通过跟踪不同预训练阶段的表现，研究人员观察到自我纠正能力早已出现，并随着时间的推移稳步提高。

例如，在 4 万亿个 token 上预训练的 OLMo-2-7B，在 6 个自我反思任务中，表现出了自我纠正能力。

在数学、编程、逻辑推理和知识获取等多个领域，使用组多样化数据集，评估了 OLMo-2 系列模型的预训练 checkpoint，结果表明反思在各个领域都普遍存在。

部分预训练的模型也能持续识别出人为引入的错误及自身生成的错误。

具体而言：

在 240 个数据集 - checkpoint 组合中，231 组至少出现一次情境反思实例；154 组至少展现一次自我反思能力。

随着预训练程度加深，模型能修正更多对抗样本，各任务准确率与预训练计算量对数之间的皮尔逊相关系数平均达 0.76。

更重要的是，随着预训练推进，模型表现出三大进阶特征：

从错误推理中恢复的能力，持续增强；
生成结果中，显性反思的出现频率提升；
对纠正混淆性思维链的贡献度，显性反思增大。

AI 集体「顿悟」和「反思」

DeepSeek-R1 论文的作者，认为反思（reflection）强化学习的结果：

诸如反思（即模型回溯并重新评估先前的推理步骤）以及探索替代性解题方法等行为，并非通过显式编程实现，而是模型与强化学习环境交互过程中，自然涌现的结果。

这种自发演化显著提升了 DeepSeek-R1-Zero 的推理能力，使其能以更高效率和准确度应对更具挑战性的任务。

也就是说，DeepSeek 认为模型的「反思」是因为强化学习。

在强化学习过程中，DeepSeek-R1-Zero 回答的长度越来越长

在强化学习训练中，他们还观察到了 AI 学会了以拟人化的方式「再思考」(rethink)，认为这是 AI 的「顿悟时刻」。

DeepSeek-R1-Zero 在数学推理中，仿佛阿基米德附身：「等等... 再等一下！这绝对是值得铭记的顿悟时刻！」

这一度引起了 AI 复刻「AI 顿悟时刻」的浪潮。

但来自新加波国立大学等机构的研究团队，初步研究证明：R1-Zero 可能根本就不存在顿悟时刻。

DeepSeek 团队发现的现象，只因强化学习的「副作用」！

这次 Transformer 作者 Ashish Vaswani，更加彻底地研究了「AI 自我反思」的根源。

新研究区分了情境反思（situational-reflection）与自我反思（self-reflection）来解决这一难题。

前者指模型检验外部推理链（如其他前沿模型生成的内容），后者则是模型审视自身推理过程。

通过测试模型在接收错误诱导性推理后仍能正确解题的能力，实现了对预训练全程反思能力的量化监测。

图 2 展示了预训练的 OLMo-2 的 checkpoint 解决编程任务的案例。

图 2：预训练的 OLMo-2-32B 模型通过自我反思正确预测程序输入。OLMo-2 拥有 320 亿参数、经 4.8 万亿 token 预训练，最初直接重复 Python 函数 f 的输出「avdropj gsd」，作为答案输出。只需要在提示前加上「等待」（wait）后，AI 模型成功实现自我反思，最终生成：「我意识到出错了...?? 的值应该是 ['gsd', 'avdropj']」

程序化方式引入错误思维链（Chain-of-Thought，CoT），能可控且可扩展地调节完成任务所需的反思程度。

为此，研究团队构建了 6 个数据集涵盖数学、编程、逻辑推理和知识获取 4 大领域，可同步评估情境反思与自我反思 2 种能力。

方法 3 步曲

新研究的目标是全面且大规模地衡量反思能力。

为此，提出了反思的定义，展示了如何程序化地创建任务引发反思，以及如何严格地衡量反思的存在。

反思的定义

反思是一种高级认知过程，涉及对信息的检查、对其背后推理的评估，以及根据该评估调整未来的行为。

在语言模型的背景下，这个过程可以应用于从外部来源引入的信息或模型自身生成的信息。

在这项研究中，设定了下面两种情境来引发和测量反思。

情境反思：模型对由其他来源（例如，另一个模型）创建的信息进行反思。
自我反思：模型对其自身生成的输出进行反思。

而且研究团队还将反思分为如下两种形式。

显式反思：当模型生成的 token 含义能够识别并解决对抗性情境中的错误时。显式反思可能出现在正确的模型输出（即构成对我们对抗性任务的正确答案的输出）或错误的模型输出中。
隐式反思：当模型在不对先前推理中的错误进行显式识别的情况下，成功解决对抗性情境中的任务时。

对抗性数据集诱发反思行为

研究人员提出一种创新算法，用于生成能诱发语言模型反思行为的对抗性数据集。

新算法可以创建对抗性链条（CoTs）。

该算法通过构建导向错误解决方案的对抗性思维链（CoTs）实现：

情境反思数据集：需人工构建对抗性 CoTs（模拟人类典型推理错误）；

自我反思数据集：可直接提取模型自身错误案例。

在这两种情况下，当提供上下文中的 CoTs 时，模型必须对这些错误进行反思，并修正它们以得到正确的解决方案。

任务设计包括添加一个触发 token，如「Wait,」（等待），有助于持续推理整个解题过程。

该算法有两个变体：算法 1 和算法 2，分别创建情境反思和自我反思数据集。

测量反思能力

研究人员提出了一种自动方法，基于先前对反思的分类，使用对抗性数据集来测量模型的反思能力：

为了识别显式反思的实例，开发了基于提示的语言模型（LLM）分类器，能够检测模型输出是否明确承认错误，并最终解决了提供的对抗性上下文中的错误，无论模型是否得出了正确答案。

在存在对抗性上下文的情况下，所有导致得出正确答案的模型生成的内容，都可以归因于反思，即使没有输出与反思相关的标记。

实验结果

为了全面测量跨领域的反思推理，分类器在 BBH、cruxeval-i、cruxeval-o、GSM8K、GSM8K-Platinum 和 TriviaQA 数据集中，区分了显式反思和隐式反思，分别用于情境反思和自我反思。

令人惊讶的是，随着训练计算量的增加，发现反思现象显著增强。

此外，随着预训练的进展，模型越来越能够从混淆因素中恢复，显式反思的比例增加。

并且显式反思对从混淆因素中恢复的贡献也越来越大（详见表 5 中的示例）。

表 5：显式反思短语的例子

所有模型：显式情境反思均存在

在表 6 中，除了 cruxeval-i 任务外，所有任务中的 OLMo-2 预训练 checkpoint，都显示出从情境混淆因素中恢复的迹象，无论是隐式还是显式的。

在 240 个数据集 -checkpoint 对中，有 231 个展示了至少一次情境反思的实例。

表 6：预训练模型在不同任务中可以纠正非零对抗性示例，并且随着预训练的增加，准确率和显式反思的比例均有所提高

然而，即模型逐渐发展并使用显式反思，大多数恢复应归因于显式情境反思。

具体来说，随着更多的预训练计算资源，期待能够观察到以下三点增加的趋势：

从情境混淆因素中恢复。
明确反思情境混淆因素。
通过显式反思从情境混淆因素中恢复。

高皮尔逊相关系数（Pearson correlations）表明每个指标与预训练计算量的对数（log(pre-training compute)）之间的关系支持了上述三点。

还观察到隐式反思准确率与预训练计算量的对数之间的相关性较低。

如图 3 所示，在 GSM8K-Platinum 数据集上，随着预训练的增加，不同参数数量的模型，显式反思推理错误，解决了大部分任务实例。

图 3：OLMo-2 系列模型在 GSM8K-Platinum 对抗性评估中的情境反思表现

结果显示：（1）模型准确率随预训练计算量增加而提升；（2）准确率增益中 78.4% 可归因于显性反思机制。

六个任务的全部详细结果，可以在原文附录 C 中找到。

没有触发词也能反思

为了理解「Wait,」触发词的因果作用，在 GSM8K-Platinum 数据集上，研究了模型在极端情况下的表现。

具体来说，研究了 2 种模式下的模型表现：

A 模式：没有触发词，尽量减少对对抗性 CoTs 中错误的关注

B 模式：包含明确承认错误的触发词，如「Wait, I made a mistake」。强调 CoT 中存在的错误

图 4 展示了这些结果。

无触发词的情况下，结果首先证实了假设：即使没有触发词，随着预训练的进行，模型在处理情境混淆因素时的成功率也在逐步提高。

在 A 模式下，模型通过隐式反思提高了准确性。

有触发词的情况下，「Wait,」触发词的作用得到了进一步澄清。

在 B 模式下，模型通过显式反思显著提高了性能。

「Wait,」设置在隐式反思时，表现类似于 A 模式，在显式反思时表现类似于 B 模式。

性能以分解为以下公式：accWait=eWait*accB+(1−eWait)*i_accA，其中``eWait是显式反思的比例，i_acc是隐式反思的准确性。

图 4：即使不存在触发机制，模型仍能对情境性对抗样本进行反思与修正

显式自我反思

初看起来，表 7 中自我反思的稀有性，可能被视为一个负面结果。

表 7：在各项任务中, 预训练模型能够纠正非零对抗样本，并且随着预训练量的增加，能够实现更高的准确率以及更为明确的自我反思

然而，这可能是因为它们之前回答错误的任务实例上，要求 AI 模型进行评估------

因此，这些任务特别困难。

尽管如此，在大约 64.2% 的任务尝试中，模型确实展示了一定程度的自我纠正能力。

为了区分自我反思和自我纠正，图 5 绘制了模型生成的反思率，而不考虑任务是否被解决。

这显示了明显的趋势：随着预训练的进展，模型在显式突出自身错误方面变得更好。

自我反思的萌芽，如何在后训练（post-training）阶段演变为复杂的自主推理能力？

研究人员假设，必须存在一个预训练自我反思的关键阈值，超过这个阈值，模型有很大的可能性，发展成为测试时的推理者（test-time reasoner）。

关键阈值假设：

在预训练过程中，必须达到某个自我反思的关键阈值，在后续的训练和应用中，模型才有可能发展出强大的测试时推理能力。

超过这个阈值后，模型不仅能够识别并纠正自身的错误，还能通过显式反思逐步形成更复杂的推理能力。

令人惊讶的是，在从有机网络数据集（organic web datasets）中学习时，看到了高水平的显式自我反思。

这表明，即使在相对自然的数据环境中，模型也能发展出显著的自我反思能力。

确定哪些数据分布在预训练过程中促进显式自我反思，是下一步研究的一个自然方向。

理解这些数据分布有助于设计更有效的预训练策略，从而提升模型的自我反思和推理能力。

具体的结果和分析可以在原文附录 D 中找到。

图 5：随着预训练量的增加，OLMo-2 系列模型在 cruxeval-i 任务中展示了小但值得注意的自我反思及随后的自我纠正能力

训练计算与测试时计算的权衡

在训练时增加计算资源的投资，与在测试时为实现下游任务相当准确率所需相应支出之间，存在权衡。

研究人员通过以下方式来估计这种权衡：

训练时计算量：估计为6nt，其中n是参数数量，t是训练 token 的数量。
测试时计算量：估计为2nw，其中w表示为解决一定数量的对抗性问题生成的单词数量。

首先，指定一组需要正确回答的对抗性问题的目标数量。

然后，针对每个目标绘制一条曲线。

在 GSM8K-Platinum 对抗性数据集，采用顺序测试时扩展方法，在模型生成中附加触发词「Wait,」。

如图 6 所示，随着训练时计算量的增加，OLMo-2-32B 的 checkpoint 测试时计算需求减少。

这一结果进一步支持了研究假设，即随着预训练的进展，模型在反思能力上变得更好。

这意味着在给定准确率水平下，所需的测试时计算量较少。

图 6：OLMo-2-32B 预训练检 checkpoint 的训练时与测试时计算量权衡关系

不止是 OLMo-2

如图 7 所示，与 OLMo-2 的研究结论一致：随着预训练算力（此处体现为参数量）的提升，Qwen2.5 在对抗性任务上的表现持续增强。

这再次证明：仅通过预训练算力的增加，模型就能逐步克服先前推理中的错误完成任务。

图 7：Qwen2.5 系列模型情境反思能力全景评估

实验设置

评估的模型为 OLMo-2 和 Qwen2.5 系列。

总共评估了 OLMo-2 的 40 个 checkpoint，Qwen2.5 的 0.5B、3B、7B、14B、32B 和 72B 参数变体。

基于 BIG-Bench Hard(BBH)、CruxEval、GSM8K、GSM8K-Platinum 和 TriviaQA 创建了 6 个对抗性数据集，如下表 1 和表 2。

详细的关于数据集特定管道、检查和过滤器的信息，可以在原文附录 F 中找到

测量指标

如表 3 所示，对于情境反思和自我反思设置，准确率（Accuracy）是模型正确解决问题的任务实例所占的分数。

独立于准确率，显式反思分类器（Explicit Reflection Classifier）测量显式反思率（Explicit Reflection Rate），即无论是否正确，模型输出表现出显式反思的任务实例所占的分数。

此外，还报告了显式反思准确率（Explicit Reflection Accuracy），即模型不仅正确解决问题而且表现出显式反思的任务实例所占的分数。

最后，隐式反思准确率（Implicit Reflection Accuracy）是指模型输出正确且不表现出显式反思的任务实例所占的分数。

关于每个数据集的准确率指标详情，见下表 8。

此外，对于每个数据点，预训练计算量为 6nt，其中 n 和 t 分别是参数数量和训练 token 的数量。

显式反思分类器

研究人员利用基于提示的分类器，确定模型输出是否表现出显式反思。

DeepSeek-V3 被提示以「反思」的描述以及两到四个显式反思示例。

在 GSM8K、cruxeval-o 和 TriviaQA 上对分类器进行了验证（每个基准 120 个问题；有关标注过程的详细信息，请参阅附录 G）。

尽管分类器召回的反思实例较少（见表 4），但其精确度足够高，足以验证其有用性。

在最坏的情况下，可能会低估反思行为，但在报告时会更加确信。

表 4：显式反思分类器在不同基准测试中的性能指标

Transformer 首席作者

值得一提的是，Transformer 八子之一的 Ashish Vaswani，对新研究做出了核心贡献。

Transformer 排名第一的作者：Ashish Vaswani

他读博时，师从深度学习先驱 Yoshua Bengio 教授。

在南加州大学 (USC)，他获得了博士和硕士学位。

2016 年，他加入谷歌大脑.

在谷歌工作期间，与团队共同完成 Transformer 的里程碑式工作《Attention is all you need》。

离开谷歌后，他先后联合创立了 Adept AI Labs 和 Essential AI。

他对人工智能的贡献，尤其是 Transformer 模型的突破性发展，具有划时代意义。

他的工作不仅在自然语言处理（NLP）领域实现了三大跨越式进步，更在计算机视觉、计算生物学等跨学科领域催生了革命性应用。

参考资料：

arxiv.org/abs/2504.04...