近年来,RLVR(可验证奖励的强化学习)训练大模型在数学、代码等各项任务中表现惊艳,大模型的推理能力快速提升,强化学习因而被视为重要的推手。然而,其中直指核心的重要问题却悬而未决:强化学习真的能让大模型获得超越基础模型的新推理能力吗?
清华大学 LeapLab 团队联合上海交通大学开展的最新实证研究,通过实验现象揭示了一个值得关注的问题:当前的 RLVR 方法似乎尚未突破基座模型的能力上限。

通过数学、代码、视觉推理三大领域的系统性实验,他们发现了这一出人意料的现象 ------ 引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的基座模型。RLVR 只是将采样做得更有效率,而其输出的正确答案,早已藏在基座模型的「基因」里。

-
论文标题:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

针对给定问题,通过从基础模型和 RLVR 训练模型中重复采样生成搜索树。灰色表示模型不太可能采样的路径,黑色表示模型更可能采样的路径,绿色表示能获得正向奖励的正确路径。
论文的核心发现是:RLVR 模型中的所有推理路径均已存在于基础模型中。
对于某些问题(如问题 A),RLVR 训练会偏向奖励路径的分布,从而提升采样效率;但代价是推理范围的缩减:对于其他问题(如问题 B),基础模型包含正确路径,而 RLVR 模型却可能丢失该路径。)
这篇工作刷新了 AI 圈里的「普遍认知」:此前各类基于 RLVR 做后训练的大模型,如 OpenAI 的 o1、DeepSeek-R1 等,在各项评测中成绩显著,似乎它就能让大模型实现「自我进化」,赋予模型超越其基座模型的能力。然而,此项研究指出,RLVR 的潜力并不像之前认为的那样强大 ------ 它并不能使模型解决基础模型无法解决的问题。论文一经发出,就获得国内外学者的广泛关注,发布首日即登顶 Hugging Face 日榜和 alphaxiv 榜首,在 Twitter 上累计接近 30 万次浏览,引起大量讨论。

当技术社区关注于 RL 带来的短期收益时,或许需要此类研究提醒我们:大模型的真正突破,永远始于对本质问题的追问。
实验设计:用 pass@k 揭开模型的「能力边界」
一个很重要的问题是:如何界定模型所能触及的能力边界?
传统评测聚焦单次回答准确率(pass@1)或多次回答平均准确率。然而,模型在几次采样下未能解决问题、采样更多次后最终成功解决的现象并非个例,对这种情况的忽视将会极大低估模型的真实潜力。因而,它们都不适合作为所谓「能力边界」的参照指标。
为找到更合适的指标,研究团队提出了一个更本质的问题:当允许多次尝试时,模型究竟能解决多少问题? 为此,他们引入 pass@k 指标:若模型在 k 次采样中至少生成一次正确答案,则认为其具备解决该问题的能力。若 RL 训练真能扩展推理能力,我们应看到 RL 模型比基座模型解决更多此类问题。为减小直接采样计算 pass@k 值可能导致的高方差,他们采用无偏估计的方法,使用严格定义来确保 pass@k 的可靠性。

多个数学基准测试中的基础模型及其经强化学习训练的对应模型的 pass@k 曲线,横轴为采样次数 k,纵轴为 pass@k 准确率
研究团队强调,使用 pass@k 而非大多数研究采用的多数表决(majority voting)------ 这并不会导致结果无效。他们使用 pass@k 并非为了衡量实际效率,而是为了探索大语言模型的推理能力边界。
所谓「能力边界」是指模型是否具有正确解决某类问题的潜质,而「效率」是在给定时间和资源成本下模型的表现,因而不能将大模型的「能力边界」和「效率」混为一谈。这项研究从未否定 RL 带来的「效率」上的提升,而是更深入地发起对其能力边界的探讨。
跨领域的一致性:与 RL 相比,基座模型表现出更广泛的覆盖能力
实验中,研究团队在三个具有代表性的领域进行实验,对比评估 RLVR 模型和基座模型的能力边界。在所有的实验中,都获得了以下的核心发现:
-
RL 模型在小 k 时占优,然而基座模型在大 k 时逆袭:在数学题、代码生成和视觉推理等任务中,RL 模型在 pass@1 上的表现显著优于基座模型。而当采样次数增至数十或数百时,在所有基准测试和 LLM 模型家族中,基础模型的表现会无一例外地逐渐追平强化学习训练的模型,并最终实现反超。
-
答案同源性:验证 RL 模型的正确答案均存在于基座模型的输出分布中,RL 仅通过调整概率分布「筛选」高奖励路径。
数学推理
在数学推理任务中,研究团队在 AIME24、AMC23、MATH500 等多个基准上评估多个 LLM 系列(如 Qwen-2.5 和 LLaMA-3.1)及其经过 RL 后训练的变体。

实验结果显示,在两大 LLM 系列、6 个数据集的总共 24 个对比实验中,基础模型的能力表现均在采样次数增大后追平并反超对应的 RL 模型。
人工检查推理链。数学解题,存在着「蒙对」的可能。为此,研究团队人工检查了基座模型正确答案的 CoT 推理过程,发现对于大部分题目,基座模型在多次采样中至少存在一个 CoT 推理过程是正确的,从而确认了答案的得出符合逻辑而非随机蒙对。同时团队观察到,基座模型输出的 CoT 也能很复杂但逻辑完整,例如通过多次试错调整解题方法和方程参数,说明基座模型也有输出长 CoT 和自我反思的能力。
此外,团队还研究了另一款在 AIME24 上表现优异的 RL 模型 Oat-zero。结果同样表明,尽管 RL 在初始阶段提高了准确性,但基础模型仍保持更广泛的推理覆盖能力。
代码生成

值得注意的是,生成的代码必须通过所有测试样例,几乎不可能蒙对正确答案,模型必须真正写出符合逻辑的代码才能得分。代码生成任务的实验结果同样支持前述的核心发现:RLVR 强化学习模型 CodeR1-Zero-Qwen2.5-7B 提升了单样本 pass@1 得分,但在更高采样次数(k=128)时降低了覆盖范围。原始模型在更大的 k 值下仍展现出持续改进的潜力,而 RLVR 的性能则趋于稳定。
视觉推理

在视觉数学推理数据集 MathVista 中,RL 训练后的模型在单次回答准确率上提升显著,但当 k 增至 64 次时,基座模型仍展现出更广的问题覆盖能力。RLVR 在视觉推理上的改进与数学和代码基准中的表现一致,表明原始模型已涵盖广泛的可解决问题范围,即使在多模态任务中也是如此。
以上跨领域的一致性表明,与 RL 相比,基座模型表现出更广泛的覆盖能力。RLVR 并未从根本上改变模型的问题解决方式。
深度探索:RL 无法突破基座天花板
通过以上的实验,研究团队发现,强化学习提高了采样效率,但缩小了推理能力边界。

更进一步的困惑度(perplexity)分析表明,RLVR 训练模型生成的推理路径本就存在于基础模型的输出分布中,这意味着 RLVR 只是让模型更偏向高奖励解决方案,而非创造新的推理能力。然而,这种对奖励路径的聚焦削弱了模型的探索能力,限制了其在大规模采样时对可解问题的覆盖范围。这些发现说明 RLVR 并未从根本上突破基础模型的推理能力,而是以牺牲解决问题的多样性为代价来优化现有路径。
那么,不同的 RLVR 算法在此问题上是否表现出差异?对比实验发现,各 RLVR 算法表现相似且均远未达最优。

研究比较了多种 RL 算法(PPO、GRPO、Reinforce++,RLOO,DAPO, ReMax),发现它们的采样效率差距(∆SE)衡量的性能差异很小。尽管算法间∆SE 存在细微差别,但所有方法都与最优效率存在显著差距。这表明当前以提高采样效率为目标的 RL 方法仍远未达到最优性能。

研究团队还发现,RLVR 与蒸馏训练存在本质区别。RL 仅能提升采样效率,而蒸馏训练能真正为模型注入新知识。因此蒸馏模型通过学习蒸馏数据往往能拓展基础模型的推理能力边界,这与能力始终受限于基础模型的 RLVR 训练模型形成鲜明对比。
作者答疑
针对 AI 圈对这项工作的广泛关注和困惑,研究团队在论文网站上精选具有代表性的问题并给出答复,希望能够更好地阐释他们的工作。
Q1: 既然随机采样在 k 极大时也能命中答案,你们关于「RL 提升 pass@k」的结论岂非毫无意义?
A1: 并非如此。「量变引发质变」。理论上随机打字确实有非零概率生成正确答案(约 1/V^L,V 为词表大小约 3 万,L 为输出长度超 200),但实际搜索空间堪比天文数字。关键在于概率量级:若基座模型正确概率为 1/10⁴-10⁵,RL 或需百万次采样才能找到;但若概率低于 1/10¹⁰,RL 几乎无法突破局部最优。我们的实验显示,多数问题在 k=128 或 1024 时就能观测到正确输出(当代算力可及),因此 pass@k 恰恰证明基座模型已具备必要推理路径。
Q2: RL 将 pass@k 提升为 pass@1 不是常识吗?
A2: RLVR 将 pass@k 转为 pass@1 并不意外 ------ 这本就是 RL 的设计目标。但更值得关注的是:RLVR 在实验中并未展现出超越性。若基座模型无法解决的问题,RL 训练后依然无解。这清晰揭示了 RL 在推理任务中的能力上限。此现象与传统 RL(如 Atari 或围棋)形成鲜明对比 ------ 传统 RL 能通过自我对弈不断发现新策略,而 LLM 的 RL 微调却受限于基座模型原有能力。实际上,RL 微调模型在 pass@k 上表现反而不如基座模型,这一现象令许多研究者惊讶。
Q3: 论文是否宣称 RL 完全无法激励超越基座模型的推理?
A3: 不,我们并未做出如此绝对论断。本研究旨在通过系统实验探讨「RL 能否真正扩展 LLM 的推理能力」,并为学界提供新视角。
我们不排除模型规模与训练数据扩展可能改变结果的可能性。事实上,我们正在基于 DeepSeek-V3-base 与 R1-zero 开展进一步研究。
Q4: DeepSeek-Math 已报道类似结果,你们的工作有何不同?
A4: DS-Math 确实观察到相似趋势,但其研究仅针对单一指令微调模型和两个数学基准。我们的工作系统性地考察了零 RL 设置的纯基座模型,覆盖更多 LLM 家族和多样化基准测试。我们还通过人工分析思维链、困惑度分析、不同 RL 算法对比、蒸馏模型评估等提供了更全面的 RLVR 能力边界分析。我们认为「RLVR 的推理范围受限于基座模型」这一现象值得研究社区深入关注。
结语:超越「精耕细作」,探索「开疆拓土」
清华和上交的这项研究为当前火热的 RL 训练热潮提供了冷思考:若将 base 模型比作一棵树,RLVR 只能修剪枝叶使其更整齐,却无法让树长出新的枝干。RLVR 在实现大模型能力提升的进程中究竟能够扮演怎样的角色,是我们不得不思考的问题。
该研究可能暗示着,可验证奖励的强化学习更像是一位精于调律的乐师,而非谱写新曲的作曲家。它能将模型已有的潜能雕琢得更加纯熟,却难以赋予其全新的能力维度。能否将当前的 RLVR 视作开启通用智能的万能密钥需要我们重新思考。
未来的探索之路,或许更需聚焦于基础模型自身的架构革新 ------ 在知识表征的广度、认知结构的深度以及推理脉络的构建等方面潜心耕耘,而非仅仅寄望于下游策略的微调润色。基座模型的「原始智慧」很可能被低估,知识蒸馏的思路很可能有更大的用武之地。
真正的「进化」,或许需要更根本的范式变革 ------ 让模型不仅能高效利用既有知识,更能主动跳出先验去探索未知领域。
作者信息
该论文的一作是清华大学自动化系三年级博士生 Yue Yang(乐洋),他专注于强化学习、世界模型、多模态大模型和具身智能的研究。他的导师是黄高教授。此前他作为两位一作之一的论文《How Far is Video Generation from World Model: A Physical Law Perspective》被国内外众多大佬 Yan Lecun,Xie Saining,Kevin Murphy 等转发。此外他也是 DeeR-VLA 的一作。
另一位一作是清华大学自动化系本科生 Chen Zhiqi(陈之琪),目前在黄高教授团队 LeapLab 实习。