无需数据标注,在测试时做强化学习,模型数学能力暴增 159%!
清华和上海 AI Lab 周伯文团队用这样的方法,对模型进行了强化------
结果模型在多个数据集上的成绩均大幅提升,尤其是 Qwen-2.5-Math-7B,它做 AIME 2024 竞赛题的成绩直接提高了 159%。

实验过程中,强化学习的数据均由被训练的模型自身生成。
作者还发现,训练后的模型性能,准确性已经超过了用于训练它的伪标签(测试时强化学习过程中产生)。
DeepMind 工程师评价,这种测试时强化学习的方式将改变 LLM 的格局:
它利用预训练模型和特定任务的提示进行实时自适应,而无需大量带标签的数据集,这是向前迈出的重要一步。

模型自己生成强化学习数据
作者提出的测试时强化学习(TTRL)过程是测试时扩展和测试时训练的结合,具体可以分为 "生成、投票、强化" 三个大步骤。

第一步生成的目的,是让模型针对每个输入的 prompt,生成尽可能多样化的候选答案,该过程通过测试时推理来实现。
其思路是在推理阶段增加计算资源以获得更好的性能,具体到 TTRL 采用的是增加采样数量的方式,即对每个 prompt,让模型采样生成 N 个不同的答案,而不是只生成一个确定性最高的输出。
作者的实验中,当在 AIME 2024 数据集上应用 TTRL 训练 Qwen2.5-Math-7B 模型时,每个 prompt 采样 64 次 (N=64),温度系数设为 1.0,以鼓励模型生成多样化的答案。
投票过程从上一步生成的 N 个候选答案出发,通过多数投票的方式来估计正确答案,并将其作为伪标签。

TTRL 在实际应用投票机制时还引入了一个参数 Maj@N,表示多数投票的估计准确率。
它衡量的是伪标签与真实标签的一致性。通过控制 Maj@N,可以权衡伪标签的质量和数量。
最后一步利用强化学习,基于上一步估计出的伪标签,来优化语言模型的策略,使其倾向于给出正确答案。
TTRL 采用 GRPO 算法,还加入了重要性采样和蒙特卡洛估计等技术,以提高训练效率和稳定性。
模型数学能力大幅提升
为了评估 TTRL 的效果,作者在 AIME 2024、AMC 和 MATH-500 三个数据集上对调整前后的三款模型进行了测试。
-
在 AIME 2024 数据集上,对于 Qwen2.5-Math-7B 基础模型,TTRL 将其准确率从 16.7% 提高到 43.3%,提升幅度高达 159.3%,超越了所有在大规模标注数据上训练的模型。
-
在 AMC 数据集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B 和 LLaMA 模型的准确率分别获得了 74.9%、63.1% 和 68.4% 的大幅提高。
-
MATH-500 数据集上的表现更为突出,Qwen2.5-Math-7B 和 Qwen2.5-Math-1.5B 分别实现了 66.4% 和 142.4% 的惊人提升,LLaMA 模型的准确率也提高了 29.3%。
平均而言,TTRL 使 Qwen2.5-Math-7B 模型在三个数据集上的性能提高了 84.1%。

进一步的泛化性实验表明,在一个数据集上应用 TTRL 后,性能的提高可以自然迁移到其他数据集,甚至是从未参与训练的任务。

为了分析 TTRL 方法有效的原因,作者比较了 TTRL 训练前后模型的多数投票性能。
结果,应用 TTRL 后,模型的多数投票准确率(Maj@64)显著高于原始的 Qwen 模型,说明通过多数投票得到的伪标签质量优于单个模型输出。

并且强化学习具备纠错能力。即使伪标签并非完全准确,强化学习也可以通过奖惩机制引导模型朝着正确方向优化。
从 AIME 2024 上标签准确率和奖励准确率的变化曲线中可以看到,即使在标签准确率较低的阶段,奖励准确率也能维持在 90% 以上。

作者简介
这项研究的领导者是清华大学 C3I 课题组博士生张开颜和上海 AI 实验室青年研究员崔淦渠。
张开颜的导师是上海人工智能实验室主任、首席科学家周伯文教授;崔淦渠则毕业于清华 NLP 实验室,读博期间导师是刘知远副教授。
本文共同一作是张开颜和同样来自清华的 Yuxin Zuo,周伯文和 C3I 课题组博士后丁宁是本文的通讯作者。

论文地址:
arxiv.org/abs/2504.16...
欢迎在评论区留下你的想法!
--- 完 ---