无需数据标注！测试时强化学习，模型数学能力暴增

无需数据标注，在测试时做强化学习，模型数学能力暴增 159%！

清华和上海 AI Lab 周伯文团队用这样的方法，对模型进行了强化------

结果模型在多个数据集上的成绩均大幅提升，尤其是 Qwen-2.5-Math-7B，它做 AIME 2024 竞赛题的成绩直接提高了 159%。

实验过程中，强化学习的数据均由被训练的模型自身生成。

作者还发现，训练后的模型性能，准确性已经超过了用于训练它的伪标签（测试时强化学习过程中产生）。

DeepMind 工程师评价，这种测试时强化学习的方式将改变 LLM 的格局：

它利用预训练模型和特定任务的提示进行实时自适应，而无需大量带标签的数据集，这是向前迈出的重要一步。

模型自己生成强化学习数据

作者提出的测试时强化学习（TTRL）过程是测试时扩展和测试时训练的结合，具体可以分为 "生成、投票、强化" 三个大步骤。

第一步生成的目的，是让模型针对每个输入的 prompt，生成尽可能多样化的候选答案，该过程通过测试时推理来实现。

其思路是在推理阶段增加计算资源以获得更好的性能，具体到 TTRL 采用的是增加采样数量的方式，即对每个 prompt，让模型采样生成 N 个不同的答案，而不是只生成一个确定性最高的输出。

作者的实验中，当在 AIME 2024 数据集上应用 TTRL 训练 Qwen2.5-Math-7B 模型时，每个 prompt 采样 64 次 (N=64)，温度系数设为 1.0，以鼓励模型生成多样化的答案。

投票过程从上一步生成的 N 个候选答案出发，通过多数投票的方式来估计正确答案，并将其作为伪标签。

TTRL 在实际应用投票机制时还引入了一个参数 Maj@N，表示多数投票的估计准确率。

它衡量的是伪标签与真实标签的一致性。通过控制 Maj@N，可以权衡伪标签的质量和数量。

最后一步利用强化学习，基于上一步估计出的伪标签，来优化语言模型的策略，使其倾向于给出正确答案。

TTRL 采用 GRPO 算法，还加入了重要性采样和蒙特卡洛估计等技术，以提高训练效率和稳定性。

为了评估 TTRL 的效果，作者在 AIME 2024、AMC 和 MATH-500 三个数据集上对调整前后的三款模型进行了测试。

在 AIME 2024 数据集上，对于 Qwen2.5-Math-7B 基础模型，TTRL 将其准确率从 16.7% 提高到 43.3%，提升幅度高达 159.3%，超越了所有在大规模标注数据上训练的模型。
在 AMC 数据集上，Qwen2.5-Math-7B、Qwen2.5-Math-1.5B 和 LLaMA 模型的准确率分别获得了 74.9%、63.1% 和 68.4% 的大幅提高。
MATH-500 数据集上的表现更为突出，Qwen2.5-Math-7B 和 Qwen2.5-Math-1.5B 分别实现了 66.4% 和 142.4% 的惊人提升，LLaMA 模型的准确率也提高了 29.3%。

平均而言，TTRL 使 Qwen2.5-Math-7B 模型在三个数据集上的性能提高了 84.1%。