无需数据标注!测试时强化学习,模型数学能力暴增 | 清华 & 上海 AI Lab

无需数据标注,在测试时做强化学习,模型数学能力暴增 159%!

清华和上海 AI Lab 周伯文团队用这样的方法,对模型进行了强化------

结果模型在多个数据集上的成绩均大幅提升,尤其是 Qwen-2.5-Math-7B,它做 AIME 2024 竞赛题的成绩直接提高了 159%。

实验过程中,强化学习的数据均由被训练的模型自身生成。

作者还发现,训练后的模型性能,准确性已经超过了用于训练它的伪标签(测试时强化学习过程中产生)。

DeepMind 工程师评价,这种测试时强化学习的方式将改变 LLM 的格局:

它利用预训练模型和特定任务的提示进行实时自适应,而无需大量带标签的数据集,这是向前迈出的重要一步。

模型自己生成强化学习数据

作者提出的测试时强化学习(TTRL)过程是测试时扩展和测试时训练的结合,具体可以分为 "生成、投票、强化" 三个大步骤。

第一步生成的目的,是让模型针对每个输入的 prompt,生成尽可能多样化的候选答案,该过程通过测试时推理来实现。

其思路是在推理阶段增加计算资源以获得更好的性能,具体到 TTRL 采用的是增加采样数量的方式,即对每个 prompt,让模型采样生成 N 个不同的答案,而不是只生成一个确定性最高的输出。

作者的实验中,当在 AIME 2024 数据集上应用 TTRL 训练 Qwen2.5-Math-7B 模型时,每个 prompt 采样 64 次 (N=64),温度系数设为 1.0,以鼓励模型生成多样化的答案。

投票过程从上一步生成的 N 个候选答案出发,通过多数投票的方式来估计正确答案,并将其作为伪标签。

TTRL 在实际应用投票机制时还引入了一个参数 Maj@N,表示多数投票的估计准确率。

它衡量的是伪标签与真实标签的一致性。通过控制 Maj@N,可以权衡伪标签的质量和数量。

最后一步利用强化学习,基于上一步估计出的伪标签,来优化语言模型的策略,使其倾向于给出正确答案。

TTRL 采用 GRPO 算法,还加入了重要性采样和蒙特卡洛估计等技术,以提高训练效率和稳定性。

模型数学能力大幅提升

为了评估 TTRL 的效果,作者在 AIME 2024、AMC 和 MATH-500 三个数据集上对调整前后的三款模型进行了测试。

  • 在 AIME 2024 数据集上,对于 Qwen2.5-Math-7B 基础模型,TTRL 将其准确率从 16.7% 提高到 43.3%,提升幅度高达 159.3%,超越了所有在大规模标注数据上训练的模型。

  • 在 AMC 数据集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B 和 LLaMA 模型的准确率分别获得了 74.9%、63.1% 和 68.4% 的大幅提高。

  • MATH-500 数据集上的表现更为突出,Qwen2.5-Math-7B 和 Qwen2.5-Math-1.5B 分别实现了 66.4% 和 142.4% 的惊人提升,LLaMA 模型的准确率也提高了 29.3%。

平均而言,TTRL 使 Qwen2.5-Math-7B 模型在三个数据集上的性能提高了 84.1%。

进一步的泛化性实验表明,在一个数据集上应用 TTRL 后,性能的提高可以自然迁移到其他数据集,甚至是从未参与训练的任务。

为了分析 TTRL 方法有效的原因,作者比较了 TTRL 训练前后模型的多数投票性能。

结果,应用 TTRL 后,模型的多数投票准确率(Maj@64)显著高于原始的 Qwen 模型,说明通过多数投票得到的伪标签质量优于单个模型输出。

并且强化学习具备纠错能力。即使伪标签并非完全准确,强化学习也可以通过奖惩机制引导模型朝着正确方向优化。

从 AIME 2024 上标签准确率和奖励准确率的变化曲线中可以看到,即使在标签准确率较低的阶段,奖励准确率也能维持在 90% 以上。

作者简介

这项研究的领导者是清华大学 C3I 课题组博士生张开颜和上海 AI 实验室青年研究员崔淦渠。

张开颜的导师是上海人工智能实验室主任、首席科学家周伯文教授;崔淦渠则毕业于清华 NLP 实验室,读博期间导师是刘知远副教授。

本文共同一作是张开颜和同样来自清华的 Yuxin Zuo,周伯文和 C3I 课题组博士后丁宁是本文的通讯作者。

论文地址:
arxiv.org/abs/2504.16...

欢迎在评论区留下你的想法!

--- ---

相关推荐
桥Dopey7 分钟前
Python常用的第三方模块之【jieba库】支持三种分词模式:精确模式、全模式和搜索引擎模式(提高召回率)
人工智能·python·分词模式
W流沙W7 分钟前
bert学习
人工智能·bert
想学好英文的ikun36 分钟前
【MCP】第二篇:IDE革命——用MCP构建下一代智能工具链
ide·人工智能·python·ai·个人开发·mcp
码上飞扬1 小时前
深度剖析:GPT-3.5与GPT-4的主要区别及架构解析
人工智能
whuzhang161 小时前
3DGS之齐次坐标
人工智能·3d·自动驾驶
闭月之泪舞1 小时前
《深度神经网络之数据增强、模型保存、模型调用、学习率调整》
人工智能·学习·dnn
掘金詹姆斯2 小时前
LangChain4j快速入门(一)
人工智能·langchain
快手技术2 小时前
新加坡见!快手 11 篇论文入选人工智能领域顶会 ICLR 2025
人工智能
结冰架构2 小时前
量子金融工程:蒙特卡洛算法误差压缩至0.3%
人工智能·算法·ai·金融·量子计算
亚里随笔2 小时前
TORL:解锁大模型推理新境界,强化学习与工具融合的创新变革
人工智能·llm·agent·agentic rl