无需数据标注!测试时强化学习,模型数学能力暴增 | 清华 & 上海 AI Lab

无需数据标注,在测试时做强化学习,模型数学能力暴增 159%!

清华和上海 AI Lab 周伯文团队用这样的方法,对模型进行了强化------

结果模型在多个数据集上的成绩均大幅提升,尤其是 Qwen-2.5-Math-7B,它做 AIME 2024 竞赛题的成绩直接提高了 159%。

实验过程中,强化学习的数据均由被训练的模型自身生成。

作者还发现,训练后的模型性能,准确性已经超过了用于训练它的伪标签(测试时强化学习过程中产生)。

DeepMind 工程师评价,这种测试时强化学习的方式将改变 LLM 的格局:

它利用预训练模型和特定任务的提示进行实时自适应,而无需大量带标签的数据集,这是向前迈出的重要一步。

模型自己生成强化学习数据

作者提出的测试时强化学习(TTRL)过程是测试时扩展和测试时训练的结合,具体可以分为 "生成、投票、强化" 三个大步骤。

第一步生成的目的,是让模型针对每个输入的 prompt,生成尽可能多样化的候选答案,该过程通过测试时推理来实现。

其思路是在推理阶段增加计算资源以获得更好的性能,具体到 TTRL 采用的是增加采样数量的方式,即对每个 prompt,让模型采样生成 N 个不同的答案,而不是只生成一个确定性最高的输出。

作者的实验中,当在 AIME 2024 数据集上应用 TTRL 训练 Qwen2.5-Math-7B 模型时,每个 prompt 采样 64 次 (N=64),温度系数设为 1.0,以鼓励模型生成多样化的答案。

投票过程从上一步生成的 N 个候选答案出发,通过多数投票的方式来估计正确答案,并将其作为伪标签。

TTRL 在实际应用投票机制时还引入了一个参数 Maj@N,表示多数投票的估计准确率。

它衡量的是伪标签与真实标签的一致性。通过控制 Maj@N,可以权衡伪标签的质量和数量。

最后一步利用强化学习,基于上一步估计出的伪标签,来优化语言模型的策略,使其倾向于给出正确答案。

TTRL 采用 GRPO 算法,还加入了重要性采样和蒙特卡洛估计等技术,以提高训练效率和稳定性。

模型数学能力大幅提升

为了评估 TTRL 的效果,作者在 AIME 2024、AMC 和 MATH-500 三个数据集上对调整前后的三款模型进行了测试。

  • 在 AIME 2024 数据集上,对于 Qwen2.5-Math-7B 基础模型,TTRL 将其准确率从 16.7% 提高到 43.3%,提升幅度高达 159.3%,超越了所有在大规模标注数据上训练的模型。

  • 在 AMC 数据集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B 和 LLaMA 模型的准确率分别获得了 74.9%、63.1% 和 68.4% 的大幅提高。

  • MATH-500 数据集上的表现更为突出,Qwen2.5-Math-7B 和 Qwen2.5-Math-1.5B 分别实现了 66.4% 和 142.4% 的惊人提升,LLaMA 模型的准确率也提高了 29.3%。

平均而言,TTRL 使 Qwen2.5-Math-7B 模型在三个数据集上的性能提高了 84.1%。

进一步的泛化性实验表明,在一个数据集上应用 TTRL 后,性能的提高可以自然迁移到其他数据集,甚至是从未参与训练的任务。

为了分析 TTRL 方法有效的原因,作者比较了 TTRL 训练前后模型的多数投票性能。

结果,应用 TTRL 后,模型的多数投票准确率(Maj@64)显著高于原始的 Qwen 模型,说明通过多数投票得到的伪标签质量优于单个模型输出。

并且强化学习具备纠错能力。即使伪标签并非完全准确,强化学习也可以通过奖惩机制引导模型朝着正确方向优化。

从 AIME 2024 上标签准确率和奖励准确率的变化曲线中可以看到,即使在标签准确率较低的阶段,奖励准确率也能维持在 90% 以上。

作者简介

这项研究的领导者是清华大学 C3I 课题组博士生张开颜和上海 AI 实验室青年研究员崔淦渠。

张开颜的导师是上海人工智能实验室主任、首席科学家周伯文教授;崔淦渠则毕业于清华 NLP 实验室,读博期间导师是刘知远副教授。

本文共同一作是张开颜和同样来自清华的 Yuxin Zuo,周伯文和 C3I 课题组博士后丁宁是本文的通讯作者。

论文地址:
arxiv.org/abs/2504.16...

欢迎在评论区留下你的想法!

--- ---

相关推荐
数据智能老司机10 分钟前
AI 原生软件交付——混沌工程与服务可靠性
aigc·devops·aiops
点云SLAM24 分钟前
25个自动化办公脚本合集(覆盖人工智能、数据处理、文档管理、图片处理、文件操作等)
人工智能·python·自动化·文件操作·自动化办公脚本·ai 聊天机器人·url 短链接生成器
巫婆理发22226 分钟前
浅层神经网络
人工智能·深度学习·神经网络
liliangcsdn33 分钟前
Mac M1探索AnythingLLM+SearXNG
人工智能·docker·云原生·eureka
未来之窗软件服务44 分钟前
自建知识库,向量数据库 体系建设(二)之BERT 与.NET 8
人工智能·深度学习·bert·知识库·向量数据库·仙盟创梦ide·东方仙盟
Focusbe1 小时前
从0到1开发一个AI助手
前端·人工智能·面试
算家计算1 小时前
一张图生成3A级游戏画面!腾讯混元全新开源Hunyuan-GameCraft
人工智能·开源·游戏开发
机器之心1 小时前
全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器
人工智能·openai
zskj_zhyl1 小时前
邯郸市2025年居家适老化改造“焕新”补贴:为银龄生活筑牢安全与温情
人工智能·安全·机器人·生活
2401_823868221 小时前
织构表面MATLAB仿真
人工智能·机器学习·matlab·信号处理