无需数据标注!测试时强化学习,模型数学能力暴增 | 清华 & 上海 AI Lab

无需数据标注,在测试时做强化学习,模型数学能力暴增 159%!

清华和上海 AI Lab 周伯文团队用这样的方法,对模型进行了强化------

结果模型在多个数据集上的成绩均大幅提升,尤其是 Qwen-2.5-Math-7B,它做 AIME 2024 竞赛题的成绩直接提高了 159%。

实验过程中,强化学习的数据均由被训练的模型自身生成。

作者还发现,训练后的模型性能,准确性已经超过了用于训练它的伪标签(测试时强化学习过程中产生)。

DeepMind 工程师评价,这种测试时强化学习的方式将改变 LLM 的格局:

它利用预训练模型和特定任务的提示进行实时自适应,而无需大量带标签的数据集,这是向前迈出的重要一步。

模型自己生成强化学习数据

作者提出的测试时强化学习(TTRL)过程是测试时扩展和测试时训练的结合,具体可以分为 "生成、投票、强化" 三个大步骤。

第一步生成的目的,是让模型针对每个输入的 prompt,生成尽可能多样化的候选答案,该过程通过测试时推理来实现。

其思路是在推理阶段增加计算资源以获得更好的性能,具体到 TTRL 采用的是增加采样数量的方式,即对每个 prompt,让模型采样生成 N 个不同的答案,而不是只生成一个确定性最高的输出。

作者的实验中,当在 AIME 2024 数据集上应用 TTRL 训练 Qwen2.5-Math-7B 模型时,每个 prompt 采样 64 次 (N=64),温度系数设为 1.0,以鼓励模型生成多样化的答案。

投票过程从上一步生成的 N 个候选答案出发,通过多数投票的方式来估计正确答案,并将其作为伪标签。

TTRL 在实际应用投票机制时还引入了一个参数 Maj@N,表示多数投票的估计准确率。

它衡量的是伪标签与真实标签的一致性。通过控制 Maj@N,可以权衡伪标签的质量和数量。

最后一步利用强化学习,基于上一步估计出的伪标签,来优化语言模型的策略,使其倾向于给出正确答案。

TTRL 采用 GRPO 算法,还加入了重要性采样和蒙特卡洛估计等技术,以提高训练效率和稳定性。

模型数学能力大幅提升

为了评估 TTRL 的效果,作者在 AIME 2024、AMC 和 MATH-500 三个数据集上对调整前后的三款模型进行了测试。

  • 在 AIME 2024 数据集上,对于 Qwen2.5-Math-7B 基础模型,TTRL 将其准确率从 16.7% 提高到 43.3%,提升幅度高达 159.3%,超越了所有在大规模标注数据上训练的模型。

  • 在 AMC 数据集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B 和 LLaMA 模型的准确率分别获得了 74.9%、63.1% 和 68.4% 的大幅提高。

  • MATH-500 数据集上的表现更为突出,Qwen2.5-Math-7B 和 Qwen2.5-Math-1.5B 分别实现了 66.4% 和 142.4% 的惊人提升,LLaMA 模型的准确率也提高了 29.3%。

平均而言,TTRL 使 Qwen2.5-Math-7B 模型在三个数据集上的性能提高了 84.1%。

进一步的泛化性实验表明,在一个数据集上应用 TTRL 后,性能的提高可以自然迁移到其他数据集,甚至是从未参与训练的任务。

为了分析 TTRL 方法有效的原因,作者比较了 TTRL 训练前后模型的多数投票性能。

结果,应用 TTRL 后,模型的多数投票准确率(Maj@64)显著高于原始的 Qwen 模型,说明通过多数投票得到的伪标签质量优于单个模型输出。

并且强化学习具备纠错能力。即使伪标签并非完全准确,强化学习也可以通过奖惩机制引导模型朝着正确方向优化。

从 AIME 2024 上标签准确率和奖励准确率的变化曲线中可以看到,即使在标签准确率较低的阶段,奖励准确率也能维持在 90% 以上。

作者简介

这项研究的领导者是清华大学 C3I 课题组博士生张开颜和上海 AI 实验室青年研究员崔淦渠。

张开颜的导师是上海人工智能实验室主任、首席科学家周伯文教授;崔淦渠则毕业于清华 NLP 实验室,读博期间导师是刘知远副教授。

本文共同一作是张开颜和同样来自清华的 Yuxin Zuo,周伯文和 C3I 课题组博士后丁宁是本文的通讯作者。

论文地址:
arxiv.org/abs/2504.16...

欢迎在评论区留下你的想法!

--- ---

相关推荐
大学生毕业题目16 分钟前
毕业项目推荐:83-基于yolov8/yolov5/yolo11的农作物杂草检测识别系统(Python+卷积神经网络)
人工智能·python·yolo·目标检测·cnn·pyqt·杂草识别
居7然22 分钟前
美团大模型“龙猫”登场,能否重塑本地生活新战局?
人工智能·大模型·生活·美团
说私域38 分钟前
社交新零售时代本地化微商的发展路径研究——基于开源AI智能名片链动2+1模式S2B2C商城小程序源的创新实践
人工智能·开源·零售
IT_陈寒42 分钟前
Python性能优化:5个被低估的魔法方法让你的代码提速50%
前端·人工智能·后端
Deng_Xian_Sheng1 小时前
有哪些任务可以使用无监督的方式训练深度学习模型?
人工智能·深度学习·无监督
数据科学作家4 小时前
学数据分析必囤!数据分析必看!清华社9本书覆盖Stata/SPSS/Python全阶段学习路径
人工智能·python·机器学习·数据分析·统计·stata·spss
CV缝合救星5 小时前
【Arxiv 2025 预发行论文】重磅突破!STAR-DSSA 模块横空出世:显著性+拓扑双重加持,小目标、大场景统统拿下!
人工智能·深度学习·计算机视觉·目标跟踪·即插即用模块
TDengine (老段)7 小时前
从 ETL 到 Agentic AI:工业数据管理变革与 TDengine IDMP 的治理之道
数据库·数据仓库·人工智能·物联网·时序数据库·etl·tdengine
蓝桉8028 小时前
如何进行神经网络的模型训练(视频代码中的知识点记录)
人工智能·深度学习·神经网络
星期天要睡觉8 小时前
深度学习——数据增强(Data Augmentation)
人工智能·深度学习