无需数据标注!测试时强化学习,模型数学能力暴增 | 清华 & 上海 AI Lab

无需数据标注,在测试时做强化学习,模型数学能力暴增 159%!

清华和上海 AI Lab 周伯文团队用这样的方法,对模型进行了强化------

结果模型在多个数据集上的成绩均大幅提升,尤其是 Qwen-2.5-Math-7B,它做 AIME 2024 竞赛题的成绩直接提高了 159%。

实验过程中,强化学习的数据均由被训练的模型自身生成。

作者还发现,训练后的模型性能,准确性已经超过了用于训练它的伪标签(测试时强化学习过程中产生)。

DeepMind 工程师评价,这种测试时强化学习的方式将改变 LLM 的格局:

它利用预训练模型和特定任务的提示进行实时自适应,而无需大量带标签的数据集,这是向前迈出的重要一步。

模型自己生成强化学习数据

作者提出的测试时强化学习(TTRL)过程是测试时扩展和测试时训练的结合,具体可以分为 "生成、投票、强化" 三个大步骤。

第一步生成的目的,是让模型针对每个输入的 prompt,生成尽可能多样化的候选答案,该过程通过测试时推理来实现。

其思路是在推理阶段增加计算资源以获得更好的性能,具体到 TTRL 采用的是增加采样数量的方式,即对每个 prompt,让模型采样生成 N 个不同的答案,而不是只生成一个确定性最高的输出。

作者的实验中,当在 AIME 2024 数据集上应用 TTRL 训练 Qwen2.5-Math-7B 模型时,每个 prompt 采样 64 次 (N=64),温度系数设为 1.0,以鼓励模型生成多样化的答案。

投票过程从上一步生成的 N 个候选答案出发,通过多数投票的方式来估计正确答案,并将其作为伪标签。

TTRL 在实际应用投票机制时还引入了一个参数 Maj@N,表示多数投票的估计准确率。

它衡量的是伪标签与真实标签的一致性。通过控制 Maj@N,可以权衡伪标签的质量和数量。

最后一步利用强化学习,基于上一步估计出的伪标签,来优化语言模型的策略,使其倾向于给出正确答案。

TTRL 采用 GRPO 算法,还加入了重要性采样和蒙特卡洛估计等技术,以提高训练效率和稳定性。

模型数学能力大幅提升

为了评估 TTRL 的效果,作者在 AIME 2024、AMC 和 MATH-500 三个数据集上对调整前后的三款模型进行了测试。

  • 在 AIME 2024 数据集上,对于 Qwen2.5-Math-7B 基础模型,TTRL 将其准确率从 16.7% 提高到 43.3%,提升幅度高达 159.3%,超越了所有在大规模标注数据上训练的模型。

  • 在 AMC 数据集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B 和 LLaMA 模型的准确率分别获得了 74.9%、63.1% 和 68.4% 的大幅提高。

  • MATH-500 数据集上的表现更为突出,Qwen2.5-Math-7B 和 Qwen2.5-Math-1.5B 分别实现了 66.4% 和 142.4% 的惊人提升,LLaMA 模型的准确率也提高了 29.3%。

平均而言,TTRL 使 Qwen2.5-Math-7B 模型在三个数据集上的性能提高了 84.1%。

进一步的泛化性实验表明,在一个数据集上应用 TTRL 后,性能的提高可以自然迁移到其他数据集,甚至是从未参与训练的任务。

为了分析 TTRL 方法有效的原因,作者比较了 TTRL 训练前后模型的多数投票性能。

结果,应用 TTRL 后,模型的多数投票准确率(Maj@64)显著高于原始的 Qwen 模型,说明通过多数投票得到的伪标签质量优于单个模型输出。

并且强化学习具备纠错能力。即使伪标签并非完全准确,强化学习也可以通过奖惩机制引导模型朝着正确方向优化。

从 AIME 2024 上标签准确率和奖励准确率的变化曲线中可以看到,即使在标签准确率较低的阶段,奖励准确率也能维持在 90% 以上。

作者简介

这项研究的领导者是清华大学 C3I 课题组博士生张开颜和上海 AI 实验室青年研究员崔淦渠。

张开颜的导师是上海人工智能实验室主任、首席科学家周伯文教授;崔淦渠则毕业于清华 NLP 实验室,读博期间导师是刘知远副教授。

本文共同一作是张开颜和同样来自清华的 Yuxin Zuo,周伯文和 C3I 课题组博士后丁宁是本文的通讯作者。

论文地址:
arxiv.org/abs/2504.16...

欢迎在评论区留下你的想法!

--- ---

相关推荐
ViiTor_AI2 分钟前
AI 有声书旁白来了:AI 配音如何重塑有声书制作模式
人工智能
2501_941652773 分钟前
验证码识别与分类任务_gfl_x101-32x4d_fpn_ms-2x_coco模型训练与优化
人工智能·数据挖掘
砍树+c+v5 分钟前
3a 感知机训练过程示例(手算拆解,代码实现)
人工智能·算法·机器学习
zy_destiny7 分钟前
【工业场景】用YOLOv26实现4种输电线隐患检测
人工智能·深度学习·算法·yolo·机器学习·计算机视觉·输电线隐患识别
放氮气的蜗牛13 分钟前
从头开始学习AI:第五章 - 多分类与正则化技术
人工智能·学习·分类
快降重科研小助手13 分钟前
AIGC降重技术如何“理解”并“重塑”你的论文
aigc·ai写作·降重·降ai率·快降重
Black蜡笔小新15 分钟前
终结“监控盲区”:EasyGBS视频质量诊断技术多场景应用设计
人工智能·音视频·视频质量诊断
聊聊科技15 分钟前
打破固化编曲思维,AI编曲软件为原创音乐人注入制作歌曲伴奏新创意
人工智能
智驱力人工智能16 分钟前
货车违规变道检测 高速公路安全治理的工程实践 货车变道检测 高速公路货车违规变道抓拍系统 城市快速路货车压实线识别方案
人工智能·opencv·算法·安全·yolo·目标检测·边缘计算
乾元16 分钟前
实战案例:解析某次真实的“AI vs. AI”攻防演练
运维·人工智能·安全·web安全·机器学习·架构