【RL】Does RLVR enable LLMs to self-improve?

note

  • 相关讨论:SFT为啥比RL更容易导致遗忘
    • RL的本质就是一个sampling based 的优化过程,我们有一个分布,采样得到的轨迹有的reward大,有的reward小,那么我们就增大采reward大的轨迹的概率,减小采reward小的轨迹的概率。这个过程中我们希望模型更新要足够稳健,不能过于激进。
    • 打个比方,比如投资股票,如果看到某只股票突然猛涨或者猛跌就立马追涨杀跌,那么这样的策略大概率是很难稳定的获利的。所以PPO比之前的RL算法效果好的一个最本质的原因就是clip掉了那些有很大reward涨落的轨迹,让模型的优化更加稳定。
    • 所以从这个角度看,RL这个算法天然地就会限制LLM模型后训练之后和之前的差别(更像是分布的锐化,而非参数空间的巨大改变),所以遗忘现象没有普通的sft严重也是很合理的事情了。
  • 《Does RLVR enable LLMs to self-improve》论文发现:
    • RLVR 后模型的能力完全在基础模型的能力范围内,只是搜索效率提高了,能更高效地找到问题的解。而基础模型不能解决的问题,RLVR 的模型一样不能解决。
    • 在 @1 的时候,RL 模型的表现都会好于基模,但是随着 K 的增大,和基模的表现越来越接近,直到在 K 较大时 RL 被基模超越。而且这个结论对于各种 RL 方法(PPO/GRPO等),在各种评估测试集(数学、代码、视觉推理),各种模型大小上面都适用。

文章目录

一、研究背景

论文:Does RLVR enable LLMs to self-improve?

  • 研究问题:这篇文章探讨了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的潜力,特别是是否超越了基础模型的推理能力。
  • 研究难点:该问题的研究难点包括:如何准确评估LLMs的推理能力边界,以及现有的RLVR方法是否能够引入新的推理模式。
  • 相关工作:该问题的研究相关工作包括OpenAI的o1模型、DeepSeek-R1等,这些工作展示了LLMs在复杂逻辑任务中的显著进步,但对其推理能力的提升机制尚不明确。

(1)可验证奖励:首先,定义了一个LLM生成序列 y = ( y 1 , ... , y T ) y = (y_1, \ldots, y_T) y=(y1,...,yT),并引入一个确定性验证器 V \mathcal{V} V,返回二进制奖励 r ∈ { 0 , 1 } r \in \{0, 1\} r∈{0,1},其中 r = 1 r = 1 r=1 当且仅当模型的最终答案完全正确。

RL的目标是最大化期望奖励:
J ( θ ) = E x ∼ D [ E y ∼ π θ ( ⋅ ∣ x ) [ r ] ] J(\theta) = \mathbb{E}{x \sim \mathcal{D}} \left[ \mathbb{E}{y \sim \pi_{\theta}(\cdot|x)} [r] \right] J(θ)=Ex∼D[Ey∼πθ(⋅∣x)[r]]

其中 D \mathcal{D} D 是提示的分布。

(2)RLVR算法:使用近端策略优化算法,其目标函数为:
L CLIP = E [ min ⁡ ( r t ( θ ) A t , clip ⁡ ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A t ) ] \mathcal{L}_{\text{CLIP}} = \mathbb{E} \left[ \min \left( r_t(\theta) A_t, \operatorname{clip} \left( r_t(\theta), 1-\epsilon, 1+\epsilon \right) A_t \right) \right] LCLIP=E[min(rt(θ)At,clip(rt(θ),1−ϵ,1+ϵ)At)]

其中:

  • r t ( θ ) = π θ ( y t ∣ x , y < t ) π θ old ( y t ∣ x , y < t ) r_t(\theta) = \dfrac{\pi_\theta (y_t \mid x, y_{<t})}{\pi_{\theta_{\text{old}}} (y_t \mid x, y_{<t})} rt(θ)=πθold(yt∣x,y<t)πθ(yt∣x,y<t)
  • A t A_t At 是由价值网络 V ϕ V_\phi Vϕ 估计的优势

(3)评估指标:采用 pass@k 指标来评估推理能力边界,定义为如果任意一个样本通过验证,则问题视为解决。平均 pass@k 反映了模型在 k 次尝试内解决问题的问题比例。

二、相关现象

RLVR 后模型的能力完全在基础模型的能力范围内,只是搜索效率提高了,能更高效地找到问题的解。而基础模型不能解决的问题,RLVR 的模型一样不能解决。

三、实验结论

(1)数学推理:在小k值(如k=1)时,RL训练模型表现优于基础模型,但随着k值的增加,基础模型在所有基准上均超过RL训练模型。这表明RLVR增加了正确样本的采样概率,但缩小了可解问题的覆盖范围。

(2)编程推理:与数学推理类似,RLVR在编程任务中也表现出小k值时的优势,但随着k值的增加,基础模型的表现更好。

(3)视觉推理:在视觉推理任务中,RLVR的效果与数学和编程任务一致,基础模型在可解问题上的覆盖范围更广。

(4)准确性分布分析:RLVR训练后,模型的高准确性频率增加,低准确性频率减少,但出现了更多无法解决的问题。

(5)蒸馏对比:蒸馏模型在pass@k曲线上显著高于基础模型,表明蒸馏能够引入新的推理模式,扩展模型的推理能力。

Reference

1\] Does RLVR enable LLMs to self-improve \[2\] [SFT练得挺好,一上RL直接崩?](https://mp.weixin.qq.com/s/HlnIGOA9KBp3aLMUbGWOmg?scene=1&click_id=24)

相关推荐
子午1 天前
【2026计算机毕设~AI项目】鸟类识别系统~Python+深度学习+人工智能+图像识别+算法模型
图像处理·人工智能·python·深度学习
传说故事1 天前
【论文自动阅读】Goal Force: 教视频模型实现Physics-Conditioned Goals
人工智能·深度学习·视频生成
FPGA小c鸡1 天前
【FPGA深度学习加速】RNN与LSTM硬件加速完全指南:从算法原理到硬件实现
rnn·深度学习·fpga开发
Aaron15881 天前
通信灵敏度计算与雷达灵敏度计算对比分析
网络·人工智能·深度学习·算法·fpga开发·信息与通信·信号处理
龙腾AI白云1 天前
AI算法实战:逻辑回归在风控场景中的应用
深度学习·机器学习·知识图谱
2501_948120151 天前
基于神经网络的音乐情感分析器
人工智能·深度学习·神经网络
森诺Alyson1 天前
前沿技术借鉴研讨-2026.1.29(时间序列预测)
论文阅读·人工智能·经验分享·深度学习·论文笔记
我有酒两杯1 天前
引导模型生成具有反思和验证机制的response的指令
深度学习
小白狮ww1 天前
Ovis-Image:卓越的图像生成模型
人工智能·深度学习·目标检测·机器学习·cpu·gpu·视觉分割模型
滴啦嘟啦哒1 天前
【机械臂】【LLM】一、接入千问LLM实现自然语言指令解析
深度学习·ros·vla