Off-Policy Value-Based Reinforcement Learning for Large Language Models
这篇论文提出了 ReVal(Replay-based Value Learning),一种用于大语言模型(LLM)后训练的离策略(off-policy)价值强化学习方法,旨在解决大语言模型(LLM)在强化学习微调过程中样本效率低下与轨迹生成成本高昂的核心痛点。
核心思想 :当前大语言模型的强化学习训练(如 GRPO)采用"在线策略"方式,每次更新模型后,之前生成的数据就无法再用,导致大量计算浪费。ReVal 提出将大模型自身的 logits 解释为 Q 值,从而用一个模型同时表示策略和值函数,并引入经验回放缓冲区,实现了低成本的离线策略强化学习 。在数学推理任务上,ReVal 相比 GRPO 平均获得 4.3 倍加速 ,并在 AIME24 和 GPQA 上分别提升 2.7% 和 4.5%。
文章目录
-
- 一个直观的例子:为什么需要离线复用?
- [1. 研究背景](#1. 研究背景)
-
- [1.1 大语言模型的强化学习](#1.1 大语言模型的强化学习)
- [1.2 在线策略(On-Policy)与离线策略(Off-Policy)](#1.2 在线策略(On-Policy)与离线策略(Off-Policy))
- [1.3 策略梯度(Policy-Based)与价值函数(Value-Based)](#1.3 策略梯度(Policy-Based)与价值函数(Value-Based))
- [1.4 在线策略方法的瓶颈](#1.4 在线策略方法的瓶颈)
- [1.5 为什么价值函数方法难以直接用于 LLM?](#1.5 为什么价值函数方法难以直接用于 LLM?)
- [2. 研究问题:离策略价值学习](#2. 研究问题:离策略价值学习)
-
- [2.1 核心洞察:Logits 就是 Q 值](#2.1 核心洞察:Logits 就是 Q 值)
- [2.2 推导 Bellman 公式:KL 正则化目标与最大熵 RL 的等价性](#2.2 推导 Bellman 公式:KL 正则化目标与最大熵 RL 的等价性)
- [2.3 TBRM 及其局限性](#2.3 TBRM 及其局限性)
- [3. 方法](#3. 方法)
-
- [3.1 解决 TBRM 的校准初始化问题](#3.1 解决 TBRM 的校准初始化问题)
- [3.2 梯度分析:理解训练动力学](#3.2 梯度分析:理解训练动力学)
- [3.3 离策略训练与 Replay Buffer](#3.3 离策略训练与 Replay Buffer)
- [4. 实验场景](#4. 实验场景)
-
- [4.1 实验设置](#4.1 实验设置)
- [4.2 主要结果](#4.2 主要结果)
- [4.3 消融实验](#4.3 消融实验)
- [5. 总结](#5. 总结)
一个直观的例子:为什么需要离线复用?
假设你正在教一个模型解数学题。传统在线策略方法(如 GRPO)的工作方式是:
- 让模型对 128 道题各生成 8 个答案(共 1024 条轨迹)
- 用这些答案计算奖励(正确=1,错误=0),更新一次模型
- 丢弃所有生成的数据,重新生成 1024 条新答案
- 重复 1-3 步
问题是:生成答案非常耗时(因为需要逐 token 自回归生成),而模型更新很快。第 2 步只用了数据一次就扔掉,信息利用效率极低。
ReVal 的做法:把每次生成的答案存入一个"经验池",每次更新时从池中随机采样一批数据,可以多次复用。这样,每生成一批数据,可以做多次更新,大幅减少生成次数。
例如,在硬任务上(正确率仅 10%),GRPO 需要 33 轮生成才能达到 95% 准确率,而 ReVal 只需 9 轮,加速 3.6 倍。
1. 研究背景
1.1 大语言模型的强化学习
让大语言模型具备推理能力,目前主流方法是带可验证奖励的强化学习(RLVR) 。给定一个数学题 x x x(prompt),模型 π θ \pi_\theta πθ 生成一个答案序列 a 1 , a 2 , ... , a H a_1, a_2, \ldots, a_H a1,a2,...,aH(trajectory),然后根据答案是否正确给出奖励 r rule ( x , a 1 : H ) ∈ { 0 , 1 } r_{\text{rule}}(x, a_{1:H}) \in \{0, 1\} rrule(x,a1:H)∈{0,1}。
目标函数通常加入 KL 散度作为正则项,防止模型偏离参考模型太远:
max θ E x ∼ ρ [ E a 1 : H ∼ π θ ( ⋅ ∣ x ) [ r rule ( x , a 1 : H ) ] − β D KL ( π θ ( ⋅ ∣ x ) , π ref ( ⋅ ∣ x ) ) ] \max_{\theta} \mathbb{E}{x \sim \rho} \left[ \mathbb{E}{a_{1:H} \sim \pi_\theta(\cdot|x)} \left[ r_{\text{rule}}(x, a_{1:H}) \right] - \beta D_{\text{KL}}(\pi_\theta(\cdot|x), \pi_{\text{ref}}(\cdot|x)) \right] θmaxEx∼ρ[Ea1:H∼πθ(⋅∣x)[rrule(x,a1:H)]−βDKL(πθ(⋅∣x),πref(⋅∣x))]
其中:
- ρ \rho ρ 是 prompt 的分布
- π ref \pi_{\text{ref}} πref 是参考策略(通常是训练前的模型)
- β > 0 \beta > 0 β>0 控制正则化强度
1.2 在线策略(On-Policy)与离线策略(Off-Policy)
- 在线策略(On-Policy) :如 PPO、GRPO、DAPO。更新策略时使用的数据必须严格来自当前最新策略 π θ \pi_\theta πθ。数据采样与参数更新紧密耦合,一批数据通常仅用于一次梯度更新后即被丢弃。
- 离线策略(Off-Policy):允许使用历史策略收集的数据进行更新。数据采样与参数更新解耦,天然支持经验回放(Replay Buffer),可多次复用同一批数据。
1.3 策略梯度(Policy-Based)与价值函数(Value-Based)
传统 LLM RL 多采用策略梯度方法,直接优化策略分布 π θ \pi_\theta πθ。
早期使用 PPO(Proximal Policy Optimization),它需要同时维护策略网络(actor)和价值网络(critic),内存开销大。随后出现了 ReMax、GRPO 等**无价值模型(actor-only)**方法,通过组内相对优势估计(group-relative advantage)来替代显式的价值函数,显著降低了计算成本。
而经典强化学习中的价值函数方法(如 Q-Learning)通过拟合状态-动作价值函数 Q ( s , a ) Q(s,a) Q(s,a),利用贝尔曼方程(Bellman Equation)进行迭代更新。价值方法的优势在于天然支持离线学习,且可通过目标网络与经验回放稳定训练。
1.4 在线策略方法的瓶颈
当前主流方法(GRPO、ReMax、PPO)都是在线策略 的:每次更新必须用当前策略新生成的数据,第 k k k 次更新的梯度必须基于当前策略 π k \pi_k πk 生成的数据。一旦参数更新,旧轨迹 τ ∼ π k − 1 \tau \sim \pi_{k-1} τ∼πk−1 的分布就与新策略不匹配,无法直接用于训练。这导致:
- 生成成本高 :在 LLM 场景中,自回归生成 T generation T_{\text{generation}} Tgeneration 的时间远大于参数更新 T update T_{\text{update}} Tupdate,总训练时间近似为 T total ≈ K ⋅ ( T generation + T update ) ≈ K ⋅ T generation T_{\text{total}} \approx K \cdot (T_{\text{generation}} + T_{\text{update}}) \approx K \cdot T_{\text{generation}} Ttotal≈K⋅(Tgeneration+Tupdate)≈K⋅Tgeneration 被生成成本主导。
- 数据浪费:每条轨迹只用一次就被丢弃
- 困难任务需要更多轮次 :任务越难,正确样本越稀缺,需要的生成轮次越多。对于长时序任务(如需要多步工具调用的智能体), T generation T_{\text{generation}} Tgeneration 极高,且成功样本稀疏,On-policy 方法必须频繁采样,成本难以承受。
核心问题:能否让 LLM 的强化学习支持离线数据复用,同时不引入额外的值函数网络(保持单模型、低开销)?
1.5 为什么价值函数方法难以直接用于 LLM?
尽管价值方法天然支持离线学习,但将其应用于 LLM 面临三大障碍:
- 动作空间过大 :LLM 词表大小 ∣ V ∣ |V| ∣V∣ 通常在数万级别,传统 Q 网络输出 Q ( s ) ∈ R ∣ V ∣ Q(s) \in \mathbb{R}^{|V|} Q(s)∈R∣V∣ 难以训练。
- 冷启动困难:价值函数需从零学习,但 RL 微调阶段数据有限,仅靠稀疏的规则奖励难以拟合可靠的 Q 值。
- 成本高:若引入独立的 Critic 网络评估价值,将显著增加显存与计算开销,违背了 ReMax/GRPO 等"单模型、低成本"的设计初衷。
2. 研究问题:离策略价值学习
2.1 核心洞察:Logits 就是 Q 值
近期理论工作(Li et al., 2025a)证明:一个通过 next-token prediction 自监督预训练的 LLM,其 logits 天然编码了 soft Q 值的信息。
具体地,设 LLM 输出 logits 为 f ( s h , a h ) f(s_h, a_h) f(sh,ah),则策略为:
π ( a h ∣ s h ) = softmax ( f ( s h , ⋅ ) ) = exp ( f ( s h , a h ) ) ∑ a ′ exp ( f ( s h , a ′ ) ) \pi(a_h | s_h) = \text{softmax}(f(s_h, \cdot)) = \frac{\exp(f(s_h, a_h))}{\sum_{a'}\exp(f(s_h, a'))} π(ah∣sh)=softmax(f(sh,⋅))=∑a′exp(f(sh,a′))exp(f(sh,ah))
可以证明, f ( s h , a h ) f(s_h, a_h) f(sh,ah) 就是某个隐含奖励下的 soft Q 值。因此,我们可以直接定义:
Q θ ( s h , a h ) ≔ logit θ ( s h , a h ) Q_\theta(s_h, a_h) \coloneqq \text{logit}_\theta(s_h, a_h) Qθ(sh,ah):=logitθ(sh,ah)
这样,一个模型同时给出了策略 π θ \pi_\theta πθ 和 Q 值 Q θ Q_\theta Qθ,无需额外网络。
这意味着我们无需额外网络,LLM 自身就是一个初始化良好的价值模型。从而我们无需额外的价值网络,可以直接用 LLM 自身的 logits 作为 Q 值进行贝尔曼学习(Bellman learning)。
2.2 推导 Bellman 公式:KL 正则化目标与最大熵 RL 的等价性
论文将 KL 正则化目标等价转换为最大熵 RL 形式。原始目标:
max π E τ [ ∑ h = 1 H r ( s h , a h ) − β D KL ( π ( ⋅ ∣ s h ) , π ref ( ⋅ ∣ s h ) ) ] \max_\pi \mathbb{E}\tau \left[ \sum{h=1}^H r(s_h, a_h) - \beta D_{\text{KL}}(\pi(\cdot|s_h), \pi_{\text{ref}}(\cdot|s_h)) \right] πmaxEτ[h=1∑Hr(sh,ah)−βDKL(π(⋅∣sh),πref(⋅∣sh))]
可以重写为(推导见论文附录 B):
max π β ⋅ E τ [ ∑ h = 1 H ( r ( s h , a h ) β + log π ref ( a h ∣ s h ) + H ( π ( ⋅ ∣ s h ) ) ) ⏟ = : r β ( s h , a h ) ] \max_\pi \beta \cdot \mathbb{E}\tau \left[ \sum{h=1}^H \underbrace{\left( \frac{r(s_h, a_h)}{\beta} + \log \pi_{\text{ref}}(a_h|s_h) + \mathcal{H}(\pi(\cdot|s_h)) \right)}{=: r\beta(s_h, a_h)} \right] πmaxβ⋅Eτ h=1∑H=:rβ(sh,ah) (βr(sh,ah)+logπref(ah∣sh)+H(π(⋅∣sh)))
其中 H ( π ( ⋅ ∣ s h ) ) = − ∑ a π ( a ∣ s h ) log π ( a ∣ s h ) \mathcal{H}(\pi(\cdot|s_h)) = -\sum_a \pi(a|s_h) \log \pi(a|s_h) H(π(⋅∣sh))=−∑aπ(a∣sh)logπ(a∣sh) 是熵项,从而得到了最大熵 RL 的优化目标。
在这个最大熵框架下,soft Q 函数满足 Bellman 方程:
Q β ∗ ( s h , a h ) = r β ( s h , a h ) + E s h + 1 ∼ P [ V Q β ∗ ( s h + 1 ) ] Q_\beta^*(s_h, a_h) = r_\beta(s_h, a_h) + \mathbb{E}{s{h+1} \sim P} \left[ V_{Q_\beta^*}(s_{h+1}) \right] Qβ∗(sh,ah)=rβ(sh,ah)+Esh+1∼P[VQβ∗(sh+1)]
其中 V 函数定义为:
V Q ( s ) ≔ log ∑ a ∈ A exp ( Q ( s , a ) ) V_Q(s) \coloneqq \log \sum_{a \in \mathcal{A}} \exp(Q(s, a)) VQ(s):=loga∈A∑exp(Q(s,a))
2.3 TBRM 及其局限性
基于上述结论,现有工作提出了 TBRM 方法,通过最小化轨迹级贝尔曼残差进行价值学习。
TBRM 直接最小化轨迹级 Bellman 残差:
L TBRM ( θ ) = 1 ∣ D ^ ∣ ∑ τ ∈ D ^ ( V θ ( s 1 ) + ∑ h = 1 H log π θ ( a h ∣ s h ) π ref ( a h ∣ s h ) − r ( τ ) β ) 2 \mathcal{L}{\text{TBRM}}(\theta) = \frac{1}{|\hat{\mathcal{D}}|} \sum{\tau \in \hat{\mathcal{D}}}\left( V_\theta(s_1) + \sum_{h=1}^H \log \frac{\pi_\theta(a_h|s_h)}{\pi_{\text{ref}}(a_h|s_h)} - \frac{r(\tau)}{\beta} \right)^2 LTBRM(θ)=∣D^∣1τ∈D^∑(Vθ(s1)+h=1∑Hlogπref(ah∣sh)πθ(ah∣sh)−βr(τ))2
其中 D ^ \hat{\mathcal{D}} D^ 是当前策略的 on-policy 数据, V θ ( s 1 ) = log ∑ a exp Q θ ( s 1 , a ) V_\theta(s_1) = \log \sum_a \exp Q_\theta(s_1,a) Vθ(s1)=log∑aexpQθ(s1,a) 是软价值函数。
然而,论文指出 TBRM 存在一个关键缺陷:不满足校准初始化(Calibrated Initialization)。
定义 1(校准初始化 Calibrated Initialization) :若训练目标在 r r u l e = 0 r_{rule}=0 rrule=0 时的最优策略等于参考策略( π ∗ = π r e f \pi^* = \pi_{ref} π∗=πref),则称该目标满足校准初始化。
理想情况下,当环境奖励 r = 0 r=0 r=0 时(训练初期或无需更新时),最优策略应保持为参考模型 π ref \pi_{\text{ref}} πref,即损失应为零且不应产生梯度。但在 TBRM 中,当 r = 0 r=0 r=0 时:
L TBRM ( θ ) = ( V θ ( s 1 ) + ∑ h = 1 H log π θ ( a h ∣ s h ) π ref ( a h ∣ s h ) ) 2 \mathcal{L}{\text{TBRM}}(\theta) = \left( V\theta(s_1) + \sum_{h=1}^H \log \frac{\pi_\theta(a_h|s_h)}{\pi_{\text{ref}}(a_h|s_h)} \right)^2 LTBRM(θ)=(Vθ(s1)+h=1∑Hlogπref(ah∣sh)πθ(ah∣sh))2
最小化这个目标会强制对数似然比与价值项相互抵消,而非直接令 π θ = π ref \pi_\theta = \pi_{\text{ref}} πθ=πref,导致即使没有奖励信号,模型也会产生虚假的参数漂移,导致训练不稳定。
3. 方法
3.1 解决 TBRM 的校准初始化问题
为解决上述问题,ReVal 引入了**奖励塑造(reward shaping)**技术。定义修改后的奖励:
R β ( s h , a h ) ≔ r rule ( s h , a h ) β + log π ref ( a h ∣ s h ) + V θ ( s h ) − V ref ( s h ) ⏟ shaping term R_\beta(s_h, a_h) \coloneqq \frac{r_{\text{rule}}(s_h, a_h)}{\beta} + \log \pi_{\text{ref}}(a_h|s_h) + \underbrace{V_\theta(s_h) - V_{\text{ref}}(s_h)}_{\text{shaping term}} Rβ(sh,ah):=βrrule(sh,ah)+logπref(ah∣sh)+shaping term Vθ(sh)−Vref(sh)
这个 shaping term 不改变最优策略( V ref ( s h ) − V ref ( s h + 1 ) V_{\text{ref}}(s_h) - V_{\text{ref}}(s_{h+1}) Vref(sh)−Vref(sh+1) 是状态相关的偏移项,根据 Ng et al. (1999) 的奖励塑造理论,这种形式不会改变最优策略),但能保证校准初始化。
对应的 Bellman 算子为:
( T β Q ) ( s h , a h ) = r rule ( s h , a h ) β ⏟ 任务奖励 + log π ref ( a h ∣ s h ) + V ref ( s h ) − V ref ( s h + 1 ) ⏟ 内生奖励 + shaping + E s h + 1 [ log ∑ a exp Q ( s h + 1 , a ) ] ⏟ 下一状态的 soft 值 (\mathcal{T}\beta Q)(s_h, a_h) = \underbrace{\frac{r{\text{rule}}(s_h, a_h)}{\beta}}{\text{任务奖励}} + \underbrace{\log \pi{\text{ref}}(a_h|s_h) + V_{\text{ref}}(s_h) - V_{\text{ref}}(s_{h+1})}{\text{内生奖励 + shaping}} + \underbrace{\mathbb{E}{s_{h+1}} \left[ \log \sum_a \exp Q(s_{h+1}, a) \right]}_{\text{下一状态的 soft 值}} (TβQ)(sh,ah)=任务奖励 βrrule(sh,ah)+内生奖励 + shaping logπref(ah∣sh)+Vref(sh)−Vref(sh+1)+下一状态的 soft 值 Esh+1[loga∑expQ(sh+1,a)]
最终,ReVal 的损失函数为最小化离策略数据 D \mathcal{D} D(来自 replay buffer)上的贝尔曼残差:
L ReVal ( θ ) = 1 ∣ D ∣ ∑ τ ∈ D ( ∑ h = 1 H Q θ ( s h , a h ) − ( T β Q θ ) ( s h , a h ) ) 2 \mathcal{L}{\text{ReVal}}(\theta) = \frac{1}{|\mathcal{D}|} \sum{\tau \in \mathcal{D}} \left( \sum_{h=1}^H Q_\theta(s_h, a_h) - (\mathcal{T}\beta Q\theta)(s_h, a_h) \right)^2 LReVal(θ)=∣D∣1τ∈D∑(h=1∑HQθ(sh,ah)−(TβQθ)(sh,ah))2
将其展开,得到实用的计算形式:(根据贝尔曼算子定义与软价值函数的性质,该残差在轨迹上求和时会裂项相消)
L ReVal ( θ ) = 1 ∣ D ∣ ∑ τ ∈ D ( V θ ( s 1 ) − V ref ( s 1 ) + log π θ ( τ ) − r rule ( τ ) β − log π ref ( τ ) ) 2 (2) \mathcal{L}{\text{ReVal}}(\theta) = \frac{1}{|D|} \sum{\tau \in D} \left( V_\theta(s_1) - V_{\text{ref}}(s_1) + \log \pi_\theta(\tau) - \frac{r_{\text{rule}}(\tau)}{\beta} - \log \pi_{\text{ref}}(\tau) \right)^2 \tag{2} LReVal(θ)=∣D∣1τ∈D∑(Vθ(s1)−Vref(s1)+logπθ(τ)−βrrule(τ)−logπref(τ))2(2)
其中:
- D D D 是离策略数据 D \mathcal{D} D(来自 replay buffer)
- π θ ( τ ) = ∏ h = 1 H π θ ( a h ∣ s h ) \pi_\theta(\tau) = \prod_{h=1}^H \pi_\theta(a_h|s_h) πθ(τ)=∏h=1Hπθ(ah∣sh) 是轨迹概率
- V θ ( s 1 ) = log ∑ a exp ( Q θ ( s 1 , a ) ) V_\theta(s_1) = \log \sum_a \exp(Q_\theta(s_1, a)) Vθ(s1)=log∑aexp(Qθ(s1,a)) 是初始状态的 soft 值
为什么这个设计满足校准初始化? 当 r = 0 r=0 r=0 且 π θ = π ref \pi_\theta = \pi_{\text{ref}} πθ=πref 时, V θ = V ref V_\theta = V_{\text{ref}} Vθ=Vref, log π θ ( τ ) = log π ref ( τ ) \log\pi_\theta(\tau) = \log\pi_{\text{ref}}(\tau) logπθ(τ)=logπref(τ),代入得 L = 0 \mathcal{L}=0 L=0。因此模型不会产生不必要的更新。
3.2 梯度分析:理解训练动力学
对式 (2) 求梯度(忽略平方外的常数因子):
∇ θ L ReVal = − 2 E ( x , y ) [ δ ( x , y ) ⋅ ∇ θ log π θ ( y ∣ x ) ] (4) \nabla_\theta \mathcal{L}{\text{ReVal}} = -2 \mathbb{E}{(x,y)} \left[ \delta(x,y) \cdot \nabla_\theta \log \pi_\theta(y|x) \right] \tag{4} ∇θLReVal=−2E(x,y)[δ(x,y)⋅∇θlogπθ(y∣x)](4)
其中残差 δ ( x , y ) \delta(x,y) δ(x,y) 为:
δ ( x , y ) = r ( x , y ) β − ( V θ ( x ) − V ref ( x ) + log π θ ( y ∣ x ) π ref ( y ∣ x ) ) \delta(x,y) = \frac{r(x,y)}{\beta} - \left( V_\theta(x) - V_{\text{ref}}(x) + \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)} \right) δ(x,y)=βr(x,y)−(Vθ(x)−Vref(x)+logπref(y∣x)πθ(y∣x))
这个形式与策略梯度非常相似: δ \delta δ 类似于优势函数, ∇ θ log π θ \nabla_\theta \log \pi_\theta ∇θlogπθ 是得分函数。但关键区别在于 δ \delta δ 不仅依赖当前奖励,还依赖值函数的差异和 KL 项。
从梯度形式可以得出三个重要洞察:
- KL 项会削弱梯度 :随着训练进行, log ( π θ / π ref ) \log(\pi_\theta/\pi_{\text{ref}}) log(πθ/πref) 增大, δ \delta δ 变小,梯度减弱。解决方案:定期将参考模型重置为当前策略。
- β \beta β 控制奖励尺度 : β \beta β 越大,奖励信号越弱,收敛慢; β \beta β 越小,梯度越大,可能不稳定。
- 负样本的处理 :当 r = 0 r=0 r=0 时, δ = − ( V θ − V ref + log ( π θ / π ref ) ) \delta = -(V_\theta - V_{\text{ref}} + \log(\pi_\theta/\pi_{\text{ref}})) δ=−(Vθ−Vref+log(πθ/πref)),梯度会推动 π θ \pi_\theta πθ 回到 π ref \pi_{\text{ref}} πref,而不是直接降低错误答案的概率。因此需要设计更好的奖励形式(如归一化优势)。
3.3 离策略训练与 Replay Buffer
ReVal 的核心优势在于天然支持离策略数据重用:
- 数据收集 :每轮迭代,从当前策略采样 B B B 条新轨迹,存入 FIFO replay buffer(容量 M = 5120 M=5120 M=5120)
- 多次更新 :每轮进行 K K K 次梯度更新(实验中 K = 2 K=2 K=2),每次从 buffer 中均匀采样 B B B 条数据
- 数据复用 :每条轨迹在 buffer 中平均停留 M / B = 5 M/B = 5 M/B=5 轮,可被采样约 K ⋅ ( M / B ) / ( M / B ) = K K \cdot (M/B) / (M/B) = K K⋅(M/B)/(M/B)=K 次,实现了对历史经验的有效重用
这与传统 on-policy 方法(如 GRPO)形成鲜明对比:GRPO 每生成一次数据只更新一次,而 ReVal 可以用同一批数据更新多次,大幅减少了所需的生成轮数。
算法流程(Algorithm 1):
输入: 任务 prompt 集 D_task, 空回放缓冲区 D_replay, 奖励函数 r, 系数 β, 参考模型 π_ref
for t = 1 to T:
1. 对每个 prompt 采样 N 条轨迹,得到 batch D_t
2. D_replay ← D_replay ∪ D_t,若超出容量则丢弃最旧的
3. 从 D_replay 中均匀采样一个 off-policy batch
4. 用式 (2) 的损失更新模型参数 θ
4. 实验场景
4.1 实验设置
模型:
- DeepSeek-R1-Distill-Qwen-1.5B(推理优化模型,长 CoT)
- Qwen2.5-Math-7B(通用数学模型,输出较短)
数据集:
- 训练:DeepScaleR 数据集
- 评估:AIME24、AIME25、AMC、MATH、MINERVA、Olympiad Bench、GPQA(共 7 个基准)
基线:
- GRPO(on-policy 策略梯度)
- TBRM(on-policy 价值方法)
4.2 主要结果
收敛速度(Off-policy 数据的重要性):
- 在单任务(one-shot)学习上,ReVal 通过调整每轮更新次数(step=1,2,4,8),相比 GRPO 实现了平均 4.3 倍的收敛加速。对于困难任务(avg@1024=0.10),加速比达 3.6 倍;对于简单任务,加速比达 5.2 倍。
性能提升:
- 在 DeepSeek-R1-Distill-1.5B 上,ReVal 相比 baseline 在大部分任务上都有提升,在域外基准 GPQA 上提升 4.5%(33.3 vs 28.8)
- 在 Qwen2.5-Math-7B 上,结论类似
受限 rollout 场景:在实际应用中,每轮生成大量轨迹可能成本过高。论文测试了极端情况:每 prompt 只生成 1 条轨迹。
- 在极端设置(每轮仅生成 1 个 rollout, N = 1 N=1 N=1)下,ReVal 在 AIME 上超过 GRPO 4.8% ,在 GPQA 上超过 4.6%。这表明在生成成本极高、新鲜样本稀缺的场景下,离策略重用尤为关键。
训练效率:论文测量了达到相同性能所需的生成轮数和总训练时间:
- GRPO:平均需要 580 轮生成,总耗时 7.5 小时
- ReVal( K = 8 K=8 K=8):仅需 470 轮生成,总耗时 6.2 小时
- 时间节省 18%,生成轮数减少 19%
这验证了核心假设:当参数更新(2.8 秒)远快于轨迹生成(36.8 秒)时,通过离策略重用减少生成轮数,能直接降低总训练成本。
4.3 消融实验
参考模型更新策略 :由于 KL 项 log ( π θ / π ref ) \log(\pi_\theta/\pi_{\text{ref}}) log(πθ/πref) 会随训练单调增长,削弱梯度信号。论文尝试定期将参考模型重置为当前策略:
- 不更新:性能在 200 步后饱和
- 每 200 步更新:性能最好
- 每 400 步更新:在 400 步处出现跳跃式提升
结论:定期重置参考模型能有效缓解梯度消失。
β \beta β 参数敏感性:
- β = 0.2 \beta = 0.2 β=0.2(强正则化):KL 散度小,策略接近参考模型,性能较低
- β = 0.002 \beta = 0.002 β=0.002(弱正则化):KL 散度大,探索更激进,但可能不稳定
- β = 0.02 \beta = 0.02 β=0.02(适中):性能最好
结果:响应长度影响 β \beta β 的选择,因为 KL 项是 token 级求和。长响应(5K tokens)需要更小的 β \beta β。
负样本利用 :标准 0/1 奖励下,负样本( r = 0 r=0 r=0)只会将策略拉回参考模型,而非直接降低错误答案概率。论文比较了三种奖励设计:
- 0/1 奖励:正确=1,错误=0
- ±1 奖励:正确=+1,错误=-1
- 归一化优势 : r norm ( x , y i ) = r ( x , y i ) − mean ( { r ( x , y i ) } ) r_{\text{norm}}(x,y_i) = r(x,y_i) - \text{mean}(\{r(x,y_i)\}) rnorm(x,yi)=r(x,yi)−mean({r(x,yi)})
结果:归一化优势最好,±1 奖励甚至导致性能下降。原因:±1 奖励对负样本的惩罚过强,破坏训练稳定性。
5. 总结
ReVal 首次在 LLM 领域实现了实用化的、无需额外价值网络的离策略价值强化学习:
- 理论层面:通过奖励塑造修正了 TBRM 的校准初始化问题,证明了 logits-as-Q 参数化下的稳定贝尔曼学习是可行的。
- 算法层面 :设计了支持 replay buffer 的 ReVal 损失函数,实现了历史轨迹的高效重用(约 K K K 次/轨迹)。
- 实验层面:在标准数学推理基准上验证了离策略方法相比 SOTA on-policy 方法(GRPO)在样本效率(4.3 倍加速)和最终性能(+4.5% GPQA)上的双重优势,特别是在低 rollout 场景下的鲁棒性。