RLMT 训练方法详解:数据构造、训练流程与关键发现
本文提出的 RLMT(Reinforcement Learning with Model-rewarded Thinking) 是一种将 长链式思维(CoT) 与 基于奖励模型的在线强化学习 相结合的新训练范式,适用于开放域通用对话任务。以下从 数据构造、训练方法、实验发现 三方面进行专业解读。
1. 数据构造
1.1 RL 训练提示(Prompt)来源
-
使用 7.5k 条提示 ,来自 WildChat-IF 子集(Tülu 3 SFT 混合数据的一部分):
原文:"We use 7.5k prompts from the WildChat-IF subset of the Tülu 3 SFT mixture. This subset prioritizes conversational prompts sampled from WildChat... covering a wide range of realistic user queries."
中文翻译:"我们使用来自 Tülu 3 SFT 混合数据中 WildChat-IF 子集的 7.5k 条提示。该子集优先选取来自 WildChat 的对话型提示,涵盖广泛的真实用户查询。"
-
对比实验 表明:使用 UltraFeedback 或随机 Tülu-3 混合数据效果更差(见 Table 4),原因:
- UltraFeedback 提示过于简单;
- 原始 Tülu-3 包含大量数学/越狱提示,不适合通用对话。
1.2 SFT(监督微调)数据生成(可选)
-
使用 Gemini 2.5 Flash (或 GPT-4.1-mini)为 6k 条不重叠提示 生成带 CoT 的响应;
-
强制输出格式为:
xml<think>...推理过程...</think><response>...最终回答...</response>
-
教师模型被提示 模拟内部思考过程,而非直接输出答案。
1.3 "零训练"(Zero Training)设置
- 跳过 SFT ,直接对 base 模型(如 Llama-3.1-8B Base)应用 RLMT;
- 通过固定前缀指令引导模型输出 CoT: "A conversation between User and Assistant. Following the User's query, the Assistant first plans a response... in the format
<think> reasoning process here</think><response> response here</response>
."
2. 训练方法
2.1 优化目标与训练方式
RLMT 的目标函数为:
max θ E x ∼ X [ E ( y , z ) ∼ π θ ( ⋅ ∣ x ) [ r ( y , x ) ] ] (3) \max_{\theta} \mathbb{E}{x \sim \mathcal{X}} \left[ \mathbb{E}{(y,z) \sim \pi_\theta(\cdot|x)} \left[ r(y, x) \right] \right] \tag{3} θmaxEx∼X[E(y,z)∼πθ(⋅∣x)[r(y,x)]](3)
其中:
- x x x:用户提示;
- z z z:模型生成的推理链(CoT);
- y y y:最终响应;
- r ( y , x ) r(y, x) r(y,x):由 奖励模型(Reward Model) 给出的标量评分。
原文 §2.1 对比 RLHF 与 RLVR 后指出:"RLMT requires LMs to generate a reasoning trace z z z before producing the final response y y y, which differs from RLHF, and uses a reward model r r r to score responses, rather than rule-based verification as in RLVR."
训练方式明确为在线强化学习(on-policy RL),而非离线偏好学习。作者在 §2.2 中强调:"We study several key design choices for RLMT: Training algorithm... We experiment with different RL algorithms: on-policy DPO, PPO, and GRPO."
特别说明:此处的 "on-policy DPO" 并非传统离线 DPO,而是 动态采样当前策略生成的响应对 构建偏好数据(见 Footnote 2):
"Unlike standard DPO using a static preference dataset, we build preference pairs sampled from the policy model to be optimized."
2.2 具体训练流程与原文示例
训练分为两个可选阶段:
(1)Warm-start SFT(可选)
- 使用 Gemini 2.5 Flash 生成带
<think>...</think><response>...</response>
标签的响应; - 示例指令(Appendix C): "FORMAT: First showcase a detailed planning phase where you plan your response within
<think>...</think>
tags. Then produce the actual response within<response>...</response>
tags."
(2)在线强化学习阶段
- 对每个 prompt x x x,从当前策略 π θ \pi_\theta πθ 中采样多个响应(含 CoT);
- 使用 Skywork-v2 奖励模型 对最终响应 y y y 打分 r ( y , x ) r(y, x) r(y,x);
- 更新策略以最大化期望奖励。
以 GRPO 为例(Table 7):
- 每 prompt 采样 8 个响应;
- 计算组内奖励均值作为基线: A i = r i − 1 8 ∑ j r j A_i = r_i - \frac{1}{8} \sum_j r_j Ai=ri−81∑jrj;
- 使用 PPO-style clipped objective 更新策略,无需 critic 网络。
原文 §2.2:"GRPO(Shao et al., 2024)... computes advantages by mean-centering rewards within a group, eliminating the need for a learned critic."
3. 实验中的关键发现
3.1 RLMT 显著提升开放域对话能力
- 在 AlpacaEval2、WildBench、ArenaHardV2 三大对话基准上,RLMT 比标准 RLHF 平均高 3--7 分;
- Llama-3.1-8B-Instruct-RLMT (8B)在 WildBench 上得分 50.4 ,超越:
- Llama-3.1-70B-Instruct(16.3);
- GPT-4o(46.2);
- 甚至接近 Claude-3.7-Sonnet(47.8)。
3.2 "零训练"也能有效激发能力
- 仅用 7k 提示 + GRPO ,Llama-3.1-8B Base 模型在 WildBench 上达 7.2 分,远超其 Instruct 版本(-7.0);
- Qwen-2.5-7B-RLMT-Zero(22.2)甚至 超过 Qwen-2.5-7B-Instruct(22.2 vs 22.2,但其他指标更高)。
3.3 模型展现出的高级推理策略(附原文例子)
论文在 §4.2 通过自动 trait 分析发现,RLMT 训练后的模型从 线性 checklist 式规划 转变为更高级的策略:
原文 Figure 4 右侧示例(用户请求:"请将标题《紧急 vs 非紧急邮件的心理学------哪种转化率更高?何时使用?》扩展为一条 Twitter 推文线程"):
xml
<think>
The user wants... This thread should...
The tone needs to be...
The constraints are strict: 1. No hashtags...
**Plan:**
1. **Headline:** ...
2. **Thread Structure:** ...
3. **Content Strategy (What-Why-How-Snap):** ...
4. **Tone & Voice:** Adopt the persona....
5. **Constraint Checklist & Refinement:**
- **No Hashtags:** ...
6. **Drafting & Refinement:** Write each t...
Strategizing complete. I will now...
</think>
该例子展示了以下高级策略:
- 约束枚举(Integrates constraints into plan):明确列出"不能使用 hashtag"等硬性约束;
- 主题聚类(Groups ideas into themes):将内容策略按 What-Why-How-Snap 分组;
- 迭代修正(Revises/backtracks while planning):在最终输出前执行"Constraint Checklist & Refinement"步骤,回溯检查是否满足所有约束。
相比之下,SFT 阶段的模型仅输出如"1. 引言 2. 主体 3. 结论"这类线性结构。
4. 方法评述与改进建议
【我认为,RLMT 的核心创新在于将"思维显式化"与"通用奖励信号"结合,但仍有改进空间:】
-
CoT 格式过于僵化 :强制使用
</think>
可能限制模型自然表达。【我认为,可探索 动态 CoT 触发机制 (如仅在复杂任务中启用),或使用 隐式思维蒸馏(如通过 attention mask 引导内部推理)来减少格式依赖。】
-
奖励模型仍是瓶颈 :Table 4 显示,弱奖励模型(ArmoRM)导致非对话任务性能下降。
【我认为,可引入 多目标奖励融合 (如 PopQA 准确率 + WildBench 风格分),或采用 在线奖励模型微调(online RM adaptation)以平衡多任务表现。】
-
未验证安全性 :论文未评估 RLMT 是否增加越狱或有害输出风险。
【我认为,在 RLMT 中加入 安全约束奖励项 (如 r safe = r chat − λ ⋅ I unsafe r_{\text{safe}} = r_{\text{chat}} - \lambda \cdot \mathbb{I}_{\text{unsafe}} rsafe=rchat−λ⋅Iunsafe)是必要扩展。】
综上,RLMT 通过 强制 CoT + 强奖励模型 + GRPO,在极小数据量下实现了 SOTA 的开放域对话能力,为后训练范式提供了新思路。