【强化学习】RLMT强制 CoT提升训练效果

RLMT 训练方法详解：数据构造、训练流程与关键发现

本文提出的 RLMT（Reinforcement Learning with Model-rewarded Thinking） 是一种将 长链式思维（CoT） 与 基于奖励模型的在线强化学习 相结合的新训练范式，适用于开放域通用对话任务。以下从 数据构造、训练方法、实验发现 三方面进行专业解读。

1. 数据构造

1.1 RL 训练提示（Prompt）来源

使用 7.5k 条提示 ，来自 WildChat-IF 子集（Tülu 3 SFT 混合数据的一部分）：

原文："We use 7.5k prompts from the WildChat-IF subset of the Tülu 3 SFT mixture. This subset prioritizes conversational prompts sampled from WildChat... covering a wide range of realistic user queries."

中文翻译："我们使用来自 Tülu 3 SFT 混合数据中 WildChat-IF 子集的 7.5k 条提示。该子集优先选取来自 WildChat 的对话型提示，涵盖广泛的真实用户查询。"
对比实验 表明：使用 UltraFeedback 或随机 Tülu-3 混合数据效果更差（见 Table 4），原因：
- UltraFeedback 提示过于简单；
- 原始 Tülu-3 包含大量数学/越狱提示，不适合通用对话。

1.2 SFT（监督微调）数据生成（可选）

使用 Gemini 2.5 Flash （或 GPT-4.1-mini）为 6k 条不重叠提示 生成带 CoT 的响应；

强制输出格式为：

xml 复制代码

 <think>...推理过程...</think><response>...最终回答...</response>

教师模型被提示 模拟内部思考过程，而非直接输出答案。

1.3 "零训练"（Zero Training）设置

跳过 SFT ，直接对 base 模型（如 Llama-3.1-8B Base）应用 RLMT；
通过固定前缀指令引导模型输出 CoT： "A conversation between User and Assistant. Following the User's query, the Assistant first plans a response... in the format <think> reasoning process here</think><response> response here</response>."

2. 训练方法

2.1 优化目标与训练方式

RLMT 的目标函数为：
max ⁡ θ E x ∼ X [ E ( y , z ) ∼ π θ ( ⋅ ∣ x ) [ r ( y , x ) ] ] (3) \max_{\theta} \mathbb{E}{x \sim \mathcal{X}} \left[ \mathbb{E}{(y,z) \sim \pi_\theta(\cdot|x)} \left[ r(y, x) \right] \right] \tag{3} θmaxEx∼X[E(y,z)∼πθ(⋅∣x)[r(y,x)]](3)

其中：

x x x：用户提示；
z z z：模型生成的推理链（CoT）；
y y y：最终响应；
r ( y , x ) r(y, x) r(y,x)：由 奖励模型（Reward Model） 给出的标量评分。

原文 §2.1 对比 RLHF 与 RLVR 后指出："RLMT requires LMs to generate a reasoning trace z z z before producing the final response y y y, which differs from RLHF, and uses a reward model r r r to score responses, rather than rule-based verification as in RLVR."

训练方式明确为在线强化学习（on-policy RL），而非离线偏好学习。作者在 §2.2 中强调："We study several key design choices for RLMT: Training algorithm... We experiment with different RL algorithms: on-policy DPO, PPO, and GRPO."

特别说明：此处的 "on-policy DPO" 并非传统离线 DPO，而是 动态采样当前策略生成的响应对 构建偏好数据（见 Footnote 2）：

"Unlike standard DPO using a static preference dataset, we build preference pairs sampled from the policy model to be optimized."

2.2 具体训练流程与原文示例

训练分为两个可选阶段：

（1）Warm-start SFT（可选）

使用 Gemini 2.5 Flash 生成带 <think>...</think><response>...</response> 标签的响应；
示例指令（Appendix C）： "FORMAT: First showcase a detailed planning phase where you plan your response within <think>...</think> tags. Then produce the actual response within <response>...</response> tags."

（2）在线强化学习阶段

对每个 prompt x x x，从当前策略 π θ \pi_\theta πθ 中采样多个响应（含 CoT）；
使用 Skywork-v2 奖励模型 对最终响应 y y y 打分 r ( y , x ) r(y, x) r(y,x)；
更新策略以最大化期望奖励。

以 GRPO 为例（Table 7）：

每 prompt 采样 8 个响应；
计算组内奖励均值作为基线： A i = r i − 1 8 ∑ j r j A_i = r_i - \frac{1}{8} \sum_j r_j Ai=ri−81∑jrj；
使用 PPO-style clipped objective 更新策略，无需 critic 网络。

原文 §2.2："GRPO(Shao et al., 2024)... computes advantages by mean-centering rewards within a group, eliminating the need for a learned critic."

3. 实验中的关键发现

3.1 RLMT 显著提升开放域对话能力

在 AlpacaEval2、WildBench、ArenaHardV2 三大对话基准上，RLMT 比标准 RLHF 平均高 3--7 分；
Llama-3.1-8B-Instruct-RLMT （8B）在 WildBench 上得分 50.4 ，超越：
- Llama-3.1-70B-Instruct（16.3）；
- GPT-4o（46.2）；
- 甚至接近 Claude-3.7-Sonnet（47.8）。

3.2 "零训练"也能有效激发能力

仅用 7k 提示 + GRPO ，Llama-3.1-8B Base 模型在 WildBench 上达 7.2 分，远超其 Instruct 版本（-7.0）；
Qwen-2.5-7B-RLMT-Zero（22.2）甚至 超过 Qwen-2.5-7B-Instruct（22.2 vs 22.2，但其他指标更高）。

3.3 模型展现出的高级推理策略（附原文例子）

论文在 §4.2 通过自动 trait 分析发现，RLMT 训练后的模型从 线性 checklist 式规划 转变为更高级的策略：

原文 Figure 4 右侧示例（用户请求："请将标题《紧急 vs 非紧急邮件的心理学------哪种转化率更高？何时使用？》扩展为一条 Twitter 推文线程"）：

xml 复制代码

<think>
The user wants... This thread should...
The tone needs to be...
The constraints are strict: 1. No hashtags...

**Plan:**
1. **Headline:** ...
2. **Thread Structure:** ...
3. **Content Strategy (What-Why-How-Snap):** ...
4. **Tone & Voice:** Adopt the persona....
5. **Constraint Checklist & Refinement:**
   - **No Hashtags:** ...
6. **Drafting & Refinement:** Write each t...
Strategizing complete. I will now...
</think>

该例子展示了以下高级策略：

约束枚举（Integrates constraints into plan）：明确列出"不能使用 hashtag"等硬性约束；
主题聚类（Groups ideas into themes）：将内容策略按 What-Why-How-Snap 分组；
迭代修正（Revises/backtracks while planning）：在最终输出前执行"Constraint Checklist & Refinement"步骤，回溯检查是否满足所有约束。

相比之下，SFT 阶段的模型仅输出如"1. 引言 2. 主体 3. 结论"这类线性结构。

4. 方法评述与改进建议

【我认为，RLMT 的核心创新在于将"思维显式化"与"通用奖励信号"结合，但仍有改进空间：】

CoT 格式过于僵化 ：强制使用 </think> 可能限制模型自然表达。

【我认为，可探索 动态 CoT 触发机制 （如仅在复杂任务中启用），或使用 隐式思维蒸馏（如通过 attention mask 引导内部推理）来减少格式依赖。】
奖励模型仍是瓶颈 ：Table 4 显示，弱奖励模型（ArmoRM）导致非对话任务性能下降。

【我认为，可引入 多目标奖励融合 （如 PopQA 准确率 + WildBench 风格分），或采用 在线奖励模型微调（online RM adaptation）以平衡多任务表现。】
未验证安全性 ：论文未评估 RLMT 是否增加越狱或有害输出风险。

【我认为，在 RLMT 中加入 安全约束奖励项 （如 r safe = r chat − λ ⋅ I unsafe r_{\text{safe}} = r_{\text{chat}} - \lambda \cdot \mathbb{I}_{\text{unsafe}} rsafe=rchat−λ⋅Iunsafe）是必要扩展。】

综上，RLMT 通过 强制 CoT + 强奖励模型 + GRPO，在极小数据量下实现了 SOTA 的开放域对话能力，为后训练范式提供了新思路。