LLM中的强化学习方法分类

在大型语言模型（LLM）的后训练（Post-training）阶段，强化学习（RL）已成为实现复杂推理和人类价值观对齐的核心范式。LLM的RL过程本质上是一个在极其庞大且离散的状态-动作空间（State-Action Space，即Token的自回归生成）中进行策略优化的过程。

本文从五个核心技术维度对当前LLM领域的RL方法进行分类，并盘点具有代表性的主流及最新算法。

1. 学习范式：Value-based, Policy-based 与 Actor-Critic

LLM的RL方法在底层逻辑上依然遵循经典RL的学习范式，但在高维参数空间下，具体实现有所侧重：

Value-based（基于价值）：通过拟合最优状态-动作价值函数来隐式推导策略。由于LLM动作空间（词表大小）通常在数万级别，这部分LLM相关较少，基本都是传统算法。
Policy-based（基于策略）：直接参数化策略网络（即LLM本身），通过最大化累积期望奖励来更新参数。增加高收益动作（Token序列）的生成概率，压制低收益动作
Actor-Critic（动能-评判家混合架构）：结合策略梯度和价值估计，利用Critic网络（通常是独立的Value Model）来估计Advantage（优势函数），从而降低策略梯度的方差。
- 代表算法 ：PPO (Proximal Policy Optimization)。目前RLHF的绝对工业标准，通过引入Clip机制和KL散度惩罚来保证策略更新的信任域（Trust Region）。

2. 优化目标：标量奖励最大化 vs. 偏好对比距离

这是LLM对齐特有的分类视角，本质上区分了目标函数是"回归期望收益"还是"拉开正负样本的分类边界"。

奖励最大化（类回归 / Expectation Optimization）：

需要训练一个独立的奖励模型（Reward Model, RM）来提供标量信号。算法直接优化期望收益，本质上是在策略空间中搜索使RM打分最高的分布。
- 代表算法 ：PPO （最经典的基于RM优化的算法），GRPO (Group Relative Policy Optimization)。GRPO通过对同一Prompt采样多条回复，在组内进行标准化计算Advantage，巧妙地省去了庞大的Critic网络，极大降低了显存开销。
偏好对比优化（类分类 / Contrastive Optimization）：

不需要显式的Reward Model。算法直接在偏好数据集上进行训练。从数学本质上看，这类方法将RL转化为一个广义的分类/对比学习问题，旨在拉大"好回复"和"坏回复"之间的对数概率差。
- 代表算法 ：DPO (Direct Preference Optimization，将RM公式代入策略梯度，直接用交叉熵损失优化隐式奖励)，SPPO (Self-Play Preference Optimization，将对齐建模为两人零和博弈，通过自我对弈逼近纳什均衡)，KTO (Kahneman-Tversky Optimization，基于前景理论，甚至不需要成对的偏好数据，只需知道回复是"好"是"坏"即可)。

3. 迭代机制：Online (在线) 与 Offline (离线) 学习

数据分布与当前策略分布的耦合程度，决定了算法的上限与工程实现难度。

Offline RL（离线学习）：

数据是提前采集并固定好的。模型在静态的偏好数据集上进行训练。
- 特点：工程实现简单，资源消耗低。但面临严重的分布偏移（Distribution Shift）问题------模型在推理时生成的轨迹很容易偏离训练数据的支撑集，容易发生过拟合或Reward Hacking的变种。代表算法 ：标准版的 DPO ，PRO (Preference Ranking Optimization)。
Online RL（在线迭代）：

Agent在训练过程中持续生成新数据，并基于反馈（RM打分或外部环境验证器，如代码编译器）更新自身策略。
- 特点：打破了静态数据的天花板。通过不断的Exploration（探索），模型可以发现数据集中不存在的高质量解。Online RL是目前解锁LLM复杂推理能力（如System 2思考模型）的必经之路。代表算法 ：Online PPO ，Iterative DPO ，Rejection Sampling Fine-Tuning (RFT)。

4. 经验采样：On-policy 与 Off-policy

On-policy（同策略） ：行为策略（收集数据的策略）和目标策略（正在优化的策略）必须是同一个。若策略更新，旧数据必须丢弃。代表算法 ：PPO, GRPO。这类方法通常样本效率（Sample Efficiency）较低，但在LLM这种高度非平稳的优化空间中，稳定性和收敛性更好。
Off-policy（异策略） ：允许使用历史策略或专家策略收集的轨迹（Replay Buffer）来更新当前策略。代表算法：结合了Replay Buffer机制的Actor-Critic变体，或带有重要性采样（Importance Sampling）的PG方法。在LLM中纯Off-policy方法较少，多见于Offline与Online的混合架构中。

5. 奖励粒度：Outcome (结果奖励) vs. Process (过程奖励)

对于涉及多步长逻辑链（Chain-of-Thought）的数学和代码任务，信用分配（Credit Assignment）的粒度至关重要。

ORM (结果奖励)：仅在整个Sequence生成结束后，给予一个最终的标量奖励
PRM (Process Reward Model, 过程奖励)：对生成过程中的每一个中间步骤（Step）甚至每一个Action进行细粒度的奖励打分。
- 代表算法 ：基于PRM的强化学习（如 Let's Verify Step by Step 论文中的应用，结合蒙特卡洛树搜索 MCTS 或束搜索 Beam Search进行推理时对齐）。PRM能够提供密集的监督信号，精确定位逻辑链条在哪一步发生断裂，是当前训练最先进推理模型（如OpenAI o1系列、DeepSeek-R1的前置研究）的核心组件。

6. 前沿趋势与最新算法速览（2024-2025）

在当前的LLM后训练研究中，传统的PPO和标准DPO已经成为Baseline。最新的研究红利主要集中在降低显存开销 、摆脱成对数据依赖 以及融合搜索与推理时算力三个方向。

以下是近期值得关注的趋势及代表性算法：

趋势一：极致的显存优化与参考模型（Ref Model）剥离

早期对齐算法（如PPO、DPO）通常需要同时加载策略网络、参考网络、奖励网络（或Critic），导致极高的显存墙。目前的趋势是不断做减法。

ORPO (Odds Ratio Preference Optimization)：

不仅不需要显式的Reward Model，甚至去掉了DPO中必不可少的Reference Model。它将SFT（监督微调）和Alignment（对齐）合并为一个单阶段过程，通过在传统的负对数似然损失上附加一个基于赔率比（Odds Ratio）的相对惩罚项，极大降低了显存占用和训练流程的复杂性。
RLOO (REINFORCE Leave-One-Out)：

与GRPO思想同源，致力于消灭Critic网络。针对同一个Prompt采样多个回复，通过计算"留一法"（Leave-One-Out）的平均奖励作为Baseline来降低策略梯度的方差。这类算法证明了在足够大的Batch Size下，纯Policy-based方法可以匹敌甚至超越Actor-Critic架构。

趋势二：数据约束的突破（从成对偏好到单点反馈与自博弈）

高质量的人类偏好对（Chosen/Rejected）收集成本极高，且极易引入标注者噪声。

KTO (Kahneman-Tversky Optimization)：

打破了必须使用"成对对比数据"的限制。基于行为经济学中的前景理论（Prospect Theory），KTO只需要点态（Point-wise）的二元标签（即仅需知道这条回复是Good还是Bad），即可实现媲美DPO的效果，彻底释放了非成对数据的价值。
SPIN (Self-Play Fine-Tuning)：

引入了Self-Play（自我对弈）机制。LLM不需要外部偏好数据，而是将"上一轮迭代的自己"生成的回复作为负样本（Rejected），将SFT数据集中的人工回复作为正样本。通过不断拉大自身生成分布与真实数据分布的差异，实现能力的螺旋上升。

趋势三：System 2 慢思考与推理时算力扩展 (Test-Time Scaling)

这是OpenAI o1与DeepSeek-R1系列爆火后，RL领域最核心的关注点。RL的重心开始从单纯的"权重更新"向"引导探索与搜索"转移。

MCTS + PRM 架构：

在复杂推理（数学、代码）中，将过程奖励模型（PRM）作为蒙特卡洛树搜索（MCTS）的价值评估节点（Value Node）。RL不仅用于离线训练，更用于在线推理阶段的剪枝与Rollout评估，用推理期算力换取智能的涌现。
STaR (Self-Taught Reasoner) 及其演进：

一种典型的拒绝采样微调（RFT）与RL的结合。模型通过生成思维链（Rationale），利用外部强逻辑验证器（如代码编译器或数学答案核对）作为标量反馈。正确的轨迹被加入训练集进行微调，失败的轨迹则引导模型重新思考。这种循环极大地提升了模型的逻辑上限。