在大型语言模型(LLM)的后训练(Post-training)阶段,强化学习(RL)已成为实现复杂推理和人类价值观对齐的核心范式。LLM的RL过程本质上是一个在极其庞大且离散的状态-动作空间(State-Action Space,即Token的自回归生成)中进行策略优化的过程。
本文从五个核心技术维度对当前LLM领域的RL方法进行分类,并盘点具有代表性的主流及最新算法。
1. 学习范式:Value-based, Policy-based 与 Actor-Critic
LLM的RL方法在底层逻辑上依然遵循经典RL的学习范式,但在高维参数空间下,具体实现有所侧重:
-
Value-based(基于价值):通过拟合最优状态-动作价值函数来隐式推导策略。由于LLM动作空间(词表大小)通常在数万级别,这部分LLM相关较少,基本都是传统算法。
-
Policy-based(基于策略):直接参数化策略网络(即LLM本身),通过最大化累积期望奖励来更新参数。增加高收益动作(Token序列)的生成概率,压制低收益动作
-
Actor-Critic(动能-评判家混合架构):结合策略梯度和价值估计,利用Critic网络(通常是独立的Value Model)来估计Advantage(优势函数),从而降低策略梯度的方差。
- 代表算法 :PPO (Proximal Policy Optimization)。目前RLHF的绝对工业标准,通过引入Clip机制和KL散度惩罚来保证策略更新的信任域(Trust Region)。
2. 优化目标:标量奖励最大化 vs. 偏好对比距离
这是LLM对齐特有的分类视角,本质上区分了目标函数是"回归期望收益"还是"拉开正负样本的分类边界"。
-
奖励最大化(类回归 / Expectation Optimization):
需要训练一个独立的奖励模型(Reward Model, RM)来提供标量信号。算法直接优化期望收益,本质上是在策略空间中搜索使RM打分最高的分布。
- 代表算法 :PPO (最经典的基于RM优化的算法),GRPO (Group Relative Policy Optimization)。GRPO通过对同一Prompt采样多条回复,在组内进行标准化计算Advantage,巧妙地省去了庞大的Critic网络,极大降低了显存开销。
-
偏好对比优化(类分类 / Contrastive Optimization):
不需要显式的Reward Model。算法直接在偏好数据集上进行训练。从数学本质上看,这类方法将RL转化为一个广义的分类/对比学习问题,旨在拉大"好回复"和"坏回复"之间的对数概率差。
- 代表算法 :DPO (Direct Preference Optimization,将RM公式代入策略梯度,直接用交叉熵损失优化隐式奖励),SPPO (Self-Play Preference Optimization,将对齐建模为两人零和博弈,通过自我对弈逼近纳什均衡),KTO (Kahneman-Tversky Optimization,基于前景理论,甚至不需要成对的偏好数据,只需知道回复是"好"是"坏"即可)。
3. 迭代机制:Online (在线) 与 Offline (离线) 学习
数据分布与当前策略分布的耦合程度,决定了算法的上限与工程实现难度。
-
Offline RL(离线学习):
数据是提前采集并固定好的。模型在静态的偏好数据集上进行训练。
- 特点 :工程实现简单,资源消耗低。但面临严重的分布偏移(Distribution Shift)问题------模型在推理时生成的轨迹很容易偏离训练数据的支撑集,容易发生过拟合或Reward Hacking的变种。代表算法 :标准版的 DPO ,PRO (Preference Ranking Optimization)。
-
Online RL(在线迭代):
Agent在训练过程中持续生成新数据,并基于反馈(RM打分或外部环境验证器,如代码编译器)更新自身策略。
- 特点 :打破了静态数据的天花板。通过不断的Exploration(探索),模型可以发现数据集中不存在的高质量解。Online RL是目前解锁LLM复杂推理能力(如System 2思考模型)的必经之路。代表算法 :Online PPO ,Iterative DPO ,Rejection Sampling Fine-Tuning (RFT)。
4. 经验采样:On-policy 与 Off-policy
-
On-policy(同策略) :行为策略(收集数据的策略)和目标策略(正在优化的策略)必须是同一个。若策略更新,旧数据必须丢弃。代表算法 :PPO, GRPO。这类方法通常样本效率(Sample Efficiency)较低,但在LLM这种高度非平稳的优化空间中,稳定性和收敛性更好。
-
Off-policy(异策略) :允许使用历史策略或专家策略收集的轨迹(Replay Buffer)来更新当前策略。代表算法:结合了Replay Buffer机制的Actor-Critic变体,或带有重要性采样(Importance Sampling)的PG方法。在LLM中纯Off-policy方法较少,多见于Offline与Online的混合架构中。
5. 奖励粒度:Outcome (结果奖励) vs. Process (过程奖励)
对于涉及多步长逻辑链(Chain-of-Thought)的数学和代码任务,信用分配(Credit Assignment)的粒度至关重要。
-
ORM (结果奖励):仅在整个Sequence生成结束后,给予一个最终的标量奖励
-
PRM (Process Reward Model, 过程奖励):对生成过程中的每一个中间步骤(Step)甚至每一个Action进行细粒度的奖励打分。
- 代表算法 :基于PRM的强化学习(如 Let's Verify Step by Step 论文中的应用,结合蒙特卡洛树搜索 MCTS 或束搜索 Beam Search进行推理时对齐)。PRM能够提供密集的监督信号,精确定位逻辑链条在哪一步发生断裂,是当前训练最先进推理模型(如OpenAI o1系列、DeepSeek-R1的前置研究)的核心组件。
6. 前沿趋势与最新算法速览(2024-2025)
在当前的LLM后训练研究中,传统的PPO和标准DPO已经成为Baseline。最新的研究红利主要集中在降低显存开销 、摆脱成对数据依赖 以及融合搜索与推理时算力三个方向。
以下是近期值得关注的趋势及代表性算法:
趋势一:极致的显存优化与参考模型(Ref Model)剥离
早期对齐算法(如PPO、DPO)通常需要同时加载策略网络、参考网络、奖励网络(或Critic),导致极高的显存墙。目前的趋势是不断做减法。
-
ORPO (Odds Ratio Preference Optimization):
不仅不需要显式的Reward Model,甚至去掉了DPO中必不可少的Reference Model。它将SFT(监督微调)和Alignment(对齐)合并为一个单阶段过程,通过在传统的负对数似然损失上附加一个基于赔率比(Odds Ratio)的相对惩罚项,极大降低了显存占用和训练流程的复杂性。
-
RLOO (REINFORCE Leave-One-Out):
与GRPO思想同源,致力于消灭Critic网络。针对同一个Prompt采样多个回复,通过计算"留一法"(Leave-One-Out)的平均奖励作为Baseline来降低策略梯度的方差。这类算法证明了在足够大的Batch Size下,纯Policy-based方法可以匹敌甚至超越Actor-Critic架构。
趋势二:数据约束的突破(从成对偏好到单点反馈与自博弈)
高质量的人类偏好对(Chosen/Rejected)收集成本极高,且极易引入标注者噪声。
-
KTO (Kahneman-Tversky Optimization):
打破了必须使用"成对对比数据"的限制。基于行为经济学中的前景理论(Prospect Theory),KTO只需要点态(Point-wise)的二元标签(即仅需知道这条回复是Good还是Bad),即可实现媲美DPO的效果,彻底释放了非成对数据的价值。
-
SPIN (Self-Play Fine-Tuning):
引入了Self-Play(自我对弈)机制。LLM不需要外部偏好数据,而是将"上一轮迭代的自己"生成的回复作为负样本(Rejected),将SFT数据集中的人工回复作为正样本。通过不断拉大自身生成分布与真实数据分布的差异,实现能力的螺旋上升。
趋势三:System 2 慢思考与推理时算力扩展 (Test-Time Scaling)
这是OpenAI o1与DeepSeek-R1系列爆火后,RL领域最核心的关注点。RL的重心开始从单纯的"权重更新"向"引导探索与搜索"转移。
-
MCTS + PRM 架构:
在复杂推理(数学、代码)中,将过程奖励模型(PRM)作为蒙特卡洛树搜索(MCTS)的价值评估节点(Value Node)。RL不仅用于离线训练,更用于在线推理阶段的剪枝与Rollout评估,用推理期算力换取智能的涌现。
-
STaR (Self-Taught Reasoner) 及其演进:
一种典型的拒绝采样微调(RFT)与RL的结合。模型通过生成思维链(Rationale),利用外部强逻辑验证器(如代码编译器或数学答案核对)作为标量反馈。正确的轨迹被加入训练集进行微调,失败的轨迹则引导模型重新思考。这种循环极大地提升了模型的逻辑上限。