LLM中的强化学习方法分类

在大型语言模型(LLM)的后训练(Post-training)阶段,强化学习(RL)已成为实现复杂推理和人类价值观对齐的核心范式。LLM的RL过程本质上是一个在极其庞大且离散的状态-动作空间(State-Action Space,即Token的自回归生成)中进行策略优化的过程。

本文从五个核心技术维度对当前LLM领域的RL方法进行分类,并盘点具有代表性的主流及最新算法。


1. 学习范式:Value-based, Policy-based 与 Actor-Critic

LLM的RL方法在底层逻辑上依然遵循经典RL的学习范式,但在高维参数空间下,具体实现有所侧重:

  • Value-based(基于价值):通过拟合最优状态-动作价值函数来隐式推导策略。由于LLM动作空间(词表大小)通常在数万级别,这部分LLM相关较少,基本都是传统算法。

  • Policy-based(基于策略):直接参数化策略网络(即LLM本身),通过最大化累积期望奖励来更新参数。增加高收益动作(Token序列)的生成概率,压制低收益动作

  • Actor-Critic(动能-评判家混合架构):结合策略梯度和价值估计,利用Critic网络(通常是独立的Value Model)来估计Advantage(优势函数),从而降低策略梯度的方差。

    • 代表算法PPO (Proximal Policy Optimization)。目前RLHF的绝对工业标准,通过引入Clip机制和KL散度惩罚来保证策略更新的信任域(Trust Region)。

2. 优化目标:标量奖励最大化 vs. 偏好对比距离

这是LLM对齐特有的分类视角,本质上区分了目标函数是"回归期望收益"还是"拉开正负样本的分类边界"。

  • 奖励最大化(类回归 / Expectation Optimization)

    需要训练一个独立的奖励模型(Reward Model, RM)来提供标量信号。算法直接优化期望收益,本质上是在策略空间中搜索使RM打分最高的分布。

    • 代表算法PPO (最经典的基于RM优化的算法),GRPO (Group Relative Policy Optimization)。GRPO通过对同一Prompt采样多条回复,在组内进行标准化计算Advantage,巧妙地省去了庞大的Critic网络,极大降低了显存开销。
  • 偏好对比优化(类分类 / Contrastive Optimization)

    不需要显式的Reward Model。算法直接在偏好数据集上进行训练。从数学本质上看,这类方法将RL转化为一个广义的分类/对比学习问题,旨在拉大"好回复"和"坏回复"之间的对数概率差。

    • 代表算法DPO (Direct Preference Optimization,将RM公式代入策略梯度,直接用交叉熵损失优化隐式奖励),SPPO (Self-Play Preference Optimization,将对齐建模为两人零和博弈,通过自我对弈逼近纳什均衡),KTO (Kahneman-Tversky Optimization,基于前景理论,甚至不需要成对的偏好数据,只需知道回复是"好"是"坏"即可)。

3. 迭代机制:Online (在线) 与 Offline (离线) 学习

数据分布与当前策略分布的耦合程度,决定了算法的上限与工程实现难度。

  • Offline RL(离线学习)

    数据是提前采集并固定好的。模型在静态的偏好数据集上进行训练。

    • 特点 :工程实现简单,资源消耗低。但面临严重的分布偏移(Distribution Shift)问题------模型在推理时生成的轨迹很容易偏离训练数据的支撑集,容易发生过拟合或Reward Hacking的变种。代表算法 :标准版的 DPOPRO (Preference Ranking Optimization)。
  • Online RL(在线迭代)

    Agent在训练过程中持续生成新数据,并基于反馈(RM打分或外部环境验证器,如代码编译器)更新自身策略。

    • 特点 :打破了静态数据的天花板。通过不断的Exploration(探索),模型可以发现数据集中不存在的高质量解。Online RL是目前解锁LLM复杂推理能力(如System 2思考模型)的必经之路。代表算法Online PPOIterative DPORejection Sampling Fine-Tuning (RFT)。

4. 经验采样:On-policy 与 Off-policy

  • On-policy(同策略) :行为策略(收集数据的策略)和目标策略(正在优化的策略)必须是同一个。若策略更新,旧数据必须丢弃。代表算法PPO, GRPO。这类方法通常样本效率(Sample Efficiency)较低,但在LLM这种高度非平稳的优化空间中,稳定性和收敛性更好。

  • Off-policy(异策略) :允许使用历史策略或专家策略收集的轨迹(Replay Buffer)来更新当前策略。代表算法:结合了Replay Buffer机制的Actor-Critic变体,或带有重要性采样(Importance Sampling)的PG方法。在LLM中纯Off-policy方法较少,多见于Offline与Online的混合架构中。

5. 奖励粒度:Outcome (结果奖励) vs. Process (过程奖励)

对于涉及多步长逻辑链(Chain-of-Thought)的数学和代码任务,信用分配(Credit Assignment)的粒度至关重要。

  • ORM (结果奖励):仅在整个Sequence生成结束后,给予一个最终的标量奖励

  • PRM (Process Reward Model, 过程奖励):对生成过程中的每一个中间步骤(Step)甚至每一个Action进行细粒度的奖励打分。

    • 代表算法 :基于PRM的强化学习(如 Let's Verify Step by Step 论文中的应用,结合蒙特卡洛树搜索 MCTS 或束搜索 Beam Search进行推理时对齐)。PRM能够提供密集的监督信号,精确定位逻辑链条在哪一步发生断裂,是当前训练最先进推理模型(如OpenAI o1系列、DeepSeek-R1的前置研究)的核心组件。

6. 前沿趋势与最新算法速览(2024-2025)

在当前的LLM后训练研究中,传统的PPO和标准DPO已经成为Baseline。最新的研究红利主要集中在降低显存开销摆脱成对数据依赖 以及融合搜索与推理时算力三个方向。

以下是近期值得关注的趋势及代表性算法:

趋势一:极致的显存优化与参考模型(Ref Model)剥离

早期对齐算法(如PPO、DPO)通常需要同时加载策略网络、参考网络、奖励网络(或Critic),导致极高的显存墙。目前的趋势是不断做减法。

  • ORPO (Odds Ratio Preference Optimization)

    不仅不需要显式的Reward Model,甚至去掉了DPO中必不可少的Reference Model。它将SFT(监督微调)和Alignment(对齐)合并为一个单阶段过程,通过在传统的负对数似然损失上附加一个基于赔率比(Odds Ratio)的相对惩罚项,极大降低了显存占用和训练流程的复杂性。

  • RLOO (REINFORCE Leave-One-Out)

    与GRPO思想同源,致力于消灭Critic网络。针对同一个Prompt采样多个回复,通过计算"留一法"(Leave-One-Out)的平均奖励作为Baseline来降低策略梯度的方差。这类算法证明了在足够大的Batch Size下,纯Policy-based方法可以匹敌甚至超越Actor-Critic架构。

趋势二:数据约束的突破(从成对偏好到单点反馈与自博弈)

高质量的人类偏好对(Chosen/Rejected)收集成本极高,且极易引入标注者噪声。

  • KTO (Kahneman-Tversky Optimization)

    打破了必须使用"成对对比数据"的限制。基于行为经济学中的前景理论(Prospect Theory),KTO只需要点态(Point-wise)的二元标签(即仅需知道这条回复是Good还是Bad),即可实现媲美DPO的效果,彻底释放了非成对数据的价值。

  • SPIN (Self-Play Fine-Tuning)

    引入了Self-Play(自我对弈)机制。LLM不需要外部偏好数据,而是将"上一轮迭代的自己"生成的回复作为负样本(Rejected),将SFT数据集中的人工回复作为正样本。通过不断拉大自身生成分布与真实数据分布的差异,实现能力的螺旋上升。

趋势三:System 2 慢思考与推理时算力扩展 (Test-Time Scaling)

这是OpenAI o1与DeepSeek-R1系列爆火后,RL领域最核心的关注点。RL的重心开始从单纯的"权重更新"向"引导探索与搜索"转移。

  • MCTS + PRM 架构

    在复杂推理(数学、代码)中,将过程奖励模型(PRM)作为蒙特卡洛树搜索(MCTS)的价值评估节点(Value Node)。RL不仅用于离线训练,更用于在线推理阶段的剪枝与Rollout评估,用推理期算力换取智能的涌现。

  • STaR (Self-Taught Reasoner) 及其演进

    一种典型的拒绝采样微调(RFT)与RL的结合。模型通过生成思维链(Rationale),利用外部强逻辑验证器(如代码编译器或数学答案核对)作为标量反馈。正确的轨迹被加入训练集进行微调,失败的轨迹则引导模型重新思考。这种循环极大地提升了模型的逻辑上限。

相关推荐
輕華1 小时前
矿物成分数据智能分类实战(一):从脏数据到可用数据集的全流程清洗
人工智能·分类·数据挖掘
志栋智能2 小时前
安全超自动化的四大支柱:检测、分析、响应、恢复
运维·网络·人工智能·安全·web安全·自动化
Gavin_Huangw2 小时前
计算机会议分类
人工智能
量子-Alex2 小时前
【大模型RAG】Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
人工智能·自然语言处理
yumgpkpm2 小时前
华为昇腾910B 开源软件GPUStack的介绍(Cloudera CDH、CDP)
人工智能·hadoop·elasticsearch·flink·kafka·企业微信·big data
Elastic 中国社区官方博客2 小时前
AI agent 记忆:使用 Elasticsearch 托管记忆创建智能代理
大数据·人工智能·elasticsearch·搜索引擎·ai·云原生·全文检索
腾视科技TENSORTEC2 小时前
私有云时代来临:AI NAS如何重塑你的数字生活?
大数据·人工智能·科技·ai·生活·ainas
WG_172 小时前
Linux44:POSIX信号量:
java·开发语言