【LLM后训练】看Off-Policy and On-Policy Learning

note

以轨迹来源为核心维度，将大模型后训练，按照轨迹来源分类，可以分为离策略学习【基于外部提供轨迹更新模型】、在线策略学习【基于当前模型生成轨迹更新模型】
后训练本质是对模型行为的结构化干预，所有后训练方法（SFT、偏好优化、RL、蒸馏等）最终都在改变模型的轨迹分布，而非仅仅拟合标签或优化单一目标。其学习信号包括Token、偏好、奖励、验证器、教师指导等。
supervision interface，监督信号。也就是同样都是 off-policy 或 on-policy，监督信号也可能不同，比如：
- token target：SFT
- preference：DPO 类
- reward / evaluator：RLHF / RLVR
- verifier / process feedback：过程监督
- teacher-guided targets：蒸馏/teacher transfer
后训练的功能：
- support expansion：泛化能力，以前不会，现在会了
- policy reshaping：本来会一点，但选得不够好；现在更会选了
- behavioral consolidation：行为巩固，前面好不容易学到的能力，能不能跨阶段保住、迁移、压缩、蒸馏到更便宜更稳定的模型里

文章目录

note
一、研究背景
二、研究方法
- [1、Off-Policy Post-Training](#1、Off-Policy Post-Training)
- [2、On-Policy Post-Training](#2、On-Policy Post-Training)
三、训练组合
Reference

一、研究背景

以轨迹来源为核心维度，将大模型后训练，按照轨迹来源分类，可以分为离策略学习【基于外部提供轨迹更新模型】、在线策略学习【基于当前模型生成轨迹更新模型】，工作在《Large Language Model Post-Training: A Unified View of Off-Policy and On-Policy Learning》(https://arxiv.org/pdf/2604.07941)

研究问题：这篇文章要解决的问题是如何有效地对大规模语言模型（LLMs）进行后训练，使其从广泛预训练的序列预测器转变为对齐的、任务能力的和可部署的系统。
研究难点：该问题的研究难点包括：现有的后训练方法通常是分散的，按历史标签或目标家族组织，而不是基于它们所解决的行为瓶颈；如何统一理解不同的后训练方法，以便更好地协调系统设计和阶段组合。
相关工作：该问题的研究相关工作包括监督微调（SFT）、偏好优化、强化学习（RL）、过程监督和验证器引导的方法、蒸馏以及越来越复杂的多阶段管道。这些方法在文献中被孤立地讨论，缺乏统一的视角。

二、研究方法

这篇论文提出了一种统一的后训练框架，用于解决LLMs行为干预的问题。具体来说：

轨迹来源：首先，论文将后训练分为两个主要的学习制度：离线学习和在线学习。离线学习使用外部提供的轨迹进行优化，而在线学习则使用学习者生成的回滚进行优化。
功能角色：其次，论文引入了分布级功能角色，包括有效支持扩展、策略重塑和行为巩固。
- 有效支持扩展：让模型能生成之前达不到的有用行为、
- 策略重塑：在已有可达行为内优化概率分配、
- 行为巩固：跨阶段/模型保留、迁移、压缩有效行为。
系统级角色：此外，论文还引入了系统级角色，即行为巩固，它涉及在阶段间、模型转换或部署设置中保留、转移、稳定或分摊有用行为。

后训练本质是对模型行为的结构化干预，所有后训练方法（SFT、偏好优化、RL、蒸馏等）最终都在改变模型的轨迹分布，而非仅仅拟合标签或优化单一目标。其学习信号包括Token、偏好、奖励、验证器、教师指导等。

1、Off-Policy Post-Training

离线策略方法（SFT、离线偏好优化、离线蒸馏）擅长有效支持扩展与离线校准，但无法直接修正模型自生状态下的错误。

2、On-Policy Post-Training

在线策略方法（RLHF、RLVR、过程监督）擅长策略重塑，能直接优化模型实际生成时的中间状态与多步错误，但难以自主引入全新外部行为。

三、训练组合

1、SFT既可做支持扩展（引入新推理结构），也可做策略重塑（格式、风格、对齐校准），标准离线偏好优化几乎不扩展新行为，只在模型已有可达输出中做排序与对齐校准。

2、大模型蒸馏的主要价值是跨阶段保留、迁移、摊销昂贵行为（搜索、RL、多步推理），而非单纯缩小模型。

3、后训练存在多阶段瓶颈：典型流水线模式包括

SFT→偏好优化：先建立行为，再校准排序与对齐；
SFT→RLHF/RLVR：先引入行为，再修正模型自生状态错误；
FT→RL→蒸馏：先引入→再优化→最后巩固压缩部署。

但是这都是先需要引入行为（扩展），再需要修正自生错误（重塑），最后需要稳定部署（巩固），单一范式无法全覆盖。

Reference

1\] Large Language Model Post-Training: A Unified View of Off-Policy and On-Policy Learning