【大模型】监督微调与强化学习：大型语言模型后训练方法的研究

Supervised Fine-Tuning versus Reinforcement Learning： A Study of Post-Training Methods for Large Language Models

监督微调与强化学习：大型语言模型后训练方法的研究
论文链接

摘要

预训练大型语言模型（LLM）展现出广泛的能力，然而，针对特定任务或领域，其实现更高准确性和更可靠推理通常依赖于通过监督式微调（SFT）或强化学习（RL）进行的后训练。尽管常被视为截然不同的方法，但近期的理论和实证发展表明，SFT与RL密切相关。本研究提出了关于LLM后训练中SFT与RL的全面且统一的视角。我们首先对两种技术进行深入概述，审视其目标、算法结构及数据需求。随后系统分析其相互作用，重点介绍整合SFT与RL的框架、混合训练流程以及利用两者互补优势的方法。基于2023至2025年间一系列代表性应用研究，我们识别新兴趋势，刻画向混合后训练范式的快速转变，并提炼关键启示，阐明每种方法何时及为何最为有效。通过整合理论见解、实践方法与实证证据，本研究在统一框架下建立了对SFT与RL的清晰理解，并指出了未来在可扩展、高效且可泛化的LLM后训练研究方向上的前景。

1.引言

预训练的大型语言模型已在广泛的任务中展现出卓越能力，从基于事实的问答（Joshi et al., 2017）到代码生成（Jimenez et al., 2024）。尽管这些模型在包含数十亿至数万亿词元的语料库上进行了训练，但它们通常仍需针对特定任务进行后训练适配，以提高准确性、减少错误输出并处理新任务。例如，微调可以通过生成逐步增长的多步骤推理链来增强复杂推理能力，从而最终在需要复杂推理的任务中得出更准确的最终答案（Guo et al., 2025）。此外，它还能增强实际交互技能，包括在家庭环境（Song et al., 2024a）或设备控制环境（Rawles et al., 2025）中执行任务。这类能力很少仅通过预训练就能获得，因为预训练数据中极少包含准确推理或复杂交互所需的特定任务模式或反馈，这凸显了后训练的重要性。

当前大语言模型的后训练方法主要分为两种范式：自监督微调（SFT）与强化学习（RL）。SFT（Zhou等，2023；Li等，2024c；Pang等，2025）的目标是最大化在上下文条件下词元的最大似然，而RL（Ouyang等，2022；Guo等，2025；Yang等，2025a）则优化来自人类或自动化偏好反馈的奖励信号。尽管两者目标不同，但近年来的研究日益聚焦于桥接这两种方法（Wu等，2025；Fu等，2025b），探索其融合方式（Wu等，2025；Qin与Springenberg，2025；Yan等，2025a；Liu等，2025a）如何提升性能，使其超越任一方法单独使用时的表现。

这种组合在需要同时兼顾准确性和泛化能力的任务（如推理）中表现尤为突出。仅通过监督式微调（SFT）虽能教会模型生成基础的思维链（CoT），但可能在面对新型问题结构时效果欠佳（Ross and Bagnell, 2010; De Haan et al., 2019）。反之，基于偏好反馈的强化学习（RL）微调虽能提升步骤正确率，但在缺乏离线演示的情况下往往需要大量探索。通过融合SFT与RL，模型可以结合两者的优势，实现更可靠、更稳健的推理。

如图1所示，这些研究强调了理解和结合SFT与RL的互补优势对于推进LLM后训练方法至关重要。

图1：基于监督微调（SFT）和强化学习（RL）的大语言模型（LLM）训练后对齐方法分类体系。我们将先前工作归纳为三类：（1）SFT与RL中的算法中心与数据中心方法；（2）整合SFT与RL目标的比较性、统一性与混合性框架；（3）代表性下游应用领域，包括推理、数学、智能体行为及代码相关任务。

虽然近期研究为LLM后训练提供了宝贵见解，但多数研究通常分别探讨SFT或RL（Parthasarathy等，2024；Tao等，2024；Mao等，2025；Tie等，2025；Zhang等，2025c,b），使得这些方法之间的关系相对未得到充分探索。其他工作聚焦于后训练的专门维度，如以视觉为中心的适配（Chu等，2025）、推理进展（Kumar等，2025）、智能体行为（Du等，2025a）或扩展策略（Lai等，2025）。相比之下，我们的综述提供了将SFT和RL作为互补后训练工具的系统性整合视角，尤其强调它们的相互协同与实际应用。

我们的主要贡献体现在以下三个方面：

• 我们是首个系统总结并比较LLM后训练中SFT与RL的研究，清晰阐释了SFT和RL的内涵，以及如何从以算法为中心和以数据为中心的角度对其进行扩展。

• 随后，我们构建了一个统一框架来描述SFT与RL，揭示了二者如何相互补充或整合为混合学习方法。

• 通过对2023年至2025年期间的应用分析，我们观察到任务领域的快速拓展、SFT--RL集成训练的日益普及，以及从基于API的标注向开放权重生成数据集的持续转变。

2.背景：监督微调与强化学习

监督微调（SFT）。SFT是一种通过使用标准语言建模目标在高质量提示-响应对上训练来使LLM适应特定任务或领域的方法。该过程通常涉及收集或整理专家编写的示例数据集 D = { ( x , y ) } D = \{(x, y)\} D={(x,y)}（提示x与目标响应y配对），然后微调模型 π θ π_θ πθ：

min ⁡ θ E ( x , y ) ∼ D [ − log ⁡ π θ ( y ∣ x ) ] . \min_\theta\mathbb{E}{(x,y)\thicksim\mathcal{D}}\left[-\log\pi\theta(y\mid x)\right]. θminE(x,y)∼D[−logπθ(y∣x)].

本质上，SFT训练模型模仿专家行为。它与传统强化学习中的行为克隆（BC）密切相关（Pomerleau, 1991），因为两者都直接学习专家演示，而不依赖显式的奖励信号。SFT的目标是复现专家表现；然而，与BC类似，它会受到分布偏移的影响，从而导致复合误差（Ross and Bagnell, 2010; De Haan et al., 2019），并且高度依赖演示数据的质量。

强化学习（RL）。RL提供了一种替代范式，其中LLM并非通过直接监督信号进行调优，而是根据奖励函数优化行为。在经典RL中，模型与环境交互并学习一种策略，以最大化随时间累积的奖励。近年来的LLM后训练方法（Ouyang et al., 2022; Guo et al., 2025; Yang et al., 2025a）采用了类似技术：构建一个环境，模型作为与该环境交互的策略，训练过程以最大化期望奖励为目标进行。

max ⁡ θ E x ∼ D , y ∼ π θ ( ⋅ ∣ x ) [ r ( x , y ) ] , \max_\theta\mathbb{E}{x\thicksim\mathcal{D},y\thicksim\pi\theta(\cdot|x)}\left[r(x,y)\right], θmaxEx∼D,y∼πθ(⋅∣x)[r(x,y)],

其中奖励函数r要么由人工指定，要么从数据中学习得到。尽管RL也可以指无需环境交互的离线强化学习，但在本工作中，我们仅用其指代在线强化学习，因为它在当前大语言模型对齐的前沿领域（包括推理和智能体开发）中占据主导地位。

在此，我们总结了当前文献（Shao et al., 2024; Zhang et al., 2025c）中常见的关于大语言模型后训练阶段监督微调与强化学习的关键区别：监督微调是一种监督学习范式，基于专家标注的提示-回复对进行训练；而强化学习是一种奖励驱动的优化范式，通过基于模型自身生成内容对其进行更新来学习。

3.SFT与RL：截然不同的方法论领域

在大型语言模型后训练的演进格局中，监督微调与强化学习是两种主要的方法论范式。本节从以下两个维度概述这些方法：（1）以算法为中心：优化的训练算法或损失函数；（2）以数据为中心：精心策划的数据选择或复杂的数据合成。

3.1 SFT

以算法为中心的SFT。Li等人(2024c)提出了熵分布匹配(GEM)，将SFT重新表述为带有熵正则化的分布匹配问题，以缓解过拟合并保持输出多样性。Token Cleaning(Pang等人,2025)估计每个词元对模型更新的贡献并移除无信息词元，有效减少监督中的噪声。One-Token Rollout(Ming等人,2025)是一种受策略梯度启发的SFT变体，将每个词元预测视为单步轨迹，并利用真实词元作为奖励，在不引入强化学习复杂性的同时引入在线学习信号。

以数据为中心的SFT。Zhou等人（2023）仅使用1000个高质量且多样化的指令-响应对微调其模型，便实现了与更大模型相当的对齐性能。FisherSFT（Deb等人，2025b）选择能最大化信息增益的训练样本，从而在有限数据下实现高效学习。Li等人（2025b）通过学习领域特定权重来优化数据混合，最小化验证损失，从而以极低的调优成本改善泛化能力。Quan（2025）提出自动生成上下文驱动的指令-响应对，以丰富和多样化SFT数据，无需大量人工标注。最后，Condor（Cao等人，2025a）整合了知识引导的合成与迭代精炼，生成高保真对齐数据，进一步证明了数据策展的重要性。

3.2 RL

以算法为中心的强化学习。为了将大语言模型的能力扩展至标准强化学习所能达到的范围之外，研究者提出了若干修改后的目标和训练流程。一个关键的创新方向在于策略优化算法。尽管基于学习型价值批评家的近端策略优化（PPO; Schulman et al., 2017）一直是主流方法，但近期工作更青睐无批评家方法，例如群体相对策略优化（GRPO; Shao et al., 2024），该方法通过用群体相对归一化优势替代价值网络来简化训练。其他方法采用直接的REINFORCE式更新（Li et al., 2023; Ahmadian et al., 2024; Hu, 2025; Xiong et al., 2025a），舍弃了PPO的复杂组件。另一个活跃方向聚焦于通过目标正则化提升训练稳定性与效率。熵正则化对于防止熵崩溃仍然至关重要（Cheng et al., 2025; Cui et al., 2025a）。He et al. (2025a); Shrivastava et al. (2025) 引入加权词元熵来正则化策略更新。相比之下，Cui et al. (2025a) 将动作概率与其优势之间的协方差识别为关键的熵"驱动力"，并提出协方差与库尔贝克--莱布勒（KL）裁剪，以选择性地约束具有异常高协方差的词元。此外，Cheng et al. (2025) 和 Chen et al. (2025c) 将熵信息纳入优势估计，进一步稳定了训练动态。

以数据为中心的强化学习。若干方法（Zhang等人，2025a；Xu等人，2025c）执行轨迹选择，证明选择性训练信息丰富的模型轨迹子集（例如高方差或多样化样本）能够取得有前景的性能，因而具有极高的数据效率。其他方法（Zheng等人，2025；Qu等人，2025）探索提示选择（在轨迹生成之前），以在保持性能的同时降低计算成本。课程学习也对此方向有所贡献。Zhang等人（2025d）；Yao等人（2025）动态选择中等难度的提示，以最大化学习信号。此外，Chen等人（2025d）；Wang等人（2025a）引入了一种分布级自适应方法，优先处理模型表现出最大优势或最低访问次数的任务。

4.SFT与RL的比较与结合

尽管监督微调（SFT）和强化学习（RL）是大型语言模型（LLMs）中两种常用的后训练技术，但它们仍保持相对独立，通常以顺序方式应用。例如，基于人类反馈的强化学习（RLHF）首先使用SFT向LLMs注入先验通用知识，随后通过RL提升其在特定方面的能力（Ouyang et al., 2022; Bai et al., 2022）。然而，尽管已有一些开创性工作试图修改彼此的目标以互补优势，但这两个阶段之间仍缺乏系统性的比较与结合，特别是在方法论和理论视角上。不同SFT与RL组合方式的详细比较总结于表1

4.1 统一目标

首先，我们分别以明确的方式写下SFT和RL的目标。

L S F T = E ( x , y ) ∼ D [ − log ⁡ π θ ( y ∣ x ) ] , \mathcal{L}{\mathrm{SFT}}=\mathbb{E}{(x,y)\thicksim\mathcal{D}}[-\log\pi_\theta(y|x)], LSFT=E(x,y)∼D[−logπθ(y∣x)],

L R L = E x ∼ D x , y ∼ π θ ( ⋅ ∣ x ) [ r ( x , y ) ] . \mathcal{L}{\mathrm{RL}}=\mathbb{E}{x\sim\mathcal{D}x,y\sim\pi\theta(\cdot|x)}[r(x,y)]. LRL=Ex∼Dx,y∼πθ(⋅∣x)[r(x,y)].

基于上述公式，我们可以推导出如下两个目标的梯度。

∇ θ L S F T = E ( x , y ) ∼ D [ − ∇ θ log ⁡ π θ ( y ∣ x ) ] , \nabla_\theta\mathcal{L}\mathrm{SFT}=\mathbb{E}{(x,y)\thicksim\mathcal{D}}[-\nabla_\theta\log\pi_\theta(y|x)], ∇θLSFT=E(x,y)∼D[−∇θlogπθ(y∣x)],
∇ θ L R L = E x ∼ D x , y ∼ π θ ( ⋅ ∣ x ) [ ∇ θ log ⁡ π θ ( y ∣ x ) ⋅ r ( x , y ) ] . \nabla_\theta\mathcal{L}{\mathrm{RL}}=\mathbb{E}{x\sim\mathcal{D}x,y\sim\pi\theta(\cdot|x)}[\nabla_\theta\log\pi_\theta(y|x)\cdot r(x,y)]. ∇θLRL=Ex∼Dx,y∼πθ(⋅∣x)[∇θlogπθ(y∣x)⋅r(x,y)].

正如近期研究（Wu et al., 2025）所指出的，SFT的目标可被视为RL的一个特例，即

∇ θ L S F T = E ( x i , y i ) ∼ D [ − ∇ θ log ⁡ π θ ( y i ∣ x i ) ] = E x i ∼ D x [ E y ∼ π θ ( ⋅ ∣ x ) [ − I { y = y i } π θ ( y ∣ x ) ∇ θ log ⁡ π θ ( y i ∣ x i ) ] ] , \begin{aligned}&\nabla_\theta\mathcal{L}{\mathrm{SFT}}=\mathbb{E}{(x_i,y_i)\sim\mathcal{D}}[-\nabla_\theta\log\pi_\theta(y_i|x_i)]\\&=\mathbb{E}{x_i\sim\mathcal{D}x}[\mathbb{E}{y\sim\pi\theta(\cdot|x)}[-\frac{\mathbb{I}\{y=y_i\}}{\pi_\theta(y|x)}\nabla_\theta\log\pi_\theta(y_i|x_i)]],\end{aligned} ∇θLSFT=E(xi,yi)∼D[−∇θlogπθ(yi∣xi)]=Exi∼Dx[Ey∼πθ(⋅∣x)[−πθ(y∣x)I{y=yi}∇θlogπθ(yi∣xi)]],

其中 I { y = y i } \mathbb{I}\{y=y_i\} I{y=yi}是指示函数，当从策略 π θ ( ⋅ ∣ x ) π_θ(·|x) πθ(⋅∣x) 中采样的输出 y 与 SFT 训练数据集中的真实响应 yi 完全相同时，该函数取值为 1。因此，比率 − I { y = y i } π θ ( y ∣ x ) -\frac{\mathbb{I}\{y{=}y_i\}}{\pi_\theta(y|x)} −πθ(y∣x)I{y=yi}可被视为 SFT 中的代理奖励函数。

基于上述论证，将SFT视为RL的一种特殊情况，大多数后训练的训练目标可以抽象为以下公式：

max ⁡ π E x ∼ D x , y ∼ π θ ( ⋅ ∣ x ) [ r ( x , y ) ] − β K L ( π θ ( ⋅ ∣ x ) ∥ π 0 ( ⋅ ∣ x ) ) , \begin{aligned}\max_\pi\mathbb{E}{x\sim\mathcal{D}x,y\sim\pi\theta(\cdot|x)}&\begin{bmatrix}r(x,y)\end{bmatrix}\\&-\beta\mathrm{~KL}\left(\pi\theta(\cdot|x)\|\pi_0(\cdot|x)\right),\end{aligned} πmaxEx∼Dx,y∼πθ(⋅∣x)[r(x,y)]−β KL(πθ(⋅∣x)∥π0(⋅∣x)),

其中 π 0 π_0 π0是基础（参考）策略模型；r是奖励的代理变量，β是超参数。策略模型与参考模型之间的KL正则化限制了 π 0 π_0 π0偏离预训练检查点的程度，主要是出于稳定性的考虑。在接下来的章节中，我们将继续从目标函数的角度讨论SFT与RL的区别与结合。

因此，用SFT和RL目标优化LLM最终都会归结为RL目标，而适用于其中一方的技巧也有潜力应用于另一方。为缓解SFT带来的泛化能力下降，可考虑采用RL中的重要性采样和在线生成（online rollout）。同时，为帮助LLM记忆更多知识，可将SFT损失整合到RL目标中。这两个阶段应被视为相互强化、相互依存的关系，而非仅仅交替使用。

4.2 利用SFT增强RL

结合离线演示与在线数据

近期研究通过将离线演示与在线推演相结合，利用SFT增强LLMs中的RL。Yan等人（2025a）提出一种离策略引导框架，用推理轨迹增强在策略更新，有效平衡模仿与探索。SRFT（Fu等人，2025b）在单阶段框架中整合监督目标与强化目标，避免了顺序微调的低效。与LLMs类似，视觉语言模型（VLMs）通过将LLMs的单一文本模态扩展至图像、视频等视觉领域，成为另一个潜力巨大的蓬勃发展领域。Liu等人（2025a）针对小型VLMs提出一种动态记忆---探索策略，自适应地在演示模仿与在线奖励优化之间交替切换。AMFT（He等人，2025b）采用元学习视角，动态调整模仿---探索平衡以最大化性能。Lv等人（2025）提供了后训练的统一视角，表明SFT和RL均优化同一目标，并提出利用演示和推演数据的混合更新方法。BREAD（Zhang等人，2025f）通过以专家前缀锚定的分支推演桥接SFT与RL，减少对大量演示集的依赖并提升稳定性。类似地，Huang等人（2025）开发了一种前缀采样方法，在应用RL优化前引导生成进入高质量轨迹。总体而言，这些方法展示了互补策略------包括单阶段整合、自适应加权及基于前缀的种子化------在基于SFT演示的RL中提升了效率与鲁棒性。

目标修正NFT（Chen等，2025a）使模型能够在监督下从正确和错误输出中学习，同时隐式优化策略以提升推理性能。UFT（Liu等，2025b）将监督微调和强化微调统一为单一过程，平衡记忆与探索，实现更好的泛化能力和指数级提升的样本效率。ReLIFT（Zhu等，2025b）在最难问题上将强化学习与监督微调交错进行，使模型获得超越纯强化学习所能实现的能力。Zhu等（2025b）证明，仅通过负样本强化惩罚错误答案，就能显著提升推理性能，通常匹配或超越传统强化学习方法，其机制是抑制错误输出并将概率重新分配给合理替代答案。

4.3 从强化学习视角改进有监督微调

DFT (Wu et al., 2025) 提出通过每个 token 的预测概率重新缩放其损失，以纠正 SFT 中的隐式奖励偏差并提升泛化能力。iw-SFT (Qin and Springenberg, 2025) 将精心设计的 SFT 解释为优化稀疏奖励 RL 目标的下界，并通过重要性权重收紧该下界。另一项 RLHF 研究 (Du et al., 2025b) 通过变分推断提出了一种重加权奖励驱动的 SFT 目标。相比之下，受 RL，尤其是直接偏好优化 (DPO) (Rafailov et al., 2023) 目标的启发，Wang et al. (2024d) 在离线数据集上最小化参考模型与策略模型之间的分布差异。

4.4 结合SFT和RL的混合训练

Huang等人(2025)提出通过利用真实响应的前缀，基于当前策略模型生成新的续接，从而将SFT和RL结合，并使用SFT损失训练前缀部分，同时使用RL损失训练新生成的部分。Lv等人(2025)根据在线rollout过程中策略模型的性能，交错使用SFT和RL：当性能高于预设阈值时，优先采用在线RL进行探索；当性能较差时，则优先采用SFT的正确引导。Liu等人(2024)从原始DPO (Rafailov等人, 2023)目标出发，直接在来自基础模型的样本上注入SFT损失，以缓解过度优化。Zhang等人(2025e)将加权SFT损失和GRPO (Shao等人, 2024)损失结合，以聚合离策略和在线策略训练。Liu等人(2025b)在前几步使用专家数据，在后续步骤中切换到新生成的数据。SRL (Deng等人, 2025)提出将推理过程分解为若干中间步骤，并将在线rollout与离线专家轨迹进行比较，根据它们的匹配程度分配奖励。

5.应用

我们专注于应用研究，通过监督微调或强化学习在四个领域对大型语言模型进行后训练，每个领域涵盖不同的方法和挑战，这些类别体现了大型语言模型能力的广度，并支持对跨任务性能的系统分析。关键趋势总结如图2所示，附录B提供了更多细节。

图2：2023至2025年任务焦点、训练方法与真值数据来源的趋势。结果显示，所有调查领域均呈现快速增长，研究体量大幅增加，应用领域日趋多样化；在更成熟的训练基础设施、库和偏好数据集的支持下，向混合SFT--RL管道的趋同性日益增强；并且从基于API的标注持续转向使用能力日益增强的开源权重模型生成数据。2025年的预测及所有报告的比例均来自已调查的出版物；进一步讨论见附录B.4。

5.1 大语言模型在通用问答任务中的应用

本子节综述了通过推理增强（例如，思维链（CoT））、外部知识整合（例如，检索增强生成（RAG））以及幻觉缓解技术来提升大语言模型问答（QA）性能的方法。

逐步推理。仅基于网络数据训练的小型基础模型通常缺乏原生思维链推理能力，因此需要通过提示工程利用较大模型生成思维链示例，再通过监督微调来指导推理或查询分解能力的指令调优。在此方法基础上，部分研究（Ranaldi and Freitas, 2024; Feng et al., 2024）引入了额外的强化学习阶段，将收集到的示范视为正样本，而新生成的模型输出则作为负样本。赋予大语言模型思维链能力的关键挑战在于评估生成推理的质量，因为在线环境下提供细粒度、分步骤的监督往往困难或成本高昂。为解决此问题，研究者提出使用替代信号，如答案正确性（Chen et al., 2024; Guo et al., 2025）或推理全面性（Huang et al., 2024），并对自生成样本应用拒绝微调或强化学习。

基于大语言模型的检索。在RAG流水线中，大语言模型常用于检索前的查询重写。先前研究表明，基础模型能够有效执行此任务，检索质量通过下游响应进行评估，且多项研究（Mao等，2024；Hsu等，2024；Yan和Ling，2025；Xu等，2025a；Gao等，2025）直接应用强化学习，结合任务特定搜索奖励进行模型对齐。

幻觉管理。大语言模型幻觉指的是模型生成看似合理但包含错误或虚构信息的回应。此现象通常源于预训练语料库中缺少所需事实知识，导致模型推断或构造答案而非拒绝回答。为缓解通用问题中的幻觉，研究者利用PPO方法，通过纳入更强模型提供的回应校正（Li等人，2024b）来减少事实错误。此外，为鼓励模型明确承认不确定性并抑制幻觉输出，前期研究（Kang等人，2024；Xie等人，2024；Cheng等人，2024；Xu等人，2024a）提出对来自基准数据集的采样回应集合进行推理，并合成"我不知道"的输出结果，用于后续的SFT或RL流程。进一步地，为量化与建模不确定性，多项研究（Band等人，2024；Sun等人，2025）针对每个训练实例生成多个候选回应，并通过聚合或总结后的输出作为底层不确定性分布的近似值来微调模型。

5.2 大语言模型用于数学任务

本小节回顾了增强大型语言模型数学能力的方法，重点关注利用逐步展开进行联合数学推理与训练。

数学推理。早期针对数学推理能力的研究可追溯至Polu与Sutskever（2020）以及Cobbe等人（2021），他们研究了涉及算法计算与数学归纳的问题。后续工作通过使用从网络收集的精选数学语料库（Lewkowycz等人，2022；Azerbayev等人，2023）、合成生成的数据集（Yu等人，2023；Toshniwal等人，2024a）或由更强模型生成的数据（Luo等人，2023；Toshniwal等人，2024b）对基础模型进行监督微调，进一步提升了性能。近期研究构建了用于数学评估的显式奖励模型，并提出了对齐流程，例如GRPO（Shao等人，2024）与Critique-DPO（Xu等人，2024c），以支持下游强化学习。

基于 rollout 的训练。类似于标准的 CoT 提示方法，为数学推理开发可靠的逐步奖励评估仍然具有挑战性。Huang 等人（2022）提出利用多数投票机制在模型自身生成的解上对其进行微调。此外，许多研究者在解决数学问题时利用具有多条推理路径的基础模型。对于基于 PPO 的方法，Wang 等人（2024c）和 Guan 等人（2025）通过生成正确最终答案的概率来近似过程级奖励，而 Shen 等人（2025）则随机分配反思提示，并同时引入基于结果和基于反思的奖励加成。

5.3 大语言模型用于智能体任务

本小节回顾了提升大语言模型智能体能力的策略，重点关注行动选择与长程规划。

动作选择。智能体任务要求在给定环境中通过多步选择动作。为使基础模型具备这一能力，Schick等人（2023）、Yin等人（2024）、Zhang等人（2024a,b）等先驱工作通过合成或统一不同环境中的动作轨迹来进行监督微调。后续研究采用了一种结合监督微调与基于环境奖励的强化学习的顺序范式。例如，Xi等人（2024）将监督微调奖励直接融入监督微调目标中，而分层强化学习方法（Zhou等人，2024c；Hu等人，2025b）则在句子层级分配奖励，同时在词元层级更新策略。类似地，DMPO（Shi等人，2025）引入了逐步奖励折扣，Qi等人（2025）则采用基于评论家的课程学习来稳定强化学习训练。

利用LLM进行规划。任务规划已成为一个活跃的研究方向，其中智能体任务因其长行动跨度与复杂的步骤间依赖关系而成为自然的测试平台。近期工作主要利用基于结果的替代奖励和GPT合成的序列来优化规划行为。例如，Xiong等人（2025b）提出了一种分层规划框架，其顶层规划器在种子计划上微调并通过DPO优化。Vattikonda等人（2025）进一步引入RFT来优化高奖励动作，而Wang等人（2025b）通过调整探索策略并在DPO训练中优先处理关键步骤来提升规划性能。

5.4 面向编码任务的大语言模型

本小节综述了提高LLMs编码能力的方法，重点聚焦于代码生成和代码编辑。

代码生成。近期研究探索了多种增强基于大语言模型代码生成的方法。在监督微调方面，Chaudhary（2023）采用自我指令方法合成训练数据，而Luo等人（2025）通过修改种子问题的约束条件生成更具挑战性的查询。Wei等人（2024）利用开源代码片段生成多样化且可控制的指令数据集。从强化学习视角，Yang等人（2025b）引入了多智能体框架，其中监督微调模型生成用于后续直接偏好优化训练的轨迹数据。

代码编辑。代码编辑旨在改进未能满足预期功能的程序，无论是人类编写还是大语言模型生成的代码。例如，Wei等人（2025c）利用人类拉取请求进行基于GRPO的训练，而Chae等人（2024）和Jiang等人（2025）则通过生成经单元测试评估的迭代优化版本来驱动强化学习优化。

6.常见实践与要点

在本节中，我们总结先前理论和应用讨论中的常见实践和关键要点，重点阐述SFT与RL之间的相互作用、何时选择每种方法以及训练中的权衡。

SFT与RL目标之间的关系。如第4节所述，在特定公式下，SFT可被视为RL的一种特殊情况，其中用于衡量当前策略是否复现离线轨迹的指示函数充当替代奖励。这种共享的优化结构使得针对SFT或RL开发的技术能够在不同范式间迁移。例如，第5.3节回顾了多项联合优化加权SFT与RL目标的研究，表明其相较于单独训练损失具有一致性改进。

利用专家数据或策略。当高质量专家数据可用时，SFT通常被优先作为初始训练阶段而非RL，如第5节所述，这可能是由于其实现更简单且更稳定。如果存在强大的策略模型或提示来生成专家数据，则将重要性采样应用于失败的查询可以将其视为RFT/RL的信息性正样本，从而缓解分布偏移，弥合有限的离线数据集与不断演化的策略之间的差距。当能够训练出可靠的奖励模型时，常见做法是先进行SFT再进行RL，这通常能达到报告的最高性能。

训练策略与权衡。当策略模型不熟悉下游任务或无法有效生成足够的正样本时，SFT至关重要。然而，与RL相比，SFT可能会降低模型的泛化能力。相反，直接应用RL能够更好地平衡性能提升与探索能力，尽管它可能面临熵坍塌（Cui等，2025a）或奖励黑客攻击（Pan等，2024a,b）等问题，这或许正是大多数预训练计算仍专注于SFT的原因之一。

7 未来方向与开放问题

尽管取得了快速进展，许多基本问题仍未解决。我们重点提出两个未解决的挑战，并概述了未来研究中有前景的方向。

样本与计算高效的方法论。当前最先进的监督微调（SFT）和强化学习（RL）流程通常需要大量计算资源、高质量数据以及广泛的 rollout 生成，这引发了实际应用与环境方面的双重关切。因此，提升效率成为核心挑战。早期进展包括基于信息论原理的数据高效 SFT（Deb 等人，2025b）以及降低训练成本的量化感知方法（Wei 等人，2025b）。在强化学习领域，近期研究探索了选择性或部分 rollout 以减少计算量（Zheng 等人，2025；Xu 等人，2025b）。然而，要开发出广泛适用且高度高效的方法，仍需投入大量研究。

SFT和RL在稀疏或间接奖励信号下的应用。许多现实世界的任务缺乏明确或易于验证的奖励信号。用户反馈可能稀疏、不一致或成本高昂。在安全关键场景中，获取真实标注评估可能不可行。近期研究开始探索通过语言或其他间接反馈进行对齐（Stephan等人，2024；Wang等人，2024b）。一个开放的挑战是识别并利用额外自然但尚未充分开发的隐性监督来源，例如自我评估信号或用户流失行为，以在低反馈情况下引导SFT和RL。

8 结论

本研究提供了对SFT与RL作为大语言模型后训练策略的统一视角，考察了其理论基础与实践实现。SFT能够从高质量离线数据中实现稳定高效的学习，而RL则通过奖励驱动优化增强泛化与探索能力。近期研究将SFT表征为RL的特例，凸显了融合训练稳定性与自适应行为的混合方法的前景。2023至2025年间发表的应用论文表明，向整合SFT与RL的混合后训练管线的明确转变正在发生，其中以开放权重、模型生成展开为核心的可扩展工作流已成为主导范式。这些进展凸显了整合两种方法优势的综合方法论的必要性，本研究通过整合该领域当前状态、理论进展及通用型大语言模型应用，为此奠定了基础。

表1：不同训练范式间的目标比较。这里为了整合，(SFT →) RL 表示基于SFT目标修改RL目标，反之亦然。

A 关于比较和结合SFT与RL的更多内容

我们总结了本节及表1中使用的主要符号。为便于查阅，常用缩略词列于缩略词表中，表2则提供了符号的统一汇总。

A.1 符号

在SFT及相关设置中使用的离线训练数据集记为 D = { ( x i , y i ) } D = \{(x_i, y_i)\} D={(xi,yi)}，其中xi表示输入提示，yi表示模型生成的对应响应。我们用πθ表示参数化为θ的策略（语言）模型，πθ(yi | xi)表示给定提示xi时生成响应yi的条件概率。参考策略记为 π r e f π^{ref} πref，通常是冻结的基础模型或SFT检查点。

在强化学习设置中， r ( x i , y i ) r(x_i, y_i) r(xi,yi) 表示分配给提示-响应对 ( x i , y i ) (x_i, y_i) (xi,yi) 的奖励，而 Q θ ( x , y ) Q_θ(x, y) Qθ(x,y) 表示在策略 π θ π_θ πθ 下的动作价值（Q）函数，其中状态 x（提示）和动作 y（响应）。我们使用 J 表示基于累积奖励的目标函数。

Sigmoid函数定义为σ(x) = 1/(1 + e⁻ˣ)。算子sg(·)表示停止梯度操作，该操作在前向传播中保留数值，同时在反向传播过程中阻止梯度传播。为完整起见，表1中出现的其他符号、算子和超参数汇总于表2。

A.2 预备知识

我们考虑预训练LLM（也称为FM）的优化，这些大规模预训练模型被适配到下游任务，如问答、基于思维链的推理以及数据库增强任务（如RAG）。训练通常分多个阶段进行，从对精心设计的提示-响应对进行SFT开始，这可以视为来自专家演示的BC的一种形式。

超越监督式微调，模型的对齐与性能通常借助强化学习技术进一步提升，尤其是基于人类反馈的强化学习（RLHF），其中通过已习得或人工提供的奖励信号引导优化。主流的基于策略梯度的算法包括PPO及其变体（如GRPO），这些算法通过裁剪或相对归一化稳定更新。另类优化框架包括基于偏好的方法（如DPO）和基于拒绝的方法（如RFT），它们绕过了显式的奖励建模。信息论目标（如GEM）以及基于KL散度的正则化方法常被用于控制与参考策略的偏离。

强化学习过程本身可以形式化为一个马尔可夫决策过程（MDP），由元组(S, A, P, r, H)定义，其中S表示状态空间，A表示动作空间，P表示转移动力学，r表示奖励函数，H表示规划视界（在理想化分析中可能为无穷大）。策略 π θ ( ⋅ ∣ x ) π_θ(· | x) πθ(⋅∣x)代表一个大型语言模型（LLM），该模型根据输入提示x生成响应上的分布。这一表述自然地扩展至多模态设置（包括视觉语言模型（VLM））以及其他结构化决策场景。

B 应用研究详情

本附录部分详细介绍了我们对LLM在各专业领域应用的研究，包括支撑分析的数据集、评估标准及发表趋势。其目的在于通过描述以下内容，为正文中的结果提供背景：（i）不同任务领域在输入复杂度、推理要求及输出特征上的差异；（ii）我们采用基于基准搜索的研究出版物按领域分类的方法论；（iii）随时间推移，发表数量、研究方法及模型使用方面的观察趋势。通过呈现这些细节，我们旨在提供对研究过程的透明且可复现的说明，从而更深入地洞察LLM应用不断演变的格局。

B.1 跨专业领域的应用

为了刻画每个领域的难度，我们考虑三个定性因素：输入复杂度、中间推理需求（思维链，CoT）以及输出复杂度。表3总结了这些特征在四个代表性领域中的体现。需要说明的是，第5节聚焦于仅处理文本任务的相关论文。我们做出这一选择，是因为纯文本任务能够实现更清晰的并列比较，而多模态场景会在模型选择与融合技术中引入额外的不确定性，这超出了本文的研究范围。尽管如此，我们承认，与该研究领域密切相关的许多有影响力的工作已超越纯文本模态。欲获取更多参考文献，请读者参见附录D，该部分列举了一些近期发表的研究成果作为起点。

通用QA评估事实核查和语言理解，输入长度可变且需要中等程度的推理，优先考虑准确性而非冗长。数学任务要求有精确的答案，并辅以扩展的逻辑推理。智能体任务需要丰富的环境上下文，以便在进行多步规划后产生简洁的输出。代码生成依赖于上下文密集的输入和中等程度的推理，以推断意图并生成语法正确、语义连贯的代码。

在这些领域中，总体问题是如何在输入规模、推理深度和输出复杂度各异的情况下优化性能。这些因素的相对权重因任务而异，反映了专业大语言模型应用中多样化的需求和不断变化的优先级。

B.2 面向基准的论文搜索

为估算每个领域的论文发表数量，我们针对2023年1月1日至2025年6月30日期间计算机科学类别下的arXiv预印本进行了一项以基准为导向的关键词检索。arXiv元数据集（Cornell-University/arxiv）依据Creative Commons CC0 1.0通用公共领域奉献协议提供，该协议适用于托管在Kaggle上的数据集元数据。原始arXiv内容仍受各作者指定的许可条款约束。

表3：LLM应用领域及其特征总结

我们通过 Google Cloud 公共数据集（gs://arxiv-dataset）访问科学论文。初始数据集包含约 19.5 万篇论文，其中 2023 年、2024 年和 2025 年的论文数量分别为 6.4 万、7.8 万和 5.2 万篇。我们的方法源于以下观察：近期的大语言模型后训练研究始终依赖一组广泛使用、标准化的数据集，这些数据集有助于跨方法进行可重复且可比较的评估。随着这一做法日益普及，数据集提及可作为将论文归入特定主题领域的合理代理指标。

参照Du等人（2025a）的表7，我们使用涵盖四个领域的26个数据集作为领域特定的查询键。若一篇论文包含至少五次提及与某一领域相关的任意数据集，则该论文被归入该领域。互斥性未被强制执行：尽管相对罕见，但跨多个领域进行评估的论文会被计入每一个适用类别中。

作为搜索关键词所用的数据集列于表4，各分类对应的论文数量结果则呈现于表5。我们采用五次关键词出现作为阈值，因为一篇真正使用某数据集的论文通常会介绍该数据集、报告相关结果并进行比较或分析性讨论，因此五次提及可视为针对纯方法论贡献的保守筛选标准。为预测2025年全年总数，我们注意到2023年和2024年前六个月分别占各自年度发表总量的47.38%和49.81%。据此，我们通过将2025年上半年的观测数量翻倍来估算其全年总数。

为了给我们的估算方法提供背景，我们承认其优点与局限性。基于关键词的计数方法提供了一种透明、可扩展且可重复的方式，用以近似衡量各领域的研究活动规模，且关键词提及阈值越高，领域归属通常越可靠。如表5所示，随着阈值提高，论文数量持续下降，这反映了特异性增强但召回率降低。我们主要报告关键词匹配次数大于五的阈值下的结果，但也提供了其他阈值下的计数数据。然而，该方法也存在若干局限性：低阈值可能因包含仅在行文中提及某数据集的论文而夸大计数，而高阈值可能排除那些使用了基准但引用较少的正当研究。此外，跨领域论文会被归入多个类别，名称变体若不进行归一化处理可能导致计数不足。尽管存在这些注意事项，该方法仍是捕捉基于基准的大语言模型评估中广泛研究趋势的实用启发式手段。

B.3 详细应用论文研究

B.3.1 LLMs用于通用问答任务

LLMs通过增强推理能力、减少幻觉以及有效利用外部知识，在通用问答中展现出强大性能。当前研究聚焦于顺序子问题推理、不确定性下的稳健答案生成，以及改进信息获取的检索增强方法。以下章节分别介绍这些领域的代表性方法，重点讨论模型调优策略。对于不涉及模型调优的研究，我们建议读者参考Ke等（2025）。

逐步推理。多数研究将问题分解为子问题，并训练大语言模型按顺序回答这些子问题，从而生成更准确的思维链。例如，Chen等人（2024）提出针对真实答案中每个句子用GPT生成子问题；而Ranaldi与Freitas（2024）、Huang等人（2024）则通过模型展开生成基于最终答案质量的偏好数据。此外，Feng等人（2024）、Zhou等人（2024d）进一步调校大语言模型在决定何时反思、回答或追问时的行为模式。

表4：用作搜索关键词的数据集，用于面向基准的论文分类。

幻觉管理。多项研究探讨了大型语言模型在不确定性下的行为表现，尤其是关于幻觉问题。例如，李等人（2024b）将GPT生成内容视为RLHF的正样本，而康等人（2024）提出使用保守强化学习（在模型不熟悉时分配低分）来减轻RLHF过程中的幻觉。其他方法（谢等人，2024；程等人，2024；徐等人，2024a；孙等人，2025）则为强化学习阶段提出了替代数据流程，从而对具有挑战性的后续问题生成更稳健的回答，并在未知场景中实现拒绝应答。此外，班德等人（2024）与徐等人（2024b）为大语言模型配备了置信度估计能力，该能力通常通过多次 rollout 以及GPT生成的根因进行综合。

基于大语言模型的检索。Mao等人(2024); Hsu等人(2024); Yan和Ling(2025); Xu等人(2025a); Gao等人(2025)通过基于检索的奖励对LLM的查询生成进行后训练，将其用作查询重写器以提高检索效果。其他研究(Jin等人, 2024; Zhu等人, 2024)提出了用于从检索文档中提取关键信息的替代评估标准。此外，Tang等人(2025)将长文档转换为分层图，并采用模态寻求型DPO算法对策略模型应用强化学习以进行RAG。

B.3.2 大语言模型用于数学任务

近期的努力已经增强了大语言模型在数学推理方面的能力，以支持多步逻辑、符号操作和严格验证。

基于数学的能力。Polu与Sutskever（2020）、Lewkowycz等人（2022）、Azerbayev等人（2023）在数学专用语料上对LLMs进行了微调，以增强数学推理和证明生成能力。在此基础上，Luo等人（2023）将Evol-Instruct框架应用于数学问答数据集。类似地，Yu等人（2023）、Toshniwal等人（2024a）通过改写、逆向推理及其他数据增强策略改进了问答对。与此同时，Toshniwal等人（2024b）通过收集成功解题轨迹，从专有模型中蒸馏出推理能力。此外，Shao等人（2024）在Common Crawl中使用了基于FastText的过滤方法，并采用GRPO进一步提升了问题求解性能。

Rollout选择与验证。Cobbe等人（2021）提出训练独立的验证器模型来评估模型生成解决方案的正确性，并选择验证分数最高的答案。Huang等人（2022）在高置信度数据上对LLM进行微调，而Xu等人（2024c）则筛选出成功的自生成解决方案用于迭代训练。Wang等人（2024c）引入MCTS生成rollout，并用达到正确答案的概率对中间推理步骤进行标注。类似地，Guan等人（2025）从MCTS概率中学习价值函数以指导探索和DPO数据选择，Xu等人（2024c）进一步通过数学专用批评模型优化DPO。最后，Shen等人（2025）微调模型以在数学推理过程中选择动作。

B.3.3 大语言模型用于智能体任务

主体性任务要求大语言模型在动态环境中扮演自主决策者的角色，需要持续的状态感知、上下文整合以及多步规划。成功依赖于长期推理、历史管理\以及自适应反馈，因为每个行动都会影响未来的结果。

表5：四个领域中不同关键词提及阈值下的论文数量。

自主任务执行。Schick等人（2023）；Qin等人（2023）；Zeng等人（2023）；Yin等人（2024）；Zhang等人（2024a,b）；Song等人（2024a）；Ou等人（2024）开发了定制流水线，通过开放权重模型行为克隆完整轨迹，支持特定任务能力；而Yao等人（2024）；Murty等人（2025）则利用来自专有API的演员-反射器输出，对指令跟随模型进行微调。为提高执行可靠性，Zhong等人（2024）使用LLM评判器过滤低质量动作，Fu等人（2025a）在损失计算中排除错误步骤，Xia等人（2025b）添加了反射性标注。在此基础上，Zhu等人（2025c）引入了基于知识的动态记忆自学习。在强化学习中，Choudhury和Sodhi（2024）通过合成为真实动作的推理轨迹来整理偏好对，而其他研究者迭代生成偏好数据：ETO（Song等人，2024b）使用成功和失败的轨迹进行DPO，Yuan等人（2025）采用MCTS并在首个错误步骤处进行修正。

自我改进与反馈整合。部分研究采用顺序式监督微调（SFT）后接强化学习（RL）的方法。Zhou等人（2024b）利用大语言模型（LLM）API的反思能力，而Lai等人（2024）则表明，在使用70B教师模型进行初始SFT后，早期RL是有效的。分层强化学习方法在句子或话语层面分配奖励，同时在词元（token）层面更新策略（Zhou等人，2024c；Hu等人，2025b），其中DMPO（Shi等人，2025）加入了逐步折扣机制，Qi等人（2025）则采用基于评判器的课程学习。OREO（Wang等人，2024a）通过最大熵学习实现多步推理，并辅以逆强化学习（IRL）与近端策略优化（PPO）微调（Deng等人，2024）以及奖励校准（Rita等人，2024）。部分研究联合训练SFT与RL损失函数，其变体包括掩码或加权目标、基于结果与步骤的DPO（直接偏好优化）以及伪代码规划（Wang等人，2024b；Xi等人，2024；Xiong等人，2024；Cao等人，2025b）。

规划与长视界控制。Xiong等人(2025b)提出了一个分层规划框架，其中顶层规划器在种子计划上微调并通过DPO优化。Vattikonda等人(2025)加入了拒绝采样微调(RFT)以进一步细化高奖励动作，而Wang等人(2025b)则调整了探索并优先处理DPO的关键步骤。针对测试时扩展，Zhou等人(2024a)将通用与智能体数据(Zeng等人，2023)与多路径推理相结合，Xia等人(2025a)则结合了策略微调与奖励模型训练，表明采用显式奖励建模的束搜索提升了性能。

B.3.4 大语言模型用于代码生成任务

大语言模型在代码生成、编辑和任务特定推理方面展现出显著潜力，这些能力通常通过结构化代码数据、可执行反馈或多智能体框架得到改进，以获得更稳健和可验证的输出。

代码生成能力。最近的研究探索了利用大语言模型改进代码生成的方法。Chaudhary（2023）采用自我指令来合成训练数据，而Luo等人（2025）通过修改种子问题的约束条件来生成更难的查询。Wei等人（2024）利用开源代码片段生成多样且可控的指令数据。Yang等人（2024）表明在代码解释之前进行思维链推理可以提高准确性。更近期，Yang等人（2025b）引入了一个多智能体框架，其中SFT模型生成用于DPO训练的轨迹。

代码编辑能力。代码编辑专注于改进未能实现预期功能的代码，无论是人类编写的还是大语言模型生成的。Wei等人（2025c）利用人类拉取请求来指导基于GRPO的大语言模型专业化。Chae等人（2024）；Jiang等人（2025）生成针对单元测试评估的优化展开。Dou等人（2024）将代码生成分解为可验证的子任务以实现细粒度对齐，而Ma等人（2025）提出了一种结合拒绝采样与基于规则的强化学习奖励的四阶段流程。Xie等人（2025）微调了一个辅助大语言模型，以生成有助于主模型纠正错误的语言性批评。

代码复用于其他任务。代码还可通过作为可验证且可解释的奖励信号，被用于增强多种任务。例如，Dong等人（2024）利用代码执行来评估大语言模型的指令遵循能力。Nie等人（2025）通过将工作流模拟为可执行的Python代码，训练一个小语言模型借助环境反馈来利用大语言模型。Wang等人（2023）、Lai等人（2023）、Gou等人（2024）在代码增强的数学或数据科学任务上进行了监督式指令微调。

B.4 趋势分析详情

本小节详细分析了所研究论文中的过程趋势，总结见图2。

各领域迅猛增长。2023至2025年间，所有主要任务领域的研究活跃度急剧攀升，但增长幅度差异显著。问答研究从2023年的292篇翻倍至2024年的652篇（+123%），预计2025年将持续扩张至983篇（+118%）。数学相关研究在绝对规模上增长更快，从492篇增至1098篇（+123%），并于2025年达到2399篇，较2023年增长近5倍。以智能体为重点的研究虽体量较小，但稳步增长，从100篇增至179篇（+79%），并进一步增至261篇（+46%）。最为剧烈的激增出现在代码相关研究中，从2023年的115篇攀升至2024年的428篇（+272%），2025年几乎再次翻倍至786篇（+84%）。这一轨迹反映了以代码为中心的基准、工具和评估流程的快速成熟，并凸显编程作为大语言模型应用领域中最具多样性的领域之一。

向混合训练的趋同。训练方法论的格局正经历显著的整合，转向结合SFT与RL或其他后训练策略的混合方法。2023年，SFT占主导地位，比例为73.3%，而混合方法（"两者"）仅占20.0%。到2024年，混合训练扩展了269%，成为最普遍的方法，占比73.8%，超越了纯SFT（19.1%），并在2025年进一步增长至70.6%。这一转变表明，学界正集体转向更复杂的多阶段训练流程，以利用SFT和RL的互补优势。与此同时，纯RL方法最初在研究中占6.7%，随后获得适度增长，到2024年达到7.1%，到2025年达到11.8%，这反映了开源RLHF框架的持续改进以及偏好数据可及性的提高。

从专有模型向开放模型的转变。伴随这些方法论变化，模型选择出现了显著的重新调整。2023年至2025年间，基于专有API模型的依赖度急剧下降。这一趋势从2023年的32.2%降至2024年的19.9%，到2025年进一步降至11.1%，研究者转而采用开放权重模型和标准化基准。开放权重的使用量增长超过一倍，从2023年的12.2%增至2024年的17.5%，到2025年达到25.0%。基准仍是最常用的资源类别，但也稳步增长（三年间从48.9%升至61.1%），凸显出该领域向可重复、透明化实验的迈进。与此同时，人工筛选或网络爬取数据集的使用持续缩减（从6.7%降至2.8%），这既反映了基准覆盖范围的改善，也体现出对合法性、许可证合规性及数据来源追溯性的日益关注。总体而言，这些趋势表明，随着社区规范日益巩固，研究工作流正在向开放、标准化和可重复的方向发生强劲且持久的转变。

C SFT/RL 的硬件要求

对于计划开展训练后对齐实践实验的研究人员而言，参考社区报告的硬件指南具有重要价值。但需注意，GPU需求因模型规模、训练方法（例如全量微调与LoRA (Hu et al., 2021) 或QLoRA (Dettmers et al., 2023) 等参数高效方法的对比）、优化器选择及软件框架的不同而存在显著差异。此外，这些需求也随硬件与软件工具的持续进步而不断演变。

对于SFT，一个普遍引用的启发式方法是，使用半精度（FP16）对基于Transformer的大语言模型进行全参数微调需要大约每十亿参数16GB的显存。这种高内存需求源于需要存储梯度与优化器状态，并且明显高于推理时通常所需的每十亿参数约2GB显存。参数高效方法，如LoRA和QLoRA，可以显著降低这一需求，在当代GPU上通常降至5--20GB，具体取决于模型大小和精度设置¹。

对于RL训练，诸如verl等框架提供了社区报告的关于不同规模模型硬件需求的指南。实际实验表明，由于rollout生成、策略梯度和奖励模型带来的额外开销，RL通常需要比SFT更多的内存。启发式估计表明，中等规模模型（1--3B参数）可通过LoRA等参数高效方法在单个80GB GPU上训练，而较大模型（7--14B）通常需要2--4个此类GPU。超大规模模型（32B+）往往需要4--8个高内存GPU，全参数训练所需聚合VRAM可能超过600GB。粗略估算，基于LoRA的RL训练每十亿参数消耗15--25GB VRAM，而完全SFT微调约为16GB/B，说明RL通常每参数内存需求高出1.5--3倍。这些数字应视为近似指南，实际需求取决于批次大小、rollout长度、优化器选择以及梯度检查点或量化等内存节省策略。

将这些硬件指南视为近似起点而非严格要求至关重要。实际资源需求将取决于多种因素，包括模型架构、任务复杂度、批处理大小、展开长度以及软件和硬件技术的持续改进。

D 更多参考文献

最具实际应用导向的方向之一是多模态大语言模型研究，其整合了纯文本之外的语音与视觉等模态。这一研究方向是前述纯文本任务的自然延伸，揭示了额外感知通道如何引入新的建模挑战与机遇。例如，Cui等人（2025c）与Yang等人（2025c）总结了利用并对齐大语言模型与语音增强多模态数据的方法，从而提升更丰富的理解与生成能力。

超越多模态领域，另一相关文献集群聚焦于系统级改进，以优化大型语言模型的信息获取方式并维持其可靠性。阿布托拉比等人（2025）研究了跨模态检索增强生成（RAG）的进展，为以推理为核心的方法提供了补充视角。与此同时，李等人（2025a）通过知识边界的视角探究幻觉问题，而朱等人（2025d）则结合多模态可信度探索幻觉现象。此外，何等人（2025c）系统回顾了专门为推理构建的有监督微调（SFT）与强化学习（RL）数据集的方法论，将数据收集实践与模型行为联系起来。

最后，若干专门研究聚焦于领域特定数据集和复杂任务设置，丰富了针对大语言模型推理在不同领域间如何变化的认知。例如，Yan等人（2025b）探讨了支持结构化与可验证推理的数学推理数据集及基准。与此相辅相成，Wei等人（2025a）综述了适用于问答和智能体任务的大语言模型规划技术。进一步将讨论延伸至需要感知-行动循环的环境，Hu等人（2025a）与Nguyen等人（2025）考察了多模态智能体交互，包括基于图形用户界面的接口，这些接口展示了推理、感知与行动如何共同演化。总之，这些研究拓宽了对于大语言模型能力的上下文理解，超越了主文所强调的领域。

E 人工智能助手的使用

我们在稿件准备过程中仅使用基于LLM的工具进行语言润色，并协助对应用部分（第5节）中与SFT/RL相关的论文进行全文筛选以供人工审阅。LLM生成的所有输出均由作者仔细审阅，作者对任何潜在错误或幻觉承担全部责任。用于gpt-oss-120b识别和分类SFT/RL相关论文的提示词原文如下。对于该模型的所有提示请求，我们使用FP4精度、128k上下文长度、0.8温度，并将top-k和top-p分别设置为40和0.95。随后，人工读者对所有候选论文进行核实，以确认其发表状态及其训练范式的相关性（即是否涉及SFT、RL或两者兼有）。

复制代码

你是一个研究论文分析器。从给定的科学文本中，提取并分类以下内容：  
1. **所提出的方法**（忽略消融实验）。  
2. 论文评估的**对比方法/基线**。  
3. 用于评估的**数据集/基准**。  
4. 所提出方法的**训练类型**，必须是以下之一：  
   - 强化学习（RL）  
   - 监督微调（SFT）  
   - 强化学习与监督微调结合（SFT+RL）  
   - 提示优化  
   - 非文本模态（视觉、语音、多模态等）  
   - 其他方法  
   - 综述（无新方法，仅总结他人工作）
输出格式：
<thought> 需严格遵循原文结构，保留术语及输出格式。注意区分中英文标点，学术术语如"Reinforcement Learning (RL)"需完整翻译为中文并保留英文缩写。输出格式中的键值对需保持英文原样。 </thought>  
<answer>  
{  
  "method": "...",  
  "baselines": ["..."],  
  "benchmarks": ["..."],  
  "training_type":  ["SFT", "RL", "SFT+RL", "Prompt", "Modality", "Other", "Survey"] 之一  
}  
</answer>