大语言模型SFT后训练:SFT,DFT,ASFT,ProFit,BFT,RAFT

大语言模型 SFT 后训练方法全景解析:SFT, DFT, ASFT, ProFit, BFT, RAFT

大语言模型(LLMs)在预训练之后,往往需要通过 Supervised Fine-Tuning (SFT) 进行对齐与能力塑形。然而,近年来研究发现:标准 SFT 并非一个"绝对完美"的优化过程,它在梯度结构、泛化行为和表达学习方面存在缺陷。围绕这些问题,出现了一系列改进方法:

  • DFT ------ Dynamic Fine-Tuning:"ON THE GENERALIZATION OF SFT: A REINFORCEMENT LEARNING PERSPECTIVE WITH REWARD RECTIFICATION, ICLR2026"
  • ASFT ------ Anchored SFT:"ANCHORED SUPERVISED FINE-TUNING, ICLR2026"
  • ProFit ------ Probability-Guided Fine-Tuning:"ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection"
  • BFT ------ Balanced Fine-Tuning:"Aligning LLMs with Biomedical Knowledge using Balanced Fine-Tuning"
  • RAFT ------ Reward Ranked Fine-Tuning:"RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment, Transactions on Machine Learning Research, 2023"

本文将从 优化目标、梯度结构、信息密度、训练稳定性 等角度,系统梳理它们之间的关系。


1️⃣ 标准 SFT:一切的起点

Objective

标准 SFT 的目标是最小化 token-level cross-entropy:LSFT=−∑tlog⁡pθ(yt∣x,y<t)\mathcal{L}{SFT} = -\sum_t \log p\theta(y_t | x, y_{<t})LSFT=−∑tlogpθ(yt∣x,y<t)

关键特征

  • 所有 token 等权重
  • 低概率 token 自动产生大梯度
  • 高概率 token 贡献小梯度

隐含问题主要是泛化能力有限,SFT 是稳定的,但不是最优的。


2️⃣ DFT:动态重加权

SFT 的梯度结构存在隐式 reward 机制。DFT中发现SFT按照策略梯度写法,SFT的token梯度大小与token概率的倒数正相关,所以SFT在低概率token上很容易梯度爆炸从而过拟合,因此,DFT 通过引入 动态 token 权重 (token概率) 改变梯度。修改后的目标函数:LDFT=−∑twtlog⁡pθ(yt)\mathcal{L}{DFT} = -\sum_t w_t \log p\theta(y_t)LDFT=−∑twtlogpθ(yt),其中:wt=sg(pθ(yt))w_t = sg(p_\theta(y_t))wt=sg(pθ(yt))。

DFT中,分析了训练后的token概率分布。传统的 SFT 均匀地将概率推向训练集,而 DFT 则有选择地增加某些概率,同时减少其他概率。特别是,拟合度较低的token比例上升,表明正则化得到改善,过拟合得到缓解。

为了理解DFT训练的模型与SFT和其他强化学习方法有何不同,我们可以观察上图中模型输出在训练集上的token概率分布。SFT倾向于均匀地提高token概率,使整个分布向更高的置信度移动,但主要针对的是低概率和最低概率的token。最高概率的token部分几乎没有增加。与此形成鲜明对比的是,DFT表现出极化效应:它显著提升了一部分token的概率,同时主动抑制了其他token的概率。这导致了双峰分布,更多的token同时占据了最高概率和最低概率区间。

其他强化学习方法,例如DPO、GPPO和PPO,也表现出与DFT相同的趋势,尽管其幅度要小得多。进一步研究概率最低的词组,发现它们通常是连接词或标点符号,例如"the"、"let"、","、"."等等。这些结果表明,为了实现稳健的学习,模型不应试图以相同的置信度拟合所有token。降低拟合那些服务于语法功能而非承载主要语义内容的token的优先级可能是有益的。这一概念类似于人类的语言学习,在语言学习中,学生被教导专注于实质性概念,而不是完善常用连接词的用法。


3️⃣ ASFT:加入分布锚定

DFT强化的是高概率序列:它通过依赖模型当前分布的序列概率,使训练重点偏向模型已经倾向生成的序列(相当于"强化已知高概率路径"),这也是为什么会出现分布漂移(distribution drift)。

ASFT的改进:ASFT的核心是给DFT加上KL anchoring,用预训练模型作为 reference 分布,形成一个"trust region",防止概率偏低的token被完全忽略或高概率token过度强化,从而稳定训练。

ASFT 引入 KL 正则:LASFT=LDFT+βKL(pθ∣∣pref)\mathcal{L}{ASFT} = \mathcal{L}{DFT} + \beta KL(p_\theta || p_{ref})LASFT=LDFT+βKL(pθ∣∣pref)


4️⃣ RAFT:奖励排序微调

RAFT 不修改 loss,而是修改数据。流程如下:

  1. 模型生成多个候选
  2. 奖励模型打分
  3. 选择高 reward 样本
  4. 用选中样本做 SFT

本质是用 reward 作为样本筛选器。RAFT中使用现成的Reward model进行打分,筛选高质量样本。


5️⃣ ProFit:基于概率的 token 选择

观察到以下现象:

  • 高概率 token ≈ 核心语义:通过统计分析(使用 Gemini-3-Pro 或 Qwen3 模型预测概率),发现核心逻辑 token 的预测概率通常较高。
  • 低概率 token → 多为可替换的表面表达。

所以ProFit是一种选择性的SFT,本质是更Hard的一种DFT

条件 解释
(pt>τ)( p_t > \tau )(pt>τ) 高价值 token → 保留训练
(pt≤τ)( p_t \le \tau )(pt≤τ) 非核心 token → mask 掉,避免训练

6️⃣ BFT:平衡微调

Balanced Fine-Tuning (BFT) 的核心目标是稳定梯度结构,避免 token 级过拟合,同时提升困难样本的学习。

在生物医学语料上统计了token的概率,发现孤立概率下降的token通常对应可替换的功能词,连续概率下降的token片段通常对应生物医学实体和逻辑内容。因此,BFT在token层面使用DFT,但是在一整个sample层面利用最低组置信度检测样本的难易程度,并在sample层面进行损失函数加强。

ASFT中曾提到DFT容易出现分布漂移,所以借助KL约束更新模型和ref模型之间的距离。BFT是另一种缓解分布漂移的方式:

  • 持续低概率span(包含长尾实体或复杂逻辑)不会被完全忽略,模型训练中仍会接触这些低概率但信息量大的序列。因此,BFT通过sample-level加权为低概率、知识密集序列提供持续梯度,使训练分布更均衡,从而缓解DFT的偏移风险。

7️⃣ 方法关系

对比如下:

方法 修改层级 是否改 loss 是否改数据 是否用 KL 核心目标
SFT token CE 基础监督
DFT token weight 动态重加权
ASFT token weight + KL 防止DFT分布漂移
ProFit token selection 去除表达性token过拟合
BFT token weight+sample weight token稳定与sample难易之间平衡
RAFT sample selection 奖励筛选

相关推荐
Suryxin.1 小时前
从0开始复现nano-vllm「llm_engine.py」
人工智能·python·深度学习·ai·vllm
Testopia1 小时前
车道线检测:传统计算机视觉在自动驾驶中的应用
人工智能·计算机视觉·自动驾驶
阿杰学AI1 小时前
AI核心知识109—大语言模型之 Industry Agent Operations Specialist(简洁且通俗易懂版)
大数据·人工智能·ai·语言模型·agent·智能体·行业智能体运营师
我会冲击波2 小时前
UI UX Pro Max:给 AI 请个设计师
人工智能·程序员
MaxStormBot2 小时前
WPS Office Skill v1.3.0 发布:全格式图文混排 + Markdown 三件套转换
人工智能
癫狂的兔子2 小时前
【Python】【机器学习】十大算法简介与应用
python·算法·机器学习
Asher阿舍技术站2 小时前
【AI基础学习系列】五、AIGC从创意到创造
人工智能·学习·aigc·进阶
ZhengEnCi2 小时前
05. 文本分块策略设计
人工智能
前端不太难2 小时前
AI 如何改变传统 鸿蒙App 的信息架构
人工智能·架构·harmonyos