大模型为什么越来越“听话”？一文讲透强化学习、SFT、DPO

很多人学大模型时，会听到三个词：SFT、强化学习、DPO。

它们看起来很高级，其实核心问题很简单：

怎么把一个只会"续写文字"的大模型，训练成一个真正能回答问题、听懂指令、符合人类偏好的 AI 助手。

OpenAI 的 InstructGPT 论文就指出：模型变大，并不天然代表它更会遵循用户意图，模型可能生成不真实、有害或不符合用户需求的内容，所以需要用人类反馈来对齐模型行为。

一、先说结论：SFT、强化学习、DPO到底是什么？

1. SFT：教模型"照着好答案学"

SFT，全称 Supervised Fine-Tuning，监督微调。

通俗理解：

你给模型很多标准问答，让它模仿优秀老师怎么回答。

比如：

用户问：

"请解释一下 Java 中的线程池。"

人工标准答案：

"线程池可以理解为提前准备好的一批线程......"

模型反复学习这些"问题 + 好答案"，慢慢就知道：

什么叫回答完整，什么叫语气自然，什么叫符合指令。

所以 SFT 的本质是：

让模型从"会说话"，变成"会按要求说话"。

2. 强化学习/RLHF：让模型知道"哪种回答更讨人喜欢"

强化学习在大模型里最典型的形式叫 RLHF，也就是：

Reinforcement Learning from Human Feedback，人类反馈强化学习。

通俗理解：

模型先回答多个版本，人类告诉它哪个更好，然后模型朝着更受欢迎的方向优化。

比如同一个问题：

用户问：

"我想转 AI 大模型工程师，怎么规划？"

回答 A：

"多学习，多实践。"

回答 B：

"你有 8 年 Java 后端经验，可以从 RAG、Agent、模型微调、向量数据库、工程部署几条线切入......"

显然回答 B 更有价值。

人类标注员会把 B 排在 A 前面，模型就会逐渐学会：

回答要具体、可执行、贴近用户背景，而不是空泛。

InstructGPT 的经典训练流程就包含三步：先做 SFT，再训练奖励模型，最后用强化学习优化模型。

3. DPO：不用复杂强化学习，也能学习"人类更喜欢哪种答案"

DPO，全称 Direct Preference Optimization，直接偏好优化。

通俗理解：

它跳过了复杂的奖励模型和强化学习流程，直接拿"好答案 vs 差答案"来训练模型。

比如一条数据长这样：

问题：

"解释一下混合检索。"

更好的回答：

"混合检索就是关键词检索 + 向量检索结合......"

较差的回答：

"混合检索是一种检索方法。"

DPO 直接告诉模型：

以后遇到类似问题，更应该靠近第一个答案，远离第二个答案。

DPO 论文指出，传统 RLHF 流程复杂且可能不稳定，而 DPO 可以用更简单的分类式训练目标来实现偏好优化，训练更稳定、计算更轻量。

二、大模型训练的完整链路：从"预训练"到"对齐"

很多人一上来就问 SFT、DPO、RLHF，其实它们都属于 后训练阶段。

一个大模型大致可以分成四个阶段：

1. 第一阶段：预训练，让模型拥有基础能力

预训练就是拿大量互联网文本、书籍、代码、网页等数据训练模型。

这个阶段的目标不是让模型当助手，而是让模型学会：

语言规律
常识知识
代码模式
推理模式
文本结构
不同领域的表达方式

预训练后的模型很强，但它有个问题：

它更像一个"文本续写机器"，不一定像一个"AI 助手"。

比如你输入：

"请帮我写一份 Java 简历项目描述。"

预训练模型可能会继续续写类似语料，不一定真正按照你的要求输出结构化内容。

所以还需要后面的 SFT、RLHF、DPO。

2. 第二阶段：SFT，让模型学会听指令

SFT 就是给模型大量高质量指令数据。

数据格式通常是：

复制代码

用户指令：帮我解释一下 RAG
标准回答：RAG 是检索增强生成，可以理解为先查资料，再让大模型基于资料回答......

通过 SFT，模型开始学会：

用户问什么，我答什么
用户要列表，我给列表
用户要通俗解释，我不用复杂公式
用户要文章，我按文章结构写
用户要代码，我输出代码
用户要总结，我给总结

所以 SFT 是大模型从"语言模型"变成"指令模型"的关键一步。

3. 第三阶段：偏好学习，让模型学会"更好"

SFT 只能教模型模仿标准答案。

但问题是：

什么叫好答案？

不同答案可能都对，但质量差别很大。

比如用户问：

"怎么提高召回率？"

回答 A：

"可以优化召回算法。"

回答 B：

"可以从数据源、Embedding 模型、切分策略、向量库参数、混合检索、Query 改写、召回数量、重排序等方面提升。"

两个都没错，但 B 明显更好。

这时候就需要偏好数据。

偏好数据通常不是"标准答案"，而是：

复制代码

问题：怎么提高召回率？

答案 A：简单粗糙
答案 B：详细专业

人类选择：B 更好

RLHF 和 DPO 主要就是用来学习这种偏好的。

4. 第四阶段：安全对齐与业务对齐

除了回答质量，大模型还要考虑：

不能胡说八道
不能泄露隐私
不能生成危险内容
不能违背业务规则
不能乱调用工具
不能编造资料来源
不能在客服场景乱承诺
不能在金融医疗场景给高风险建议

所以企业落地时，SFT、DPO、RLHF 不只是为了"更聪明"，更是为了：

让模型更稳定、更可控、更符合业务要求。

三、SFT 详解：大模型的"老师带教阶段"

1. SFT到底解决什么问题？

SFT 主要解决三个问题。

第一，让模型听懂指令

预训练模型可能只会续写，不一定听指令。

SFT 后，模型能理解：

"请总结"
"请改写"
"请分类"
"请提取关键词"
"请生成 SQL"
"请用通俗语言解释"
"请按照一二三结构输出"

这就是指令遵循能力。

第二，让模型学会固定输出格式

企业项目里，经常需要模型输出固定格式。

比如意图识别：

复制代码

{
  "intent": "order_query",
  "slots": {
    "order_id": "123456"
  }
}

如果没有 SFT，模型可能一会儿输出 JSON，一会儿输出自然语言，一会儿加解释。

SFT 可以让模型稳定输出业务需要的格式。

第三，让模型学会领域知识表达

比如你做金融客服、医疗问答、政务助手、法律咨询、企业知识库问答，通用模型不一定懂你的业务话术。

SFT 可以让模型学习：

公司产品说明
业务流程
标准客服话术
行业术语
常见问题回答方式
风险提示模板

所以 SFT 很适合做领域适配。

2. SFT数据长什么样？

常见 SFT 数据格式是：

复制代码

{
  "instruction": "请解释一下 RAG 是什么",
  "input": "",
  "output": "RAG 是检索增强生成，可以理解为先从知识库中查资料，再让大模型结合资料回答问题。"
}

或者对话格式：

复制代码

[
  {
    "role": "user",
    "content": "帮我写一段 Java 简历项目描述"
  },
  {
    "role": "assistant",
    "content": "项目名称：智能知识库问答系统......"
  }
]

3. SFT数据怎么构造？

企业落地中，SFT 数据可以来自几类。

第一类：人工编写

人工写高质量问答。

优点是质量高。

缺点是成本高、速度慢。

适合核心业务场景，比如：

客服标准问答
销售话术
金融风控解释
医疗合规问答
简历项目包装模板

第二类：业务日志清洗

从真实用户问题中筛选高频问题，再人工整理答案。

比如客服系统里有大量历史问答：

用户问：

"订单为什么一直不发货？"

客服答：

"您好，您的订单目前处于仓库拣货中......"

这些历史数据经过脱敏、清洗、改写，就可以变成 SFT 数据。

第三类：用强模型生成，再人工审核

可以用更强的大模型生成训练数据。

比如让 GPT-4、Claude、DeepSeek、Qwen 等生成一批问答，然后人工审核。

这种方式成本低，但要注意：

不能完全相信模型生成的数据，否则会把错误知识也训练进去。

第四类：基于知识库生成

如果企业有文档、FAQ、产品手册，可以把文档切分后生成问答。

比如一段产品文档：

"会员有效期为 12 个月，到期后需重新购买。"

可以生成：

问题：

"会员多久过期？"

答案：

"会员有效期为 12 个月，到期后需要重新购买。"

4. SFT的优点

第一，简单直接

SFT 是最容易理解、最容易落地的微调方式。

你只要准备好"问题 + 标准答案"，就能训练。

第二，适合领域适配

如果你想让模型懂公司业务、懂项目流程、懂行业话术，SFT 很有效。

第三，适合格式控制

比如让模型稳定输出 JSON、Markdown、SQL、分类标签，SFT 很好用。

5. SFT的缺点

第一，只会模仿，不一定会判断好坏

SFT 的本质是模仿标准答案。

但如果两个答案都看起来合理，SFT 不一定知道哪个更好。

第二，数据质量决定上限

如果训练数据很差，模型会学坏。

比如数据里全是空话，模型也会学会说空话。

第三，容易过拟合业务话术

如果 SFT 数据太单一，模型可能变得死板。

比如无论用户怎么问，都套固定模板。

四、强化学习/RLHF详解：让模型学会"人类更喜欢什么"

1. 什么是强化学习？

强化学习可以理解为：

模型做一个动作，环境给一个奖励，模型为了拿更高奖励不断调整行为。

举个简单例子。

训练小狗：

坐下，奖励零食
乱跑，没有奖励
听口令，奖励更多

时间久了，小狗就知道什么行为更容易得到奖励。

大模型里的强化学习也类似。

模型生成一个回答，如果这个回答更符合人类偏好，就给高分；如果回答差，就给低分。

2. 什么是RLHF？

RLHF 就是：

用人类反馈训练奖励模型，再用强化学习优化大模型。

它的完整流程通常是：

第一步：先做 SFT

先用高质量问答训练一个初始助手模型。

这一步是基础。

第二步：收集偏好数据

对同一个问题，让模型生成多个答案。

然后让人类标注员排序。

比如：

复制代码

问题：解释一下向量数据库

回答 A：向量数据库用于存储向量。
回答 B：向量数据库可以理解为专门存储"语义特征"的数据库，常用于相似度搜索......
回答 C：向量数据库是数据库。

人类排序：B > A > C

第三步：训练奖励模型

奖励模型的作用是：

给模型回答打分。

输入：

复制代码

问题 + 回答

输出：

复制代码

这个回答的质量分数

奖励模型学会人类偏好后，就能自动判断一个回答大概好不好。

第四步：用强化学习优化大模型

大模型不断生成回答，奖励模型不断打分。

如果回答得好，就强化这种输出方式。

如果回答得差，就减少这种输出方式。

这就是 RLHF。

OpenAI 的 InstructGPT 训练路线就是类似这种方式：先收集人工示范数据做 SFT，再收集比较数据训练奖励模型，最后用 PPO 强化学习优化策略模型。

3. RLHF为什么有用？

第一，它不要求人类写完美答案

写一个完美答案很难。

但判断两个答案哪个更好，相对容易。

比如让你写一篇完美文章，可能很费劲。

但让你判断 A 文章和 B 文章哪个更好，你很快就能判断。

所以 RLHF 适合把人类偏好转化成训练信号。

第二，它能优化"主观质量"

很多东西不是简单对错，而是体验好不好。

比如：

是否有帮助
是否详细
是否礼貌
是否符合用户语气
是否避免废话
是否结构清晰
是否安全可靠

这些很难用传统标签定义，但可以通过人类偏好学习。

第三，它能让模型更像助手

SFT 让模型会回答。

RLHF 让模型更会回答。

区别在于：

SFT：

"这个问题应该这样答。"

RLHF：

"这几种答法里，人类更喜欢哪一种。"

4. RLHF的缺点

第一，流程复杂

RLHF 通常要训练多个模型：

SFT 模型
奖励模型
强化学习后的策略模型

流程比 SFT 复杂很多。

第二，训练不稳定

强化学习本身就比较难调。

奖励模型如果学偏了，大模型也会跟着偏。

比如奖励模型喜欢"长答案"，模型可能为了拿高分疯狂输出长篇废话。

这叫奖励黑客。

第三，成本高

RLHF 需要：

人类标注
多轮模型生成
奖励模型训练
强化学习训练
大量算力
复杂工程调参

所以它更适合资源比较充足的大厂或大模型公司。

五、DPO详解：更简单的偏好优化方法

1. 为什么会有DPO？

因为 RLHF 太复杂了。

传统 RLHF 要：

训练 SFT 模型
收集偏好数据
训练奖励模型
用 PPO 等强化学习算法优化
控制模型不要跑偏

这套流程效果好，但工程成本高。

DPO 的出现，就是为了简化这个过程。

DPO 论文认为，既然我们已经有了"哪个答案更好"的偏好数据，就不一定非要先训练奖励模型，再做强化学习，可以直接用偏好数据优化语言模型。

2. DPO怎么理解？

DPO 可以理解为：

直接告诉模型：这个回答更好，那个回答更差。以后你要更像好的回答，少生成差的回答。

比如：

复制代码

问题：SFT 和 DPO 有什么区别？

好回答：SFT 是模仿标准答案，DPO 是学习偏好，让模型更倾向于人类喜欢的答案。
差回答：SFT 和 DPO 都是训练方法。

DPO 训练时，不需要奖励模型单独打分。

它直接利用：

prompt：问题
chosen：更好的回答
rejected：更差的回答

让模型学会偏好。

3. DPO数据格式

DPO 数据通常长这样：

复制代码

{
  "prompt": "请解释一下 RAG 是什么",
  "chosen": "RAG 是检索增强生成，可以理解为先从知识库查资料，再让大模型基于资料回答。",
  "rejected": "RAG 是一种技术。"
}

它不需要你给每个答案打具体分数。

只需要知道：

chosen 比 rejected 更好。

4. DPO和SFT有什么区别？

SFT 学的是：

复制代码

问题 -> 标准答案

DPO 学的是：

复制代码

问题 -> 好答案 比 差答案更优

也就是说：

SFT 更像"老师示范"。

DPO 更像"老师点评"。

SFT 告诉模型：

"你应该这样回答。"

DPO 告诉模型：

"这两个回答里，这个更好，以后往这个方向靠。"

5. DPO和RLHF有什么区别？

RLHF 是：

复制代码

偏好数据 -> 奖励模型 -> 强化学习优化大模型

DPO 是：

复制代码

偏好数据 -> 直接优化大模型

所以 DPO 少了两个复杂环节：

不需要单独训练奖励模型
不需要复杂强化学习采样过程

Hugging Face 的 DPO Trainer 文档也提到，DPO 的特点是稳定、高效、计算更轻量，微调时不需要从语言模型中采样，也不需要大量超参数调整。

六、用一个生活例子讲清楚三者区别

假设你要培养一个新人写技术文章。

1. SFT：给他看优秀范文

你给新人 100 篇优秀文章，让他模仿：

标题怎么写
开头怎么写
小标题怎么安排
怎么举例子
结尾怎么总结

这就是 SFT。

它解决的是：

从不会写，到会按照样子写。

2. RLHF：让读者投票，教他什么文章更受欢迎

新人写了 3 篇文章。

读者说：

第 1 篇太空
第 2 篇最通俗
第 3 篇太啰嗦

你根据读者反馈建立一套评分标准，然后让新人不断优化。

这就是 RLHF。

它解决的是：

从会写，到更符合读者偏好。

3. DPO：直接告诉他哪篇比哪篇好

你不建立复杂评分系统。

你直接告诉新人：

"这篇比那篇好，因为它更清晰、更具体、更有案例。"

新人直接学习这种偏好。

这就是 DPO。

它解决的是：

用更简单方式学习偏好。

七、SFT、RLHF、DPO对比表

|----------|-----------|------------------|----------------|
| 维度 | SFT | RLHF | DPO |
| 核心思想 | 模仿标准答案 | 根据奖励优化回答 | 直接学习偏好 |
| 数据形式 | 问题 + 标准答案 | 问题 + 多个回答 + 人类排序 | 问题 + 好回答 + 差回答 |
| 是否需要奖励模型 | 不需要 | 需要 | 不需要 |
| 是否需要强化学习 | 不需要 | 需要 | 不需要 |
| 训练难度 | 较低 | 较高 | 中等 |
| 工程成本 | 较低 | 高 | 较低 |
| 稳定性 | 较稳定 | 相对不稳定 | 相对稳定 |
| 适合场景 | 指令微调、领域适配 | 大规模对齐 | 偏好优化、低成本对齐 |
| 典型作用 | 让模型会回答 | 让模型回答更符合人类偏好 | 简化版偏好对齐 |

八、企业项目里怎么选择？

1. 如果你只是做领域问答，优先SFT

比如你做：

企业知识库助手
智能客服
简历优化助手
法律文档问答
医疗科普助手
内部 OA 助手

优先考虑 SFT。

因为你最需要的是：

让模型懂业务
让模型按格式输出
让模型学习标准话术
让模型回答稳定

2. 如果你有大量偏好数据，可以考虑DPO

比如你的系统里有：

用户点赞/点踩
人工审核记录
A/B 测试结果
客服质检结果
多答案排序数据
用户选择了哪个回答

这些数据很适合做 DPO。

比如：

用户问：

"怎么开通会员？"

模型回答 A 被用户点踩。

模型回答 B 被用户采纳。

那么就可以构造：

复制代码

prompt：怎么开通会员？
chosen：回答 B
rejected：回答 A

这类数据可以用来做 DPO。

3. 如果你是大模型公司，可以考虑RLHF

如果你有：

大量标注团队
大量算力
专门算法团队
奖励模型训练能力
强化学习经验
安全对齐需求

那么 RLHF 仍然很有价值。

它适合做大规模通用模型对齐。

九、结合RAG项目怎么理解SFT、DPO、RLHF？

假设你做了一个企业知识库问答系统。

系统流程是：

复制代码

用户问题 -> 向量检索 -> 找到相关文档 -> 大模型生成答案

这个系统常见问题有：

检索到了资料，但模型回答不专业
模型不会引用知识库内容
模型喜欢自由发挥
模型回答格式不统一
用户觉得答案太长或太空
模型不会拒答
模型不知道什么时候该说"不确定"

这时候三种方法都能发挥作用。

1. SFT怎么用在RAG项目？

你可以构造 SFT 数据：

复制代码

用户问题：会员有效期多久？
检索资料：会员有效期为12个月，到期后需重新购买。
标准回答：根据知识库资料，会员有效期为12个月，到期后需要重新购买。

训练目标是让模型学会：

基于检索资料回答
不要脱离资料胡编
答案要简洁
必要时引用来源
找不到资料时要说明无法确认

这就是 RAG 场景里的 SFT。

2. DPO怎么用在RAG项目？

构造偏好数据：

复制代码

问题：会员有效期多久？
知识库：会员有效期为12个月。

chosen：根据知识库资料，会员有效期为12个月。
rejected：会员有效期一般是一年左右，具体看平台规定。

为什么 chosen 更好？

因为它：

明确基于知识库
没有胡编
表达准确

DPO 可以让模型更偏向这种回答。

3. RLHF怎么用在RAG项目？

如果你有很多真实用户反馈，比如：

用户点赞
用户点踩
人工质检
客服修正
用户是否继续追问
用户是否采纳答案

可以训练奖励模型，让它判断 RAG 答案质量。

奖励模型可以考虑：

是否回答了问题
是否基于检索内容
是否有幻觉
是否表达清楚
是否符合公司口径
是否安全合规

然后再用强化学习优化模型。

不过企业一般没必要一上来就做 RLHF，成本较高。

十、面试中怎么讲SFT、DPO、RLHF？

如果面试官问：

"你了解 SFT、DPO、RLHF 吗？"

可以这样回答：

SFT 是监督微调，主要用高质量的指令问答数据训练模型，让模型学会按照用户指令输出，适合领域适配、格式控制和业务话术学习。

RLHF 是基于人类反馈的强化学习，通常先训练奖励模型，再用强化学习优化大模型，让模型更符合人类偏好。它效果好，但流程复杂、成本高、训练不稳定。

DPO 是直接偏好优化，它不需要单独训练奖励模型，也不需要复杂强化学习，而是直接使用 chosen/rejected 这种偏好数据训练模型，让模型更倾向于生成被人类偏好的答案。相比 RLHF，DPO 更简单、更稳定，更适合中小团队做偏好对齐。

十一、简历项目里怎么体现？

如果你做的是 AI 应用项目，可以这样写：

1. SFT项目描述

参与构建领域指令微调数据集，基于企业知识库、历史客服问答和业务规则，整理多轮问答、格式化输出、拒答边界等训练样本，用于提升模型在垂直业务场景下的指令遵循能力和回答稳定性。

2. DPO项目描述

基于用户点赞/点踩、人工质检和多版本回答对比结果，构造 chosen/rejected 偏好数据，用于 DPO 偏好优化训练，使模型在回答准确性、知识库忠实度、表达清晰度和用户满意度方面得到提升。

3. RLHF项目描述

参与设计人类反馈对齐流程，通过采集多候选回答排序数据训练奖励模型，并结合强化学习策略优化模型输出，使模型回答更加符合业务规范、用户偏好和安全边界。

十二、最容易混淆的几个问题

1. SFT之后还需要DPO吗？

不一定。

如果你的目标只是让模型学会业务知识和输出格式，SFT 可能够用。

但如果你发现：

模型回答能用，但不够好
模型经常输出用户不喜欢的风格
多个答案质量差异明显
你有用户反馈数据

那就可以考虑 DPO。

2. DPO能不能替代SFT？

通常不能完全替代。

更常见的流程是：

复制代码

预训练模型 -> SFT -> DPO

因为 DPO 更适合在模型已经具备基础指令能力后，进一步做偏好优化。

如果模型连基本回答格式都不会，直接 DPO 效果可能不好。

3. DPO能不能替代RLHF？

在很多场景下可以部分替代。

DPO 的优势是：

简单
稳定
成本低
工程实现更容易

但在大规模复杂对齐场景下，RLHF 仍然有价值。

4. SFT是不是就是微调？

SFT 是微调的一种。

微调是大概念，SFT 是其中一种具体方式。

微调可以包括：

SFT
DPO
LoRA 微调
全参数微调
领域继续预训练
指令微调
偏好微调

十三、普通开发者应该怎么学习？

1. 第一阶段：先理解整体流程

先搞清楚：

复制代码

预训练 -> SFT -> 偏好优化 -> 安全对齐 -> 部署评估

不要一上来陷入公式。

2. 第二阶段：先实践SFT

建议先用开源模型做 LoRA SFT。

比如准备几十到几百条业务问答数据，训练一个小模型。

你会真正理解：

数据格式
训练参数
loss 变化
模型输出变化
过拟合问题
数据质量问题

3. 第三阶段：再实践DPO

准备 chosen/rejected 数据。

比如同一个问题生成两个答案，一个好，一个差。

训练后观察模型是否更倾向于好答案。

4. 第四阶段：最后再研究RLHF

RLHF 工程复杂度更高，不建议初学者直接上。

可以先理解流程，再看 PPO、奖励模型、KL 约束等概念。

十四、总结

SFT、RLHF、DPO 是大模型后训练中非常重要的三个概念。

SFT 解决的是"会不会按要求回答"的问题。

它像老师示范，给模型大量标准答案，让模型学会指令遵循、业务话术和输出格式。

RLHF 解决的是"回答是不是更符合人类偏好"的问题。

它通过人类排序训练奖励模型，再用强化学习优化大模型，让模型更有帮助、更安全、更符合用户期待。

DPO 解决的是"能不能用更简单方式学习偏好"的问题。

它不用单独训练奖励模型，也不用复杂强化学习，直接用"好答案 vs 差答案"训练模型，工程上更简单、更稳定。

一句话总结：

SFT 是打基础，RLHF 是深度对齐，DPO 是更轻量的偏好优化。

对于普通开发者和企业项目来说，建议路线是：

复制代码

先做好RAG和提示词
再做SFT领域适配
有偏好数据后做DPO
资源充足再考虑RLHF

真正落地大模型，不是只会调用 API，而是要理解模型为什么会听话、为什么会变好、为什么会更符合人的偏好。SFT、DPO、RLHF，正是大模型从"会生成文字"走向"真正可用助手"的关键技术路线。