SFT和RLHF是什么？有什么区别

王小义笔记2026-04-03 16:17

简单来说，SFT （有监督微调）和 RLHF（基于人类反馈的强化学习）是大语言模型（LLM）从"只会预测概率"进化为"懂人话、守规矩"的两个关键阶段。

它们属于模型训练中的后训练阶段（Post-training）。

1. 它们在哪个环节？

一个成熟的 AI 模型通常经历三个主要阶段：

预训练（Pre-training）： 像"博览群书"。在海量互联网数据上学习预测下一个词，让模型获得知识，但它此时还没学会怎么跟人交流。
SFT（Supervised Fine-tuning）： 像"闭门学礼仪"。
RLHF（Reinforcement Learning from Human Feedback）： 像"实战演练并接受考官点评"。

2. 详细解读

SFT：有监督微调

这是模型"对齐"人类意图的第一步。

做法： 雇佣专业人员编写大量高质量的"问题-答案"对（Prompt-Response）。例如：
- 提问： "如何用 Java 写一个单例模式？"
- 回答： "可以使用双重检查锁定实现......"
目的： 告诉模型，"当人类这样问你时，你应该这样回答"。通过这个阶段，模型学会了对话的格式和指令的执行。

RLHF：基于人类反馈的强化学习

这是让模型回答更符合人类价值观（更有用、更真实、无害）的关键，分为三小步：

收集偏好： 让模型针对同一个问题生成几个不同的回答，让人类来"打分"或"排序"（比如 A 比 B 好）。
训练奖励模型（Reward Model）： 用这些评分数据训练一个"小老师"模型，专门学习人类的喜好。
强化学习（PPO 等算法）： 让大模型不断生成回答，"小老师"打分。模型为了拿高分，会不断调整参数，直到其回答越来越接近人类满意的标准。

3. 核心区别对比

特性	SFT (有监督微调)	RLHF (强化学习)
数据形式	标准的问答对（Q & A）	多个回复的排序/打分
主要作用	学会指令跟随，建立基础能力	消除幻觉、提高安全性、优化细节表现
类比	老师给出一份标准答案让你背诵	老师根据你的表现打分，让你自我悟出规律

总结： SFT 给模型定调子，RLHF 给模型拔上限。没有 SFT，模型不知道怎么说话；没有 RLHF，模型说话可能带有偏见或不够严谨。

上一篇：前端实现进度条

下一篇：每日 AI 研究简报 · 2026-04-02

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03【AI】2026 年具身智能模型和世界模型总结 04CC-Switch & Claude 基于 Linux 服务器安装使用指南 05人工智能最新动态 AI 日报 · 2026年5月10日 06AI科技热点日报 | 2026年5月11日 07Gemini大升级、AI眼镜首发、Android XR亮相，13天后见分晓 08零基础教你claude code 接入 deepseek V4 09codex app每次打开重连5次Reconnecting问题解决 102026年AI前瞻：量子AI、具身智能与科学发现的新纪元