大模型为什么越来越“听话”?一文讲透强化学习、SFT、DPO

很多人学大模型时,会听到三个词:SFT、强化学习、DPO

它们看起来很高级,其实核心问题很简单:

怎么把一个只会"续写文字"的大模型,训练成一个真正能回答问题、听懂指令、符合人类偏好的 AI 助手。

OpenAI 的 InstructGPT 论文就指出:模型变大,并不天然代表它更会遵循用户意图,模型可能生成不真实、有害或不符合用户需求的内容,所以需要用人类反馈来对齐模型行为。


一、先说结论:SFT、强化学习、DPO到底是什么?

1. SFT:教模型"照着好答案学"

SFT,全称 Supervised Fine-Tuning,监督微调

通俗理解:

你给模型很多标准问答,让它模仿优秀老师怎么回答。

比如:

用户问:

"请解释一下 Java 中的线程池。"

人工标准答案:

"线程池可以理解为提前准备好的一批线程......"

模型反复学习这些"问题 + 好答案",慢慢就知道:

什么叫回答完整,什么叫语气自然,什么叫符合指令。

所以 SFT 的本质是:

让模型从"会说话",变成"会按要求说话"。


2. 强化学习/RLHF:让模型知道"哪种回答更讨人喜欢"

强化学习在大模型里最典型的形式叫 RLHF,也就是:

Reinforcement Learning from Human Feedback,人类反馈强化学习。

通俗理解:

模型先回答多个版本,人类告诉它哪个更好,然后模型朝着更受欢迎的方向优化。

比如同一个问题:

用户问:

"我想转 AI 大模型工程师,怎么规划?"

回答 A:

"多学习,多实践。"

回答 B:

"你有 8 年 Java 后端经验,可以从 RAG、Agent、模型微调、向量数据库、工程部署几条线切入......"

显然回答 B 更有价值。

人类标注员会把 B 排在 A 前面,模型就会逐渐学会:

回答要具体、可执行、贴近用户背景,而不是空泛。

InstructGPT 的经典训练流程就包含三步:先做 SFT,再训练奖励模型,最后用强化学习优化模型。


3. DPO:不用复杂强化学习,也能学习"人类更喜欢哪种答案"

DPO,全称 Direct Preference Optimization,直接偏好优化

通俗理解:

它跳过了复杂的奖励模型和强化学习流程,直接拿"好答案 vs 差答案"来训练模型。

比如一条数据长这样:

问题:

"解释一下混合检索。"

更好的回答:

"混合检索就是关键词检索 + 向量检索结合......"

较差的回答:

"混合检索是一种检索方法。"

DPO 直接告诉模型:

以后遇到类似问题,更应该靠近第一个答案,远离第二个答案。

DPO 论文指出,传统 RLHF 流程复杂且可能不稳定,而 DPO 可以用更简单的分类式训练目标来实现偏好优化,训练更稳定、计算更轻量。


二、大模型训练的完整链路:从"预训练"到"对齐"

很多人一上来就问 SFT、DPO、RLHF,其实它们都属于 后训练阶段

一个大模型大致可以分成四个阶段:

1. 第一阶段:预训练,让模型拥有基础能力

预训练就是拿大量互联网文本、书籍、代码、网页等数据训练模型。

这个阶段的目标不是让模型当助手,而是让模型学会:

  • 语言规律
  • 常识知识
  • 代码模式
  • 推理模式
  • 文本结构
  • 不同领域的表达方式

预训练后的模型很强,但它有个问题:

它更像一个"文本续写机器",不一定像一个"AI 助手"。

比如你输入:

"请帮我写一份 Java 简历项目描述。"

预训练模型可能会继续续写类似语料,不一定真正按照你的要求输出结构化内容。

所以还需要后面的 SFT、RLHF、DPO。


2. 第二阶段:SFT,让模型学会听指令

SFT 就是给模型大量高质量指令数据。

数据格式通常是:

复制代码
用户指令:帮我解释一下 RAG
标准回答:RAG 是检索增强生成,可以理解为先查资料,再让大模型基于资料回答......

通过 SFT,模型开始学会:

  • 用户问什么,我答什么
  • 用户要列表,我给列表
  • 用户要通俗解释,我不用复杂公式
  • 用户要文章,我按文章结构写
  • 用户要代码,我输出代码
  • 用户要总结,我给总结

所以 SFT 是大模型从"语言模型"变成"指令模型"的关键一步。


3. 第三阶段:偏好学习,让模型学会"更好"

SFT 只能教模型模仿标准答案。

但问题是:

什么叫好答案?

不同答案可能都对,但质量差别很大。

比如用户问:

"怎么提高召回率?"

回答 A:

"可以优化召回算法。"

回答 B:

"可以从数据源、Embedding 模型、切分策略、向量库参数、混合检索、Query 改写、召回数量、重排序等方面提升。"

两个都没错,但 B 明显更好。

这时候就需要偏好数据。

偏好数据通常不是"标准答案",而是:

复制代码
问题:怎么提高召回率?

答案 A:简单粗糙
答案 B:详细专业

人类选择:B 更好

RLHF 和 DPO 主要就是用来学习这种偏好的。


4. 第四阶段:安全对齐与业务对齐

除了回答质量,大模型还要考虑:

  • 不能胡说八道
  • 不能泄露隐私
  • 不能生成危险内容
  • 不能违背业务规则
  • 不能乱调用工具
  • 不能编造资料来源
  • 不能在客服场景乱承诺
  • 不能在金融医疗场景给高风险建议

所以企业落地时,SFT、DPO、RLHF 不只是为了"更聪明",更是为了:

让模型更稳定、更可控、更符合业务要求。


三、SFT 详解:大模型的"老师带教阶段"

1. SFT到底解决什么问题?

SFT 主要解决三个问题。

第一,让模型听懂指令

预训练模型可能只会续写,不一定听指令。

SFT 后,模型能理解:

  • "请总结"
  • "请改写"
  • "请分类"
  • "请提取关键词"
  • "请生成 SQL"
  • "请用通俗语言解释"
  • "请按照一二三结构输出"

这就是指令遵循能力。


第二,让模型学会固定输出格式

企业项目里,经常需要模型输出固定格式。

比如意图识别:

复制代码
{
  "intent": "order_query",
  "slots": {
    "order_id": "123456"
  }
}

如果没有 SFT,模型可能一会儿输出 JSON,一会儿输出自然语言,一会儿加解释。

SFT 可以让模型稳定输出业务需要的格式。


第三,让模型学会领域知识表达

比如你做金融客服、医疗问答、政务助手、法律咨询、企业知识库问答,通用模型不一定懂你的业务话术。

SFT 可以让模型学习:

  • 公司产品说明
  • 业务流程
  • 标准客服话术
  • 行业术语
  • 常见问题回答方式
  • 风险提示模板

所以 SFT 很适合做领域适配。


2. SFT数据长什么样?

常见 SFT 数据格式是:

复制代码
{
  "instruction": "请解释一下 RAG 是什么",
  "input": "",
  "output": "RAG 是检索增强生成,可以理解为先从知识库中查资料,再让大模型结合资料回答问题。"
}

或者对话格式:

复制代码
[
  {
    "role": "user",
    "content": "帮我写一段 Java 简历项目描述"
  },
  {
    "role": "assistant",
    "content": "项目名称:智能知识库问答系统......"
  }
]

3. SFT数据怎么构造?

企业落地中,SFT 数据可以来自几类。

第一类:人工编写

人工写高质量问答。

优点是质量高。

缺点是成本高、速度慢。

适合核心业务场景,比如:

  • 客服标准问答
  • 销售话术
  • 金融风控解释
  • 医疗合规问答
  • 简历项目包装模板

第二类:业务日志清洗

从真实用户问题中筛选高频问题,再人工整理答案。

比如客服系统里有大量历史问答:

用户问:

"订单为什么一直不发货?"

客服答:

"您好,您的订单目前处于仓库拣货中......"

这些历史数据经过脱敏、清洗、改写,就可以变成 SFT 数据。


第三类:用强模型生成,再人工审核

可以用更强的大模型生成训练数据。

比如让 GPT-4、Claude、DeepSeek、Qwen 等生成一批问答,然后人工审核。

这种方式成本低,但要注意:

不能完全相信模型生成的数据,否则会把错误知识也训练进去。


第四类:基于知识库生成

如果企业有文档、FAQ、产品手册,可以把文档切分后生成问答。

比如一段产品文档:

"会员有效期为 12 个月,到期后需重新购买。"

可以生成:

问题:

"会员多久过期?"

答案:

"会员有效期为 12 个月,到期后需要重新购买。"


4. SFT的优点

第一,简单直接

SFT 是最容易理解、最容易落地的微调方式。

你只要准备好"问题 + 标准答案",就能训练。


第二,适合领域适配

如果你想让模型懂公司业务、懂项目流程、懂行业话术,SFT 很有效。


第三,适合格式控制

比如让模型稳定输出 JSON、Markdown、SQL、分类标签,SFT 很好用。


5. SFT的缺点

第一,只会模仿,不一定会判断好坏

SFT 的本质是模仿标准答案。

但如果两个答案都看起来合理,SFT 不一定知道哪个更好。


第二,数据质量决定上限

如果训练数据很差,模型会学坏。

比如数据里全是空话,模型也会学会说空话。


第三,容易过拟合业务话术

如果 SFT 数据太单一,模型可能变得死板。

比如无论用户怎么问,都套固定模板。


四、强化学习/RLHF详解:让模型学会"人类更喜欢什么"

1. 什么是强化学习?

强化学习可以理解为:

模型做一个动作,环境给一个奖励,模型为了拿更高奖励不断调整行为。

举个简单例子。

训练小狗:

  • 坐下,奖励零食
  • 乱跑,没有奖励
  • 听口令,奖励更多

时间久了,小狗就知道什么行为更容易得到奖励。

大模型里的强化学习也类似。

模型生成一个回答,如果这个回答更符合人类偏好,就给高分;如果回答差,就给低分。


2. 什么是RLHF?

RLHF 就是:

用人类反馈训练奖励模型,再用强化学习优化大模型。

它的完整流程通常是:

第一步:先做 SFT

先用高质量问答训练一个初始助手模型。

这一步是基础。


第二步:收集偏好数据

对同一个问题,让模型生成多个答案。

然后让人类标注员排序。

比如:

复制代码
问题:解释一下向量数据库

回答 A:向量数据库用于存储向量。
回答 B:向量数据库可以理解为专门存储"语义特征"的数据库,常用于相似度搜索......
回答 C:向量数据库是数据库。

人类排序:B > A > C

第三步:训练奖励模型

奖励模型的作用是:

给模型回答打分。

输入:

复制代码
问题 + 回答

输出:

复制代码
这个回答的质量分数

奖励模型学会人类偏好后,就能自动判断一个回答大概好不好。


第四步:用强化学习优化大模型

大模型不断生成回答,奖励模型不断打分。

如果回答得好,就强化这种输出方式。

如果回答得差,就减少这种输出方式。

这就是 RLHF。

OpenAI 的 InstructGPT 训练路线就是类似这种方式:先收集人工示范数据做 SFT,再收集比较数据训练奖励模型,最后用 PPO 强化学习优化策略模型。


3. RLHF为什么有用?

第一,它不要求人类写完美答案

写一个完美答案很难。

但判断两个答案哪个更好,相对容易。

比如让你写一篇完美文章,可能很费劲。

但让你判断 A 文章和 B 文章哪个更好,你很快就能判断。

所以 RLHF 适合把人类偏好转化成训练信号。


第二,它能优化"主观质量"

很多东西不是简单对错,而是体验好不好。

比如:

  • 是否有帮助
  • 是否详细
  • 是否礼貌
  • 是否符合用户语气
  • 是否避免废话
  • 是否结构清晰
  • 是否安全可靠

这些很难用传统标签定义,但可以通过人类偏好学习。


第三,它能让模型更像助手

SFT 让模型会回答。

RLHF 让模型更会回答。

区别在于:

SFT:

"这个问题应该这样答。"

RLHF:

"这几种答法里,人类更喜欢哪一种。"


4. RLHF的缺点

第一,流程复杂

RLHF 通常要训练多个模型:

  • SFT 模型
  • 奖励模型
  • 强化学习后的策略模型

流程比 SFT 复杂很多。


第二,训练不稳定

强化学习本身就比较难调。

奖励模型如果学偏了,大模型也会跟着偏。

比如奖励模型喜欢"长答案",模型可能为了拿高分疯狂输出长篇废话。

这叫奖励黑客。


第三,成本高

RLHF 需要:

  • 人类标注
  • 多轮模型生成
  • 奖励模型训练
  • 强化学习训练
  • 大量算力
  • 复杂工程调参

所以它更适合资源比较充足的大厂或大模型公司。


五、DPO详解:更简单的偏好优化方法

1. 为什么会有DPO?

因为 RLHF 太复杂了。

传统 RLHF 要:

  1. 训练 SFT 模型
  2. 收集偏好数据
  3. 训练奖励模型
  4. 用 PPO 等强化学习算法优化
  5. 控制模型不要跑偏

这套流程效果好,但工程成本高。

DPO 的出现,就是为了简化这个过程。

DPO 论文认为,既然我们已经有了"哪个答案更好"的偏好数据,就不一定非要先训练奖励模型,再做强化学习,可以直接用偏好数据优化语言模型。


2. DPO怎么理解?

DPO 可以理解为:

直接告诉模型:这个回答更好,那个回答更差。以后你要更像好的回答,少生成差的回答。

比如:

复制代码
问题:SFT 和 DPO 有什么区别?

好回答:SFT 是模仿标准答案,DPO 是学习偏好,让模型更倾向于人类喜欢的答案。
差回答:SFT 和 DPO 都是训练方法。

DPO 训练时,不需要奖励模型单独打分。

它直接利用:

  • prompt:问题
  • chosen:更好的回答
  • rejected:更差的回答

让模型学会偏好。


3. DPO数据格式

DPO 数据通常长这样:

复制代码
{
  "prompt": "请解释一下 RAG 是什么",
  "chosen": "RAG 是检索增强生成,可以理解为先从知识库查资料,再让大模型基于资料回答。",
  "rejected": "RAG 是一种技术。"
}

它不需要你给每个答案打具体分数。

只需要知道:

chosen 比 rejected 更好。


4. DPO和SFT有什么区别?

SFT 学的是:

复制代码
问题 -> 标准答案

DPO 学的是:

复制代码
问题 -> 好答案 比 差答案更优

也就是说:

SFT 更像"老师示范"。

DPO 更像"老师点评"。

SFT 告诉模型:

"你应该这样回答。"

DPO 告诉模型:

"这两个回答里,这个更好,以后往这个方向靠。"


5. DPO和RLHF有什么区别?

RLHF 是:

复制代码
偏好数据 -> 奖励模型 -> 强化学习优化大模型

DPO 是:

复制代码
偏好数据 -> 直接优化大模型

所以 DPO 少了两个复杂环节:

  • 不需要单独训练奖励模型
  • 不需要复杂强化学习采样过程

Hugging Face 的 DPO Trainer 文档也提到,DPO 的特点是稳定、高效、计算更轻量,微调时不需要从语言模型中采样,也不需要大量超参数调整。


六、用一个生活例子讲清楚三者区别

假设你要培养一个新人写技术文章。

1. SFT:给他看优秀范文

你给新人 100 篇优秀文章,让他模仿:

  • 标题怎么写
  • 开头怎么写
  • 小标题怎么安排
  • 怎么举例子
  • 结尾怎么总结

这就是 SFT。

它解决的是:

从不会写,到会按照样子写。


2. RLHF:让读者投票,教他什么文章更受欢迎

新人写了 3 篇文章。

读者说:

  • 第 1 篇太空
  • 第 2 篇最通俗
  • 第 3 篇太啰嗦

你根据读者反馈建立一套评分标准,然后让新人不断优化。

这就是 RLHF。

它解决的是:

从会写,到更符合读者偏好。


3. DPO:直接告诉他哪篇比哪篇好

你不建立复杂评分系统。

你直接告诉新人:

"这篇比那篇好,因为它更清晰、更具体、更有案例。"

新人直接学习这种偏好。

这就是 DPO。

它解决的是:

用更简单方式学习偏好。


七、SFT、RLHF、DPO对比表

|----------|-----------|------------------|----------------|
| 维度 | SFT | RLHF | DPO |
| 核心思想 | 模仿标准答案 | 根据奖励优化回答 | 直接学习偏好 |
| 数据形式 | 问题 + 标准答案 | 问题 + 多个回答 + 人类排序 | 问题 + 好回答 + 差回答 |
| 是否需要奖励模型 | 不需要 | 需要 | 不需要 |
| 是否需要强化学习 | 不需要 | 需要 | 不需要 |
| 训练难度 | 较低 | 较高 | 中等 |
| 工程成本 | 较低 | 高 | 较低 |
| 稳定性 | 较稳定 | 相对不稳定 | 相对稳定 |
| 适合场景 | 指令微调、领域适配 | 大规模对齐 | 偏好优化、低成本对齐 |
| 典型作用 | 让模型会回答 | 让模型回答更符合人类偏好 | 简化版偏好对齐 |


八、企业项目里怎么选择?

1. 如果你只是做领域问答,优先SFT

比如你做:

  • 企业知识库助手
  • 智能客服
  • 简历优化助手
  • 法律文档问答
  • 医疗科普助手
  • 内部 OA 助手

优先考虑 SFT。

因为你最需要的是:

  • 让模型懂业务
  • 让模型按格式输出
  • 让模型学习标准话术
  • 让模型回答稳定

2. 如果你有大量偏好数据,可以考虑DPO

比如你的系统里有:

  • 用户点赞/点踩
  • 人工审核记录
  • A/B 测试结果
  • 客服质检结果
  • 多答案排序数据
  • 用户选择了哪个回答

这些数据很适合做 DPO。

比如:

用户问:

"怎么开通会员?"

模型回答 A 被用户点踩。

模型回答 B 被用户采纳。

那么就可以构造:

复制代码
prompt:怎么开通会员?
chosen:回答 B
rejected:回答 A

这类数据可以用来做 DPO。


3. 如果你是大模型公司,可以考虑RLHF

如果你有:

  • 大量标注团队
  • 大量算力
  • 专门算法团队
  • 奖励模型训练能力
  • 强化学习经验
  • 安全对齐需求

那么 RLHF 仍然很有价值。

它适合做大规模通用模型对齐。


九、结合RAG项目怎么理解SFT、DPO、RLHF?

假设你做了一个企业知识库问答系统。

系统流程是:

复制代码
用户问题 -> 向量检索 -> 找到相关文档 -> 大模型生成答案

这个系统常见问题有:

  • 检索到了资料,但模型回答不专业
  • 模型不会引用知识库内容
  • 模型喜欢自由发挥
  • 模型回答格式不统一
  • 用户觉得答案太长或太空
  • 模型不会拒答
  • 模型不知道什么时候该说"不确定"

这时候三种方法都能发挥作用。


1. SFT怎么用在RAG项目?

你可以构造 SFT 数据:

复制代码
用户问题:会员有效期多久?
检索资料:会员有效期为12个月,到期后需重新购买。
标准回答:根据知识库资料,会员有效期为12个月,到期后需要重新购买。

训练目标是让模型学会:

  • 基于检索资料回答
  • 不要脱离资料胡编
  • 答案要简洁
  • 必要时引用来源
  • 找不到资料时要说明无法确认

这就是 RAG 场景里的 SFT。


2. DPO怎么用在RAG项目?

构造偏好数据:

复制代码
问题:会员有效期多久?
知识库:会员有效期为12个月。

chosen:根据知识库资料,会员有效期为12个月。
rejected:会员有效期一般是一年左右,具体看平台规定。

为什么 chosen 更好?

因为它:

  • 明确基于知识库
  • 没有胡编
  • 表达准确

DPO 可以让模型更偏向这种回答。


3. RLHF怎么用在RAG项目?

如果你有很多真实用户反馈,比如:

  • 用户点赞
  • 用户点踩
  • 人工质检
  • 客服修正
  • 用户是否继续追问
  • 用户是否采纳答案

可以训练奖励模型,让它判断 RAG 答案质量。

奖励模型可以考虑:

  • 是否回答了问题
  • 是否基于检索内容
  • 是否有幻觉
  • 是否表达清楚
  • 是否符合公司口径
  • 是否安全合规

然后再用强化学习优化模型。

不过企业一般没必要一上来就做 RLHF,成本较高。


十、面试中怎么讲SFT、DPO、RLHF?

如果面试官问:

"你了解 SFT、DPO、RLHF 吗?"

可以这样回答:

SFT 是监督微调,主要用高质量的指令问答数据训练模型,让模型学会按照用户指令输出,适合领域适配、格式控制和业务话术学习。

RLHF 是基于人类反馈的强化学习,通常先训练奖励模型,再用强化学习优化大模型,让模型更符合人类偏好。它效果好,但流程复杂、成本高、训练不稳定。

DPO 是直接偏好优化,它不需要单独训练奖励模型,也不需要复杂强化学习,而是直接使用 chosen/rejected 这种偏好数据训练模型,让模型更倾向于生成被人类偏好的答案。相比 RLHF,DPO 更简单、更稳定,更适合中小团队做偏好对齐。


十一、简历项目里怎么体现?

如果你做的是 AI 应用项目,可以这样写:

1. SFT项目描述

参与构建领域指令微调数据集,基于企业知识库、历史客服问答和业务规则,整理多轮问答、格式化输出、拒答边界等训练样本,用于提升模型在垂直业务场景下的指令遵循能力和回答稳定性。


2. DPO项目描述

基于用户点赞/点踩、人工质检和多版本回答对比结果,构造 chosen/rejected 偏好数据,用于 DPO 偏好优化训练,使模型在回答准确性、知识库忠实度、表达清晰度和用户满意度方面得到提升。


3. RLHF项目描述

参与设计人类反馈对齐流程,通过采集多候选回答排序数据训练奖励模型,并结合强化学习策略优化模型输出,使模型回答更加符合业务规范、用户偏好和安全边界。


十二、最容易混淆的几个问题

1. SFT之后还需要DPO吗?

不一定。

如果你的目标只是让模型学会业务知识和输出格式,SFT 可能够用。

但如果你发现:

  • 模型回答能用,但不够好
  • 模型经常输出用户不喜欢的风格
  • 多个答案质量差异明显
  • 你有用户反馈数据

那就可以考虑 DPO。


2. DPO能不能替代SFT?

通常不能完全替代。

更常见的流程是:

复制代码
预训练模型 -> SFT -> DPO

因为 DPO 更适合在模型已经具备基础指令能力后,进一步做偏好优化。

如果模型连基本回答格式都不会,直接 DPO 效果可能不好。


3. DPO能不能替代RLHF?

在很多场景下可以部分替代。

DPO 的优势是:

  • 简单
  • 稳定
  • 成本低
  • 工程实现更容易

但在大规模复杂对齐场景下,RLHF 仍然有价值。


4. SFT是不是就是微调?

SFT 是微调的一种。

微调是大概念,SFT 是其中一种具体方式。

微调可以包括:

  • SFT
  • DPO
  • LoRA 微调
  • 全参数微调
  • 领域继续预训练
  • 指令微调
  • 偏好微调

十三、普通开发者应该怎么学习?

1. 第一阶段:先理解整体流程

先搞清楚:

复制代码
预训练 -> SFT -> 偏好优化 -> 安全对齐 -> 部署评估

不要一上来陷入公式。


2. 第二阶段:先实践SFT

建议先用开源模型做 LoRA SFT。

比如准备几十到几百条业务问答数据,训练一个小模型。

你会真正理解:

  • 数据格式
  • 训练参数
  • loss 变化
  • 模型输出变化
  • 过拟合问题
  • 数据质量问题

3. 第三阶段:再实践DPO

准备 chosen/rejected 数据。

比如同一个问题生成两个答案,一个好,一个差。

训练后观察模型是否更倾向于好答案。


4. 第四阶段:最后再研究RLHF

RLHF 工程复杂度更高,不建议初学者直接上。

可以先理解流程,再看 PPO、奖励模型、KL 约束等概念。


十四、总结

SFT、RLHF、DPO 是大模型后训练中非常重要的三个概念。

SFT 解决的是"会不会按要求回答"的问题。

它像老师示范,给模型大量标准答案,让模型学会指令遵循、业务话术和输出格式。

RLHF 解决的是"回答是不是更符合人类偏好"的问题。

它通过人类排序训练奖励模型,再用强化学习优化大模型,让模型更有帮助、更安全、更符合用户期待。

DPO 解决的是"能不能用更简单方式学习偏好"的问题。

它不用单独训练奖励模型,也不用复杂强化学习,直接用"好答案 vs 差答案"训练模型,工程上更简单、更稳定。

一句话总结:

SFT 是打基础,RLHF 是深度对齐,DPO 是更轻量的偏好优化。

对于普通开发者和企业项目来说,建议路线是:

复制代码
先做好RAG和提示词
再做SFT领域适配
有偏好数据后做DPO
资源充足再考虑RLHF

真正落地大模型,不是只会调用 API,而是要理解模型为什么会听话、为什么会变好、为什么会更符合人的偏好。SFT、DPO、RLHF,正是大模型从"会生成文字"走向"真正可用助手"的关键技术路线。

相关推荐
得物技术1 小时前
基于 Harness + SDD + 多仓管理模式的 AI 全栈开发实践|得物技术
前端·人工智能·后端
captain_AIouo1 小时前
数据驱动运营,Captain AI打造OZON全链路数据闭环
大数据·人工智能·经验分享·aigc
lbb 小魔仙1 小时前
Ollama + Python 本地大模型部署与API调用:从零开始搭建私有AI助手
开发语言·人工智能·python
AI大法师1 小时前
从门头到社媒预热图,快闪项目如何统一视觉输出
大数据·人工智能·设计模式
市象1 小时前
赵明能享受到千里科技的推背感吗?
人工智能·ai·汽车
Joseph Cooper1 小时前
Hermes Agent 深度调研:开源社区中自学习闭环最系统化的 AI Agent
人工智能·ai·开源·agent·hermes
NebulaData1 小时前
Seedance2.0 满血进化・即将解锁
人工智能
2601_958320571 小时前
【小白易懂版】Kimi 模型接入 OpenClaw 2.6.6 实操教程(包含安装包)
人工智能·open claw·小龙虾·open claw安装·openclaw一键安装
OJAC1112 小时前
材料专业转大模型,7天拿到过万offer前,他做对了什么?
人工智能