小白入门大模型强化学习博客

小白入门大模型强化学习博客

大家好,我又来分享学习笔记啦!这次学了大模型里的强化学习,也就是大家常说的 RLHF,原来 ChatGPT、GPT-4 这么听话,能听懂人话、不会乱说话,都是靠这个技术!

我刚开始看的时候,一堆 Actor、Critic、PPO、DPO 的专业名词,直接看懵了,啃了好久才搞明白,干脆整理成这篇大白话博客,咱们一起学,一起搞懂大模型的核心技术!全程无晦涩公式,看完你也能搞懂 RLHF!


目录

  1. 先搞懂:强化学习到底是个啥?\](#1-先搞懂强化学习到底是个啥)

  2. RLHF 里的 4 个 "工具人",都是干嘛的?

  3. 传统 PPO 算法:为啥训练大模型这么贵?

  4. 砍成本第一步:能不能把 Critic 干掉?

  5. 砍成本第二步:能不能只靠 1 个模型搞定?

  6. 最后:这些算法,到底该选哪个?


1. 先搞懂:强化学习到底是个啥?

要学大模型的强化学习,咱们先从最基础的来,强化学习到底是个啥?

其实特别简单,就像你玩王者荣耀:

  • 你就是智能体(Agent) ,游戏就是环境(Environment)

  • 你做的操作,比如往左走、放技能,就是动作(Action)

  • 你做完操作,游戏给你的反馈,比如拿到人头、加金币、赢了比赛,就是奖励(Reward)

你玩的多了,就学会了:什么样的操作能拿到更多奖励,能赢比赛,这个学习的过程,就是强化学习!

这里还有个小细节:不能只看眼前的奖励!比如你现在吃个小金币加 10 分,但是绕一下能吃个大金币加 100 分,那肯定选后者对吧?

这个就是价值函数,它帮你算:当前的动作,加上未来能拿到的所有奖励,总共能拿多少,这样就不会只看眼前,目光短浅啦。


2. 大模型里的强化学习:RLHF 到底是个啥?

搞懂了基础的强化学习,那放到大模型里,它是怎么工作的?这就是我们常说的RLHF,全称是「基于人类反馈的强化学习」,说白了就是:

我们人类给 AI 反馈,告诉它什么是好的回答,什么是坏的,AI 就用强化学习,学会怎么说人话,怎么符合人类的喜好。

那在大模型里,之前说的智能体、动作、奖励,都是啥呢?

太好懂了:

  • AI 就是那个玩游戏的智能体!

  • 它给你回答问题的时候,是一个字一个字往外蹦的对吧?每个字,就是它的一个动作

  • 我们给每个字打分:这个字说的好不好,有没有符合人类的喜好,这个就是奖励

  • 它就这么一个字一个字的学,慢慢就学会了:怎么说话,能拿到最高的奖励,也就是最符合人类的喜好!

是不是一下就懂了?原来这么简单!


3. RLHF 里的 4 个 "工具人",都是干嘛的?

刚学 RLHF 的时候,我看到说要 4 个模型,直接懵了:搞个 AI 还要 4 个模型?都是干嘛的?

其实这四个就是分工不同的 "工具人",我给你翻译成大白话:

  1. Actor Model(演员模型) :就是我们要教的学生!我们最终要的就是它,把它教的会说人话,就搞定了。

  2. Reference Model(参考模型) :就是班长!它是学生原来的水平,防止学生学歪了 ------ 比如学生为了拿高分,乱说话,越学越离谱,班长就看着它:你不能和原来差太多哦!

  3. Reward Model(奖励模型) :就是裁判!给学生写的答案打分,这个答案写的好不好,符不符合人类的喜好,它说了算。

  4. Critic Model(评论家模型) :就是监考老师!帮学生预估一下:我现在写的这个字,最后整个答案能拿多少分?帮学生调整自己的动作。

你看,是不是就是一个老师教学生的场景?太形象了!


4. 传统 PPO 算法:为啥训练大模型这么贵?

最早的 RLHF,用的是 PPO 算法,也就是我们上面说的,四个模型一起跑,但是这个方法有个大问题:太贵了!

四个模型同时在显卡上跑,对显存的要求太高了,普通人根本玩不起,比如你要训个 7B 的模型,没个好点的显卡根本跑不动,这也是为啥原来大模型只有大公司能玩的原因。

那大家就想了:能不能把这些模型砍一砍?能不能少几个,降低训练成本?

于是就有了一堆新的算法,我们一个个来看!


5. 砍成本第一步:能不能把 Critic 干掉?

第一个想到的就是:监考老师(Critic)能不能不要?毕竟它也是个模型,占了不少显存,能不能把它砍了,省点钱?

还真可以!就有了两个新算法:ReMax 和 GRPO。

ReMax:用最优答案当 baseline

ReMax 的思路特别简单:

原来 Critic 是帮我们算一个 baseline(基准分),用来降低训练的方差,那我不用 Critic,用学生自己的最优答案当 baseline 行不行?

比如,给学生一个问题,让它先写一个最标准的答案(greedy 采样,就是它认为最好的答案),然后让它再探索一个新的答案,如果新的答案比这个标准分高,那我就鼓励它,不然就不鼓励。

这样就把 Critic 干掉了!效果有多好?

原来 PPO 跑不起来的 Llama-7B,用 ReMax,4 张 A800 显卡就能跑起来,不用任何额外的操作,而且训练速度还更快!

GRPO:用多个答案的平均分当 baseline

GRPO 的思路也差不多:还是砍 Critic,那我给同一个问题,让学生写好几个答案,把这几个答案的平均分当 baseline 行不行?

比如,我让学生写 5 个答案,这 5 个答案的平均分就是基准分,哪个答案比平均分高,我就鼓励它,比平均分低,我就惩罚它。

这样也不用 Critic 了,而且效果也很好!


6. 砍成本第二步:能不能只靠 1 个模型搞定?

把 Critic 干掉之后,还有三个模型:学生、班长、裁判,能不能再砍?能不能只靠一个模型,就像普通的训练一样简单?

还真可以!这就是 Offline 路线的算法,比如 DPO、ORPO 这些。

DPO:直接学好坏答案,不用别的模型

DPO 的思路更绝:我不用在线训练了,我直接拿一堆别人整理好的「好答案」和「坏答案」,让学生自己学行不行?

比如,同一个问题,有一个好的回答,一个坏的回答,我就让学生学:好的回答我要多学学,提高它出现的概率,坏的回答我要少学学,降低它出现的概率。

这样一来,我就不用裁判、不用监考老师了,只需要学生和班长两个模型,就搞定了!训练起来就和普通的 SFT 一样简单,普通人也能玩得起!

后来大家还在 DPO 的基础上做了很多优化,比如 DPOP 解决 DPO 训崩的问题,TDPO 加了 KL 惩罚防止学歪了。

ORPO:把班长也干掉,只留一个模型!

最狠的是 ORPO,它连班长(Reference Model)都干掉了!

它的思路是:我直接把 SFT 的 loss 和好坏答案的 loss 合在一起,一方面,我让学生学好答案,另一方面,我让它降低坏答案的概率,这样就不用班长了,只需要学生一个模型,就搞定了 RLHF!

我的天,原来要 4 个模型,现在直接砍到 1 个,训练起来和普通的微调一模一样,谁都能做了!


7. 最后:这些算法,到底该选哪个?

到这里,你已经搞懂了大模型里的强化学习,还有这些主流的算法,最后给大家总结一下,什么时候用哪个:

算法 需要的模型数量 特点 适用场景
PPO 4 个 最传统,效果稳定,但是成本高 大公司,有足够的算力
ReMax/GRPO 3 个 砍掉了 Critic,成本降了一半 中小团队,想训大一点的模型
DPO/TDPO 2 个 离线训练,简单方便 普通开发者,有好坏答案的数据
ORPO 1 个 只需要一个模型,和 SFT 一样简单 个人开发者,快速做对齐

是不是一下就清楚了?原来现在的 RLHF 已经这么亲民了,普通人也能玩得起了!


这部分内容我啃了好久,原来大模型的对齐技术已经发展这么快了,从原来的 4 个模型,砍到现在 1 个模型就能搞定,太厉害了!

整理成这篇博客,希望能帮到同样是小白的你,如果你跟着学遇到了问题,或者有什么想法,欢迎在评论区留言,咱们一起讨论,一起学习,一起进步!

如果你觉得这篇文章有用,别忘了点赞收藏关注哦,后续我还会分享更多大模型入门的内容,咱们一起打怪升级!

相关推荐
上海锝秉工控2 小时前
总线编码器:工业自动化的“智慧神经”
大数据·人工智能·自动化
信创DevOps先锋2 小时前
2025项目管理工具生态革命:AI重构协作边界与国产化崛起
人工智能·重构
互联网科技看点2 小时前
AtlasX Protocol 获 200 万美元种子轮融资
大数据·人工智能·区块链
观远数据2 小时前
AI优先的BI试点新玩法:如何用自然语言分析重构业务决策流程
大数据·人工智能·数据挖掘
福客AI智能客服2 小时前
人工智能客服平台:智能客服系统如何重构企业服务效率
人工智能
ShineWinsu2 小时前
告别重复造轮子:Codex写脚本
人工智能
ChoSeitaku2 小时前
NO.3|接入ChatGPT|Gemini|Ollama本地接入DeepSeek
人工智能·chatgpt
小白勇闯网安圈2 小时前
腾讯云服务器部署Dify
服务器·人工智能·云计算·腾讯云
CloneCello2 小时前
OpenClaw入门【完整版】
人工智能