大模型微调(四):人类反馈强化学习(RLHF)

RLHF 是一种特殊的强化学习,它使用与经典强化学习相同的数学框架,但核心却截然不同。

让我们先从"奖励"的区别说起。

在普通的强化学习中:智能体与环境交互。每一步,它都会执行一个动作 a_t,获得一个奖励 r_t,并更新其策略以最大化预期的未来奖励。奖励信号内置于环境中,例如,游戏得分、机器人与目标的距离,或明确的成功/失败衡量标准。

\max_\pi \; \mathbb{E}_\pi\left\\sum_t \\gamma\^t r_t\\right

在基于人类反馈的强化学习 (RLHF) 中:没有自然的奖励函数,模型不会玩游戏或赢得积分。相反,人类会提供偏好反馈。假设给定两个响应:响应 A 和 响应 B。人类会标记哪个响应感觉更好:更有帮助、更无害或更诚实。

通过这些比较,一个奖励模型 R_\phi(x, y) 被训练来预测人类的偏好。然后,大模型的"策略",也就是模型生成响应的方式会被优化,以最大化这个学习到的奖励函数,而不是外部的奖励函数。

微调仍然使用强化学习算法,通常是 PPO(近端策略优化,需要奖励模型,代价比较高)或是 DRPO(直接策略优化,快速经济的方案), 来更新模型的权重。PPO优化目标为:

\max_\theta \; \mathbb{E}{y \sim \pi_\theta}R_\\phi(x, y)

但在这里,R_\phi 代表的是人类的价值观,而不是世界上的客观数字。

相关推荐
湘美书院--湘美谈教育9 分钟前
湘美谈教育AI系列经验集锦:赋能整理聊斋志异大寓言
大数据·人工智能·深度学习·神经网络·机器学习
伊布拉西莫2 小时前
【流畅的Python】第20章:并发执行器 — 学习笔记
笔记·python·学习
大模型最新论文速读2 小时前
小红书提出 RedKnot:分头处理 kv 缓存,延时降低 60%效果还提升
论文阅读·人工智能·深度学习·机器学习·缓存·自然语言处理
一楼的猫3 小时前
茄子写作助手——品牌搜索突破9万后的技术型品牌认知与官网入口指南
人工智能·学习·机器学习·chatgpt·ai写作
AOwhisky3 小时前
学习自测与解析:MySQL第五、六、七期核心知识点详解
运维·数据库·笔记·学习·mysql·云计算
苏州邦恩精密4 小时前
江苏三维扫描仪厂家如何选择合适的工业测量方案?
人工智能·科技·机器学习·3d·自动化·制造
niuniuyi~4 小时前
QT学习笔记
笔记·qt·学习
咸甜适中4 小时前
rust语言学习笔记Trait(十六)Error(错误)
笔记·学习·rust
叫我:松哥4 小时前
基于深度卷积神经网络的水果图片分类算法设计与实现,有ResNet50的迁移学习模型,准确率达95%
人工智能·python·神经网络·机器学习·分类·cnn·迁移学习
xuhaoyu_cpp_java4 小时前
项目学习(三)代码生成器
java·经验分享·笔记·学习