大模型微调(四):人类反馈强化学习(RLHF)

RLHF 是一种特殊的强化学习,它使用与经典强化学习相同的数学框架,但核心却截然不同。

让我们先从"奖励"的区别说起。

在普通的强化学习中:智能体与环境交互。每一步,它都会执行一个动作 a_t,获得一个奖励 r_t,并更新其策略以最大化预期的未来奖励。奖励信号内置于环境中,例如,游戏得分、机器人与目标的距离,或明确的成功/失败衡量标准。

\max_\pi \; \mathbb{E}_\pi\left[\sum_t \gamma^t r_t\right]

在基于人类反馈的强化学习 (RLHF) 中:没有自然的奖励函数,模型不会玩游戏或赢得积分。相反,人类会提供偏好反馈。假设给定两个响应:响应 A 和 响应 B。人类会标记哪个响应感觉更好:更有帮助、更无害或更诚实。

通过这些比较,一个奖励模型 R_\phi(x, y) 被训练来预测人类的偏好。然后,大模型的"策略",也就是模型生成响应的方式会被优化,以最大化这个学习到的奖励函数,而不是外部的奖励函数。

微调仍然使用强化学习算法,通常是 PPO(近端策略优化,需要奖励模型,代价比较高)或是 DRPO(直接策略优化,快速经济的方案), 来更新模型的权重。PPO优化目标为:

\max_\theta \; \mathbb{E}{y \sim \pi_\theta}[R_\phi(x, y)]

但在这里,R_\phi 代表的是人类的价值观,而不是世界上的客观数字。

相关推荐
老蒋新思维15 小时前
知识IP的长期主义:当AI成为跨越增长曲线的“第二曲线引擎”|创客匠人
大数据·人工智能·tcp/ip·机器学习·创始人ip·创客匠人·知识变现
Coding茶水间16 小时前
基于深度学习的水面垃圾检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
沐风听雨_A16 小时前
有人串口转Wifi模块配置笔记
笔记
这是你的玩具车吗17 小时前
能和爸妈讲明白的大模型原理
前端·人工智能·机器学习
小智RE0-走在路上18 小时前
Python学习笔记(11) --数据可视化
笔记·python·学习
老歌老听老掉牙18 小时前
符号计算中的表达式等价性验证:数学等价性与计算简化策略分析
python·数学建模·sympy
么么...20 小时前
在 Ubuntu 上安装 Docker 并部署 MySQL 容器
linux·运维·经验分享·笔记·mysql·ubuntu·docker
Salt_072820 小时前
DAY44 简单 CNN
python·深度学习·神经网络·算法·机器学习·计算机视觉·cnn
Yeats_Liao20 小时前
MindSpore开发之路(十):构建卷积神经网络(CNN):核心层详解
人工智能·神经网络·cnn
Asus.Blogs20 小时前
SSE + Resty + Goroutine + Channel 完整学习笔记
笔记·学习·golang