PPO系列4 - Reward模型训练

流程:

训练Reward模型

训练数据:

相比给每条回答进行打分,人类更容易给出两者的比较结果。这样标注出来的数据,准确性更高。

模型:

可以使用和生成模型能力差不多的模型(或者更强的模型),作为Reward模型。

不能使用太差的模型,因为Reward模型是"老师"的角色,差老师教不出好学生。

但可以使用和生成模型能力差不多的模型。因为:Reward打分任务,比生成任务,难度小很多,更容易做对。例如:我来评判一篇文章《赤兔之死》是否写得好,比自己写出这种水平的文章,要容易很多。

是否能用强化学习无限提升模型能力?答:不行的。大模型的能力主要是在预训练阶段决定下来了,SFT和强化学习,都只是让大模型能力尽量发挥出来。

生成式模型:

如上,生成是N个token的概率。

Reward模型:

如上,输入是(question+chosen)或(question+rejected),生成是1个得分。

因此,Reward模型,只需要把生成式模型的最后一层(LM Head),替换成生成1个得分的层(Score Head),即可。前面的层可复用。

损失函数:

让chosen和分数 - rejected的分数,越大越好。

Reward模型推理2次,1次计算chosen的得分,1次计算rejected的得分。

代码:可用Huggingface的trl库里的RewardTrainer来做训练。

相关推荐
智算菩萨13 小时前
强化学习从单代理到多代理系统的理论与算法架构综述
人工智能·算法·强化学习
倔强的石头10619 小时前
多模态生成强化学习框架 DanceGRPO + FLUX 在昇腾 NPU 上的部署与对齐实践
强化学习·昇腾
黑客思维者5 天前
机器学习005:强化学习(概论)--从“训练狗狗”到“打游戏”
人工智能·机器学习·强化学习
赫凯6 天前
【强化学习】第一章 强化学习初探
人工智能·python·强化学习
nju_spy7 天前
深度强化学习 TRPO 置信域策略优化实验(sb3_contrib / 手搓 + CartPole-v1 / Breakout-v5)
人工智能·强化学习·共轭梯度法·策略网络·trpo·sb3_contrib·breakout游戏
徐桑7 天前
【强化学习笔记】从数学推导到电机控制:深入理解 Policy Gradient 与 Sim-to-Real。
机器人·强化学习
加点油。。。。7 天前
【强化学习】——策略梯度方法
人工智能·机器学习·强化学习
kkkkkkkkk_12018 天前
【强化学习】07周博磊强化学习纲要学习笔记——第四课上
学习·强化学习
free-elcmacom8 天前
机器学习高阶教程<2>优化理论实战:BERT用AdamW、强化学习爱SGD
人工智能·python·机器学习·bert·强化学习·大模型训练的优化器选择逻辑
AI-Frontiers9 天前
小白也能看懂的RLHF-PPO:原理篇
强化学习