PPO系列4 - Reward模型训练

流程:

训练Reward模型

训练数据:

相比给每条回答进行打分,人类更容易给出两者的比较结果。这样标注出来的数据,准确性更高。

模型:

可以使用和生成模型能力差不多的模型(或者更强的模型),作为Reward模型。

不能使用太差的模型,因为Reward模型是"老师"的角色,差老师教不出好学生。

但可以使用和生成模型能力差不多的模型。因为:Reward打分任务,比生成任务,难度小很多,更容易做对。例如:我来评判一篇文章《赤兔之死》是否写得好,比自己写出这种水平的文章,要容易很多。

是否能用强化学习无限提升模型能力?答:不行的。大模型的能力主要是在预训练阶段决定下来了,SFT和强化学习,都只是让大模型能力尽量发挥出来。

生成式模型:

如上,生成是N个token的概率。

Reward模型:

如上,输入是(question+chosen)或(question+rejected),生成是1个得分。

因此,Reward模型,只需要把生成式模型的最后一层(LM Head),替换成生成1个得分的层(Score Head),即可。前面的层可复用。

损失函数:

让chosen和分数 - rejected的分数,越大越好。

Reward模型推理2次,1次计算chosen的得分,1次计算rejected的得分。

代码:可用Huggingface的trl库里的RewardTrainer来做训练。

相关推荐
碣石潇湘无限路7 小时前
【AI】基于生活案例的LLM强化学习(入门帖)
人工智能·经验分享·笔记·生活·openai·强化学习
人类发明了工具19 小时前
【强化学习】强化学习算法 - 多臂老虎机问题
机器学习·强化学习·多臂老虎机
我爱C编程2 天前
基于Qlearning强化学习的电梯群控系统高效调度策略matlab仿真
matlab·强化学习·qlearning·电梯群控
Scc_hy8 天前
强化学习_Paper_2017_Curiosity-driven Exploration by Self-supervised Prediction
人工智能·python·深度学习·强化学习
cloudy49113 天前
强化学习:历史基金净产值,学习最大化长期收益
python·强化学习
胡攀峰13 天前
第12章 微调生成模型
人工智能·大模型·llm·sft·强化学习·rlhf·指令微调
豆芽81913 天前
强化学习(Reinforcement Learning, RL)和深度学习(Deep Learning, DL)
人工智能·深度学习·机器学习·强化学习
qq_4313313515 天前
Unity ML-Agents + VScode 环境搭建 Windows
windows·vscode·unity·强化学习
IceTeapoy15 天前
【RL】强化学习入门(二):Q-Learning算法
人工智能·算法·强化学习
MocapLeader17 天前
新型多机器人协作运输系统,轻松应对复杂路面
机器人·ros·强化学习·多机器人协同·协同搬运