PPO系列4 - Reward模型训练

流程:

训练Reward模型

训练数据:

相比给每条回答进行打分,人类更容易给出两者的比较结果。这样标注出来的数据,准确性更高。

模型:

可以使用和生成模型能力差不多的模型(或者更强的模型),作为Reward模型。

不能使用太差的模型,因为Reward模型是"老师"的角色,差老师教不出好学生。

但可以使用和生成模型能力差不多的模型。因为:Reward打分任务,比生成任务,难度小很多,更容易做对。例如:我来评判一篇文章《赤兔之死》是否写得好,比自己写出这种水平的文章,要容易很多。

是否能用强化学习无限提升模型能力?答:不行的。大模型的能力主要是在预训练阶段决定下来了,SFT和强化学习,都只是让大模型能力尽量发挥出来。

生成式模型:

如上,生成是N个token的概率。

Reward模型:

如上,输入是(question+chosen)或(question+rejected),生成是1个得分。

因此,Reward模型,只需要把生成式模型的最后一层(LM Head),替换成生成1个得分的层(Score Head),即可。前面的层可复用。

损失函数:

让chosen和分数 - rejected的分数,越大越好。

Reward模型推理2次,1次计算chosen的得分,1次计算rejected的得分。

代码:可用Huggingface的trl库里的RewardTrainer来做训练。

相关推荐
L.fountain8 小时前
强化学习2.2 MDP实践——Frozen lake
人工智能·强化学习
神州问学1 天前
最高推理效率提升100%+|让满血DeepSeekV3.1在L40S上大展身手
强化学习
Scc_hy2 天前
强化学习_Paper_2000_Eligibility Traces for Off-Policy Policy Evaluation
人工智能·深度学习·算法·强化学习·rl
山顶夕景3 天前
【RL】DAPO的后续:VAPO算法
大模型·强化学习·dapo·vapo
i.ajls4 天前
强化学习入门-1-CartPole-v1(DQN)
机器学习·强化学习·dqn
HyperAI超神经5 天前
AI预判等离子体「暴走」,MIT等基于机器学习实现小样本下的等离子体动力学高精度预测
人工智能·神经网络·机器学习·ai·强化学习·可控核聚变·托卡马克
赋范大模型技术圈5 天前
11G显存DPO强化学习微调实战
人工智能·强化学习
i.ajls5 天前
强化学习入门-2(Dueling DQN)
人工智能·机器学习·强化学习·dqn
喜欢吃豆6 天前
一份关于语言模型对齐的技术论述:从基于PPO的RLHF到直接偏好优化
人工智能·语言模型·自然语言处理·大模型·强化学习
孤狼灬笑6 天前
机器学习四范式(有监督、无监督、强化学习、半监督学习)
人工智能·强化学习·无监督学习·半监督学习·有监督学习