PPO系列4 - Reward模型训练

流程:

训练Reward模型

训练数据:

相比给每条回答进行打分,人类更容易给出两者的比较结果。这样标注出来的数据,准确性更高。

模型:

可以使用和生成模型能力差不多的模型(或者更强的模型),作为Reward模型。

不能使用太差的模型,因为Reward模型是"老师"的角色,差老师教不出好学生。

但可以使用和生成模型能力差不多的模型。因为:Reward打分任务,比生成任务,难度小很多,更容易做对。例如:我来评判一篇文章《赤兔之死》是否写得好,比自己写出这种水平的文章,要容易很多。

是否能用强化学习无限提升模型能力?答:不行的。大模型的能力主要是在预训练阶段决定下来了,SFT和强化学习,都只是让大模型能力尽量发挥出来。

生成式模型:

如上,生成是N个token的概率。

Reward模型:

如上,输入是(question+chosen)或(question+rejected),生成是1个得分。

因此,Reward模型,只需要把生成式模型的最后一层(LM Head),替换成生成1个得分的层(Score Head),即可。前面的层可复用。

损失函数:

让chosen和分数 - rejected的分数,越大越好。

Reward模型推理2次,1次计算chosen的得分,1次计算rejected的得分。

代码:可用Huggingface的trl库里的RewardTrainer来做训练。

相关推荐
QiZhang | UESTC1 天前
RL4LLM
大模型·强化学习·rl4llm
nju_spy1 天前
动手学强化学习上交张伟楠(一)导论 + 多臂老虎机 MAB(ε-greedy+上置信界+汤普森采样)
人工智能·python·强化学习·actor-critic·多臂老虎机·汤普森采样·探索与利用
程序员Agions2 天前
程序员武学修炼手册(三):融会贯通——从写好代码到架构设计
前端·程序员·强化学习
索木木3 天前
强化学习与思维链
大模型·sft·强化学习·思维链
nju_spy4 天前
RL4LLM_Survey 强化学习在大语言模型后训练综述
人工智能·强化学习·reinforce·ppo·数据异质性·大模型后训练·奖励函数
AI-Frontiers5 天前
小白也能看懂的LLM-RL算法:PPO/DPO/GRPO/GSPO
强化学习·大模型训练
超的小宝贝5 天前
机器学习期末复习
深度学习·机器学习·强化学习
空山新雨后、5 天前
深度学习VS强化学习:预测与决策的本质差异
人工智能·深度学习·强化学习
Tfly__6 天前
Ubuntu20.04安装Genesis(最新)
linux·人工智能·pytorch·ubuntu·github·无人机·强化学习
人工智能培训7 天前
10分钟了解向量数据库(3)
人工智能·大模型·知识图谱·强化学习·智能体搭建