PPO系列4 - Reward模型训练

流程:

训练Reward模型

训练数据:

相比给每条回答进行打分,人类更容易给出两者的比较结果。这样标注出来的数据,准确性更高。

模型:

可以使用和生成模型能力差不多的模型(或者更强的模型),作为Reward模型。

不能使用太差的模型,因为Reward模型是"老师"的角色,差老师教不出好学生。

但可以使用和生成模型能力差不多的模型。因为:Reward打分任务,比生成任务,难度小很多,更容易做对。例如:我来评判一篇文章《赤兔之死》是否写得好,比自己写出这种水平的文章,要容易很多。

是否能用强化学习无限提升模型能力?答:不行的。大模型的能力主要是在预训练阶段决定下来了,SFT和强化学习,都只是让大模型能力尽量发挥出来。

生成式模型:

如上,生成是N个token的概率。

Reward模型:

如上,输入是(question+chosen)或(question+rejected),生成是1个得分。

因此,Reward模型,只需要把生成式模型的最后一层(LM Head),替换成生成1个得分的层(Score Head),即可。前面的层可复用。

损失函数:

让chosen和分数 - rejected的分数,越大越好。

Reward模型推理2次,1次计算chosen的得分,1次计算rejected的得分。

代码:可用Huggingface的trl库里的RewardTrainer来做训练。

相关推荐
山顶夕景3 天前
【RLVR】GRPO中奖励函数的设计逻辑
llm·强化学习·rl·奖励函数·reward
JJJJ_iii6 天前
【机器学习16】连续状态空间、深度Q网络DQN、经验回放、探索与利用
人工智能·笔记·python·机器学习·强化学习
CoovallyAIHub7 天前
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
深度学习·计算机视觉·强化学习
盼小辉丶8 天前
优势演员-评论家(Advantage Actor-Critic,A2C)算法详解与实现
深度学习·keras·强化学习
AI-Frontiers8 天前
收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 + 7个免费视频,一站式搞定
强化学习
山顶夕景9 天前
【RL】Scaling RL Compute for LLMs
深度学习·大模型·强化学习
九年义务漏网鲨鱼11 天前
【Agentic RL 专题】二、Agentic RL——Memory
人工智能·大模型·强化学习·记忆模块
盼小辉丶12 天前
Double DQN(DDQN)详解与实现
深度学习·keras·强化学习
沉迷单车的追风少年13 天前
Diffusion Model与视频超分(2):解读字节开源视频增强模型SeedVR2
人工智能·深度学习·aigc·音视频·强化学习·视频生成·视频超分
信鑫13 天前
AIO Sandbox:为 AI Agent 打造的一体化、可定制的沙箱环境
llm·agent·强化学习