大模型入门-Reward 奖励模型训练

2.4 Reward 奖励模型训练

强化学习对齐(RLHF)的过程中,奖励模型(Reward Model, RM)的训练是至关重要的一环。它的好坏直接决定了大模型最终的训练效果

2.4.1 核心思想:相对排序优于绝对打分

首先,人类需要对大模型针对同一个问题生成的多个不同答案进行优先级排序

  • 为什么不直接打分?因为不同的人对绝对分数的评判标准很难统一,但判断"哪一个回答相对更好"则容易得多 。

  • 因此,业界普遍采用相对排序来替代绝对打分,并根据这个排序结果来训练奖励模型

2.4.2 模型结构

  • 奖励模型的底座通常直接采用第一阶段训练出的 SFT(有监督微调)模型

  • 结构上的唯一改变,是将最后一层修改为一个神经元 。

  • 这样模型就变成了一个回归模型这个唯一的神经元输出的就是针对该回答的得分。在后续的强化学习阶段中,我们将用这个模型对大模型生成的每个回答进行打分评估 。

2.4.3 核心损失函数 (Loss Function)

奖励模型训练的核心在于它的损失函数设计

loss=−log⁡(σ(rθ(x,yc)−rθ(x,yr)))loss=-\log(\sigma(r_{\theta}(x,y_{c})-r_{\theta}(x,y_{r})))loss=−log(σ(rθ(x,yc)−rθ(x,yr)))

  • 公式中的 ccc 代表 chosen,即排名较高的、被选中的回答 。rrr 代表 reject,即排名较低的、被拒绝的回答 。

  • 这个损失函数的最终目的,就是通过优化参数,使得排名靠前的回答 (ycy_cyc)的得分相应地变得比排名靠后的回答 (yry_ryr)更高 。

2.4.4 案例解析:如何进行两两组合博弈?

为了更好地理解,我们来看一个具体的例子:

问题 (Q): 苹果是什么?

A1: 苹果是一种红色水果,可以润肺、解暑、开胃。

A2: 苹果的品种繁多,根据颜色、大小、口感和用途等不同特点,可以分为多个品种。有的苹果品种适合鲜食,口感脆甜;有的适合烹饪,如做苹果派或苹果酱;还有的适合制酒或制醋。此外,美国苹果公司是全球知名的科技公司。

A3: 苹果是水果。

实际训练过程:

  1. 人工排序: 假设人工标记员给出的打分优先级为:A2 > A1 > A3 。

  2. 两两组合: 我们将这三个回答进行两两组合,形成比较对:(A2, A1)、(A2, A3)、(A1, A3) 。

  3. 模型打分与反向传播: 将这些组合对放入模型进行打分,随后根据上述的损失函数对模型进行反向传播更新参数

  4. 最终结果: 经过充分训练后,模型打分的结果将会完美符合人类的偏好,即输出的得分满足:A2的分数 > A1的分数 > A3的分数

通过这种不断输入"不同答案优先级顺序"的方式 ,我们就能训练出一个符合人类价值观偏好的奖励模型,以此来替代人工,自动化地对大模型的回答进行质量打分

python 复制代码
print('hello')
相关推荐
用户8356290780514 小时前
Python 实现 PDF 文件加密与解密方法
后端·python
用户8356290780514 小时前
使用 Python 冻结与拆分 Excel 窗格教程
后端·python
vibecoding日记6 小时前
双非如何快速入职字节等大厂大模型?真实案例分析:推理优化和投机解码
算法·求职·大模型工程师
yszaygr21388 小时前
Verilog参数化游程编码RLE模块
算法
望易8 小时前
刚设计的大模型架构-双域耦合认知框架
算法·架构
复杂网络12 小时前
多个 Claude Code 与多个 Codex 协同工作:设计与实现方案
算法
你好潘先生12 小时前
别再记命令了,用 yeero do 说句人话就能跑脚本,而且不烧 token
服务器·python·命令行
Agent_大师13 小时前
WebSocket 行情重连成功,K线缺口不会自动消失
python
荣码13 小时前
LLM结构化输出:让AI返回JSON而不是废话,我踩了4个坑
java·python