2.4 Reward 奖励模型训练
在强化学习对齐(RLHF)的过程中,奖励模型(Reward Model, RM)的训练是至关重要的一环。它的好坏直接决定了大模型最终的训练效果 。
2.4.1 核心思想:相对排序优于绝对打分
首先,人类需要对大模型针对同一个问题生成的多个不同答案进行优先级排序
-
为什么不直接打分?因为不同的人对绝对分数的评判标准很难统一,但判断"哪一个回答相对更好"则容易得多 。
-
因此,业界普遍采用相对排序来替代绝对打分,并根据这个排序结果来训练奖励模型 。
2.4.2 模型结构
-
奖励模型的底座通常直接采用第一阶段训练出的 SFT(有监督微调)模型
-
结构上的唯一改变,是将最后一层修改为一个神经元 。
-
这样模型就变成了一个回归模型 ,这个唯一的神经元输出的就是针对该回答的得分。在后续的强化学习阶段中,我们将用这个模型对大模型生成的每个回答进行打分评估 。
2.4.3 核心损失函数 (Loss Function)
奖励模型训练的核心在于它的损失函数设计:
loss=−log(σ(rθ(x,yc)−rθ(x,yr)))loss=-\log(\sigma(r_{\theta}(x,y_{c})-r_{\theta}(x,y_{r})))loss=−log(σ(rθ(x,yc)−rθ(x,yr)))
-
公式中的 ccc 代表 chosen,即排名较高的、被选中的回答 。rrr 代表 reject,即排名较低的、被拒绝的回答 。
-
这个损失函数的最终目的,就是通过优化参数,使得排名靠前的回答 (ycy_cyc)的得分相应地变得比排名靠后的回答 (yry_ryr)更高 。
2.4.4 案例解析:如何进行两两组合博弈?
为了更好地理解,我们来看一个具体的例子:
问题 (Q): 苹果是什么?
A1: 苹果是一种红色水果,可以润肺、解暑、开胃。
A2: 苹果的品种繁多,根据颜色、大小、口感和用途等不同特点,可以分为多个品种。有的苹果品种适合鲜食,口感脆甜;有的适合烹饪,如做苹果派或苹果酱;还有的适合制酒或制醋。此外,美国苹果公司是全球知名的科技公司。
A3: 苹果是水果。
实际训练过程:
-
人工排序: 假设人工标记员给出的打分优先级为:A2 > A1 > A3 。
-
两两组合: 我们将这三个回答进行两两组合,形成比较对:(A2, A1)、(A2, A3)、(A1, A3) 。
-
模型打分与反向传播: 将这些组合对放入模型进行打分,随后根据上述的损失函数对模型进行反向传播更新参数 。
-
最终结果: 经过充分训练后,模型打分的结果将会完美符合人类的偏好,即输出的得分满足:A2的分数 > A1的分数 > A3的分数 。
通过这种不断输入"不同答案优先级顺序"的方式 ,我们就能训练出一个符合人类价值观偏好的奖励模型,以此来替代人工,自动化地对大模型的回答进行质量打分 。
python
print('hello')
