大模型入门-Reward 奖励模型训练

2.4 Reward 奖励模型训练

在强化学习对齐（RLHF）的过程中，奖励模型（Reward Model, RM）的训练是至关重要的一环。它的好坏直接决定了大模型最终的训练效果 。

首先，人类需要对大模型针对同一个问题生成的多个不同答案进行优先级排序

奖励模型的底座通常直接采用第一阶段训练出的 SFT（有监督微调）模型
结构上的唯一改变，是将最后一层修改为一个神经元。
这样模型就变成了一个回归模型 ，这个唯一的神经元输出的就是针对该回答的得分。在后续的强化学习阶段中，我们将用这个模型对大模型生成的每个回答进行打分评估。

奖励模型训练的核心在于它的损失函数设计：

loss=−log⁡(σ(rθ(x,yc)−rθ(x,yr)))loss=-\log(\sigma(r_{\theta}(x,y_{c})-r_{\theta}(x,y_{r})))loss=−log(σ(rθ(x,yc)−rθ(x,yr)))

公式中的 ccc 代表 chosen，即排名较高的、被选中的回答 。rrr 代表 reject，即排名较低的、被拒绝的回答。
这个损失函数的最终目的，就是通过优化参数，使得排名靠前的回答 （ycy_cyc）的得分相应地变得比排名靠后的回答 （yry_ryr）更高。

为了更好地理解，我们来看一个具体的例子：

问题 (Q): 苹果是什么？

A1: 苹果是一种红色水果，可以润肺、解暑、开胃。

A2: 苹果的品种繁多，根据颜色、大小、口感和用途等不同特点，可以分为多个品种。有的苹果品种适合鲜食，口感脆甜；有的适合烹饪，如做苹果派或苹果酱；还有的适合制酒或制醋。此外，美国苹果公司是全球知名的科技公司。

A3: 苹果是水果。

实际训练过程：

通过这种不断输入"不同答案优先级顺序"的方式 ，我们就能训练出一个符合人类价值观偏好的奖励模型，以此来替代人工，自动化地对大模型的回答进行质量打分 。

python 复制代码

print('hello')