【译】通用奖励建模的推理时扩展：综合概述

引言

大型语言模型 (LLM) 正在彻底改变人工智能 (AI) 应用，通过人类反馈强化学习 (RLHF)，其能力得到了显著增强。RLHF 的核心是奖励建模，即创建能够评估 LLM 生成的响应质量的模型。虽然奖励建模已经取得了显著进展，但大多数现有方法在推理时都难以扩展，从而限制了它们在更多计算资源可用时提供越来越准确的评估的能力。

本文介绍了一种新的奖励建模方法，专门解决推理时可扩展性问题。作者提出了 Self-Principled Critique Tuning (SPCT)，即基于原则自批判的模型微调框架。该方法使生成式奖励模型 (GRM) ------ 一种能够生成文本评价的奖励模型 ------ 能够生成有原则的评估，这些评估可以通过利用额外的计算在推理时进行扩展。如上图所示，他们的方法 (DeepSeek-GRM-27B) 表明，随着收集到更多奖励样本，性能显著提高，优于现有模型。

理解奖励建模方法

奖励建模方法可以根据它们生成奖励的方式分为三个主要范式：

标量奖励模型：直接输出响应的数值分数。
半标量奖励模型：既生成评论，也生成数值分数。
生成式奖励模型 (GRM)：生成文本评论，但不直接输出数值分数。

这些范式可以与两种评分模式结合使用：

逐点评分 ：独立评估单个响应，例如给出一个答案直接打分。
配对评分 ：直接比较两个响应，例如给出两个答案，判断哪个更好。

作者强调，逐点 GRM 具有独特的优势：它们提供可解释的反馈，保持处理不同输入类型的灵活性。更重要的是，它们可以通过采样多个奖励来实现推理时扩展。这种可扩展性使模型能够在有额外的计算资源可用时生成更准确的奖励，而无需重新训练或更大的模型。

基于原则自批判的模型微调

本文的核心创新是 Self-Principled Critique Tuning (SPCT)，即基于原则自批判的模型微调，它训练 GRM 生成遵循原则和评论的结构化格式的评估。SPCT 包含两个关键阶段：

拒绝式微调 (RFT)：此初始阶段将模型引入结构化评估格式。该模型生成原则和评论，然后对其进行过滤以创建训练数据集，剔除低质量的输出。
基于规则的在线强化学习 (RL)：此阶段通过应用基于预定义规则的奖励信号，进一步完善模型生成高质量评估的能力。

SPCT 的一个关键见解是将原则生成视为奖励生成过程的一个组成部分 ，而非预处理步骤。例如，传统方法可能预先设定一些评价原则，而 SPCT 则允许模型根据不同的问题和答案，动态地生成相应的评价原则。这使得模型能够根据正在评估的特定查询和响应自适应地生成原则，从而使奖励模型更具灵活性和通用性。

在推理期间，GRM 可以通过以下方式进行扩展：

采样多个独立的评估
聚合这些评估（通过投票或更复杂的方法）
使用元奖励模型（即Meta RM）进一步提高聚合质量

推理时扩展策略

本文探讨了以下几种在推理时扩展奖励模型的策略：

并行采样：为同一查询-响应对生成多个独立的评估。
投票：一种简单的聚合方法，对多个评估进行多数投票。
元奖励模型 (Meta RM)：一种更复杂的方法，它使用分类器来确定哪些评估更可靠。

作者发现，推理时扩展实际上可以优于训练时扩展（增加模型大小）。如上图所示，具有推理时扩展的 27B 参数模型可以实现比使用强化学习优化的大规模模型更优异的性能。

这一发现挑战了传统的观点，即增加模型大小是提高性能的唯一有效方法。因此，在推理时更有效地利用计算资源，可以在保持模型效率的同时，获得更优异的性能。

实验结果

作者进行了大量的实验来评估其方法：

基准性能：DeepSeek-GRM 模型在 AlpacaEval、MT-Bench 和专有的奖励建模基准 (RMB) 等多个基准上进行了测试。结果表明，具有推理时扩展的 DeepSeek-GRM 优于当前最先进的奖励模型。

扩展效率：27B 参数模型显示，随着样本数量的增加（从 1 到 32），性能持续提高，尤其是在使用 Meta RM 进行聚合时。

泛化能力：这些模型在各种任务中表现出强大的性能，包括聊天评估、安全评估和推理问题。
训练效率：SPCT 训练所需的计算量明显少于完整的强化学习方法，同时保持了可比的性能。

实验证实，推理时扩展提供了一种实用且有效的方法来提高奖励模型质量，它避免了训练更大模型或使用昂贵强化学习带来的计算负担。

模型训练过程

作者详细介绍了用于开发其通用奖励模型的训练过程：

基本模型准备：从预训练的语言模型 (DeepSeek-V3) 开始。
拒绝式微调：训练模型以生成具有原则和评论的结构化评估。
基于规则的 RL：通过基于规则的奖励进行在线学习，进一步完善模型。
Meta RM 训练：开发分类器以改进多个评估的聚合。

该流程能够开发可以在推理时有效利用额外计算的奖励模型。通过集成监督学习 (RFT) 和强化学习，模型学习生成可以通过采样扩展的高质量评估。

优于现有方法的优势

DeepSeek-GRM 方法相比于传统的奖励建模方法，具有以下主要优势：

可解释性：与黑盒标量模型不同，GRM 通过原则和评论为其评估提供详细的解释。例如，模型不仅会给出分数，还会说明给出该分数的理由，类似于老师批改作业时会写评语。
灵活性：逐点评估方法可以处理各种输入格式（单个响应、成对响应或多个响应）。
可扩展性：该模型可以在推理时使用额外的计算资源来提高性能，而无需重新训练。
通用性：通过自适应地生成原则，该模型可以评估跨不同领域和任务的响应。
效率：与训练更大的模型相比，推理时扩展提供了一种更具成本效益的方法来提高性能。

实验结果表明，这些优势转化为实际利益，DeepSeek-GRM 模型在使用推理时扩展时优于现有的奖励模型。

局限性和失败模式

尽管具有优势，作者也指出了该方法的局限性和潜在失败模式：

不正确的评论：GRM 有时可能会生成不正确或不一致的评论，尤其是对于复杂的推理任务。

不平衡的权重：该模型可能会为不同的原则分配不适当的权重，从而导致评估偏差。
不适当的原则：对于某些查询，该模型可能会生成不相关或不适当的原则。
与基本事实相矛盾：在可验证的任务中，模型的评估可能与事实知识相冲突。

这些局限性为未来的改进提出了方向，例如引入知识图谱来增强模型验证事实信息的能力，并通过增加约束条件来提高其评估的一致性。

结论和未来方向

本文展示了大型语言模型奖励建模方面的重大进展，具体体现在引入了 Self-Principled Critique Tuning 并展示了推理时扩展的有效性。该方法能够更有效地利用计算资源，并提供了一种改进奖励模型的方法，而无需越来越大的模型或昂贵的强化学习。

作者确定的未来研究方向包括：

与在线 RL 集成：直接在强化学习流程中使用 GRM。
与策略模型共同扩展：探索策略模型和奖励模型的推理时扩展如何产生协同改进。
稳健性和偏差缓解：解决已识别的失败模式，以创建更可靠的奖励模型。
离线评估：利用 GRM 作为基础模型的稳健评估器。

这项工作代表了奖励建模思维方式的范式转变，强调了在推理时如何使用计算资源可能与模型大小或训练方法同等重要。这种洞察力对未来开发更高效和有效的大型语言模型具有广泛的影响。