RLHF不够用了，OpenAI设计出了新的奖励机制

机器之心报道

机器之心编辑部

OpenAI 的新奖励机制，让大模型更听话了。

自大模型兴起以来，使用强化学习从人类反馈（RLHF）中微调语言模型一直是确保 AI 准确遵循指令的首选方法。

为了确保 AI 系统安全运行并与人类价值观保持一致，我们需要定义期望行为并收集人类反馈来训练「奖励模型」。这种模型通过发出期望的动作来指导 AI。但是，收集这些常规和重复任务的人类反馈通常效率不高。此外，如果安全政策发生变化，已经收集的反馈可能会过时，需要新的数据。

我们能否构建一种新的机制来完成这些任务？近日，OpenAI 公布了一种教导 AI 模型遵守安全政策的新方法，称为基于规则的奖励（Rule-Based Rewards，RBR）。

相关论文已经放出。

论文标题：Rule Based Rewards for Language Model Safety
论文地址：cdn.openai.com/rule-based-...
代码链接：github.com/openai/safe...

论文作者之一、OpenAI 安全系统负责人 Lilian Weng 表示，「RBR 可以自动执行一些模型微调。传统上，我们依赖于来自人类反馈的强化学习作为默认的对齐训练方法来训练模型，这确实有效。然而在实践中，我们面临的挑战是，我们花了很多时间讨论政策的细节，而到最后，政策可能已经发生了变化。」

RBR 根据一组安全规则提供 RL 信号，使其更容易适应不断变化的安全政策，而无需严重依赖人类数据。此外，借助 RBR，研究者能够以更统一的视角看待安全性和模型能力，因为更强大的分级模型可以提供更高质量的 RL 信号。

OpenAI 表示自 GPT-4 发布以来，他们一直将 RBR 用作安全堆栈的一部分，包括 GPT-4o mini，并计划在未来的模型中实施它。

为什么要提出 RBR？

随着大型语言模型（LLM）功能的增强和普及，确保其安全性和对齐变得越来越重要。最近的许多工作都集中在使用人类偏好数据来调整模型上，例如基于人类反馈的强化学习（RLHF）。

然而，仅使用人类反馈来实现目标安全规范还面临许多挑战。为模型安全性收集和维护人类数据通常既费钱又费时，而且随着模型能力的提高或用户行为的改变，安全准则也会发生变化，这些数据可能会过时。即使要求相对稳定，也很难向注释者传达。安全方面的情况尤其如此，因为所需的模型响应非常复杂，需要对是否响��以及如何响应请求做出细微差别。如果说明不够明确，注释者可能不得不依赖个人偏见，从而导致超出预期的模型行为，如变得过于谨慎，或以不理想的风格（如评判）做出响应。

例如，在 OpenAI 的一次实验中，一些注释者在对用户有关自残请求的可能回复进行排序时，偏向于将用户转到美国自杀热线，而这对美国以外的用户没有帮助。要解决这些问题，往往需要重新标注或收集新数据，这既昂贵又耗时。

为了解决这些问题，使用 AI 反馈的方法最近越来越受欢迎，其中最突出的是宪法 AI（Constitutional AI）。这些方法利用 AI 反馈合成训练数据，与人类数据相结合，用于监督微调（SFT）和奖励模型（RM）训练步骤。不过，在宪法 AI 和其他方法中，「宪法」涉及「选择危害较小的响应」等一般性指导原则，AI 模型有很大的自由裁量权来决定什么是有害的。在现实世界的部署中，我们需要执行更详细的政策，规定应该拒绝哪些提示，以及拒绝的方式是什么。

因此，在这篇论文中，OpenAI 的研究者提出了一种新的 AI 反馈方法 ------RBR，它允许人类详细说明所需的模型响应，类似于给人类注释者的指示。

RBR 的工作原理是怎样的？

实施 RBR 的方法包括定义一组命题 ------ 关于模型响应中期望或不期望方面的简单陈述，例如「带有评判性」、「包含不允许的内容」、「提及安全政策」、「免责声明」等。然后，这些命题被用来形成规则，这些规则被精心设计以捕捉在各种场景中安全和适当响应的细微差别。

例如，在面对不安全请求时，拒绝（如「抱歉，我无法帮你」）是一种期望的模型响应。相关规则将规定，拒绝应「包含简短的道歉」并且「应说明无法遵从」。

研究团队设计了三类期望的模型行为，用于处理有害或敏感的话题。根据安全政策，不同的请求对应不同的模型响应类型。

图中内容由 AI 工具翻译，仅供参考。

以下是一些命题的简化示例，以及它们如何映射理想行为或非理想行为到不同响应类型的。

图中内容由 AI 工具翻译，仅供参考。

研究者在下表中提供了一些在实验中训练模型所完成的示例。

图中内容由 AI 工具翻译，仅供参考。

评估器是一个固定的语言模型，根据响应遵循规则的程度对其进行评分，从而使 RBR 方法能够灵活适应新规则和安全政策。

RBR 使用这些评分来拟合一个线性模型，该模型的权重参数是从一个已知理想响应类型的小数据集，以及对应的期望做法和不期望做法中学习的。

这些 RBR 奖励随后与来自「仅提供帮助」的奖励模型的奖励结合起来，作为 PPO 算法的额外信号，以鼓励模型遵循安全行为策略。

该方法允许研究者对模型的行为进行精细控制，确保其不仅避免有害内容，而且以一种既表示尊重又有帮助的方式进行。

强化学习过程中 RBR 与传统奖励模型的集成。

RBR 好用吗？

实验显示，经过 RBR 训练的模型表现出与经过人类反馈训练的模型相当的安全性能。前者还减少了错误地拒绝安全请求（即过度拒绝）的情况。

此外，RBR 还显著减少了对大量人工数据的需求，使训练过程更快、更具成本效益。

随着模型能力和安全准则的发展，RBR 可以通过修改或添加新规则快速更新，而无需进行大量重新训练。

该图显示了有用性（以模型正确遵循安全提示的百分比来衡量）与安全性（以模型正确拒绝不安全提示的百分比来衡量）之间的权衡。对于这两个指标，值越高越好。右上角标记了有用性和安全性之间的完美平衡。有用性基线不使用安全性 RBR，往往更有用但安全性较低。人类基线是在仅有帮助和人工注释的安全性数据上进行训练的，往往非常安全但有用性较低。借助 RBR，OpenAI 的目标是使模型既安全又有用。

RBR 有哪些局限？

尽管规则基础的系统（RBR）在有明确、直观规则的任务中表现良好，但在更主观的任务中（如撰写高质量的文章），应用 RBR 可能会有些棘手。然而，RBR 可以与人类反馈结合起来，以平衡这些挑战。例如，RBR 可以强制执行特定的准则（如「不要使用俚语」或模型规范中的规则），而人类反馈可以帮助处理更细微的方面（如整体连贯性）。RBR 的强度被优化为既能正确执行安全偏好，又不会过度影响最终的奖励评分 ------ 这样，RLHF 奖励模型仍然可以在如写作风格等方面提供强有力的信号。

伦理考量：将安全检查从人类转移到 AI 上可能会减少对 AI 安全的人工监督，并且如果使用有偏见的模型提供 RBR 奖励，还可能放大潜在的偏见。为了解决这个问题，研究人员应该仔细设计 RBR，以确保其公平和准确，并考虑结合使用 RBR 和人类反馈，以最大限度地减少风险。

OpenAI 表示，RBR 不仅限于安全训练，它们可以适应各种任务，其中明确的规则可以定义所需的行为，例如为特定应用程序定制模型响应的个性或格式。下一步，OpenAI 还计划进行更广泛的消融研究，以更全面地了解不同的 RBR 组件、使用合成数据进行规则开发以及人工评估，以验证 RBR 在包括安全以外的其他领域的各种应用中的有效性。

参考内容：

openai.com/index/impro...