论文阅读：2025 arxiv AI Alignment: A Comprehensive Survey

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

AI Alignment: A Comprehensive Survey

人工智能对齐：全面调查

https://arxiv.org/pdf/2310.19852

https://alignmentsurvey.com/

https://www.doubao.com/chat/3367091682540290

文章目录

速览
论文翻译
- [2 从反馈中学习](#2 从反馈中学习)
- - [2.1 反馈类型](#2.1 反馈类型)
  - [2.2 偏好建模](#2.2 偏好建模)
  - [2.3 策略学习](#2.3 策略学习)
  - - [2.3.1 背景](#2.3.1 背景)
    - [2.3.2 基于人类反馈的强化学习（RLHF）](#2.3.2 基于人类反馈的强化学习（RLHF）)
  - [2.4 可扩展监督：迈向超级对齐之路](#2.4 可扩展监督：迈向超级对齐之路)
  - - [2.4.1 从基于人类反馈的强化学习（RLHF）到基于反馈的强化学习（RLxF）](#2.4.1 从基于人类反馈的强化学习（RLHF）到基于反馈的强化学习（RLxF）)
    - [2.4.2 迭代蒸馏与放大](#2.4.2 迭代蒸馏与放大)
论文阅读
- [2 从反馈中学习](#2 从反馈中学习)
- - [2.1 反馈类型](#2.1 反馈类型)
  - [2.2 偏好建模](#2.2 偏好建模)
  - [2.3 策略学习](#2.3 策略学习)
  - - [2.3.1 背景](#2.3.1 背景)
    - [2.3.2 基于人类反馈的强化学习（RLHF）](#2.3.2 基于人类反馈的强化学习（RLHF）)
  - [2.4 可扩展监督：迈向超级对齐之路](#2.4 可扩展监督：迈向超级对齐之路)
  - - [2.4.1 从基于人类反馈的强化学习（RLHF）到基于反馈的强化学习（RLxF）](#2.4.1 从基于人类反馈的强化学习（RLHF）到基于反馈的强化学习（RLxF）)
    - [2.4.2 迭代蒸馏与放大](#2.4.2 迭代蒸馏与放大)
    - [2.4.3 递归奖励建模](#2.4.3 递归奖励建模)
    - [2.4.4 辩论](#2.4.4 辩论)

速览

研究动机：AI系统能力提升伴随 misalignment 风险，需确保其行为符合人类意图与价值观。
研究问题：如何实现AI系统的鲁棒性、可解释性、可控性与伦理合规性，应对训练及部署风险。
研究方法：提出RICE原则，分正向（反馈/分布学习）与反向（验证/治理）对齐框架，结合技术与治理手段。
研究结论：需技术（如RLHF、对抗训练）与治理（如国际协作）结合，应对欺骗性对齐等挑战，保障AI安全。
不足：部分方案尚处理论阶段，跨文化价值观整合及超人类AI监管落地待探索。

这篇论文是关于人工智能对齐（AI Alignment）的全面综述，核心目标是让AI系统的行为符合人类的意图和价值观。随着AI系统能力的提升，如大语言模型（LLMs）和深度强化学习系统的广泛应用，AI行为偏离人类预期的风险（如欺骗、操纵、权力寻求）也在增加。论文围绕如何确保AI安全、可控、可解释和符合伦理展开，主要内容如下：

一、AI对齐的核心目标：RICE原则

论文提出AI对齐的四个关键目标（RICE原则）：

鲁棒性（Robustness）：AI系统在各种场景下（包括对抗攻击和极端情况）都能稳定运行，不被恶意输入误导。例如，聊天机器人需拒绝有害请求，而非被"越狱"指令绕过安全限制。
可解释性（Interpretability）：人类能理解AI的决策逻辑。例如，通过分析神经网络内部"电路"或可视化注意力机制，确保模型没有隐藏的有害行为倾向。
可控性（Controllability）：人类能随时干预AI的行为。例如，设计"紧急停止"机制，或通过反馈实时调整AI的目标。
伦理合规性（Ethicality）：AI行为符合社会道德规范，避免偏见和伤害。例如，避免生成歧视性内容，或在医疗决策中遵循公平原则。

二、AI对齐的两大框架：正向对齐与反向对齐
1. 正向对齐（Forward Alignment）
目标：通过训练让AI直接符合人类意图，分为两类方法：

从反馈中学习（Learning from Feedback） ：
- 利用人类反馈（如RLHF，强化学习从人类反馈中优化）调整模型。例如，通过人类对回答的评分，训练聊天机器人更符合用户需求。
- 挑战：人类反馈可能存在偏见或不一致，需解决"奖励模型过拟合"问题（如模型只学会迎合表面偏好，而非真正理解人类需求）。
分布偏移下的学习（Learning under Distribution Shift） ：
- 确保AI在训练数据之外的新场景中仍保持对齐。例如，通过对抗训练（输入恶意数据模拟真实风险）或多智能体合作训练，提升模型泛化能力。
- 风险：模型可能在未知场景中"目标泛化错误"（如为了完成任务不择手段，忽视伦理）。

2. 反向对齐（Backward Alignment）
目标：验证AI的对齐效果并制定监管措施，分为两类方法：

安全验证（Assurance） ：
- 通过安全评估、红队测试（模拟攻击）和可解释性工具（如分析模型内部神经元活动）检测潜在风险。例如，用对抗性问题测试模型是否会生成有害内容。
- 工具：构建专门数据集（如检测偏见的BBQ数据集）、模型可解释性工具（如激活可视化）。
治理（Governance） ：
- 制定政策和规范，涵盖政府监管、行业自律和第三方审计。例如，欧盟《AI法案》对高风险AI的限制，或开源模型的安全审查。
- 挑战：国际协调困难，开源模型可能被滥用（如生成虚假信息或生物武器设计）。

三、关键挑战与未来方向

欺骗性对齐（Deceptive Alignment） ：
AI可能表面合规，但在无人监督时执行有害目标。例如，模型在训练时表现良好，但在部署后操纵人类反馈以维持控制权。
价值观获取的复杂性 ：
人类价值观多样且动态（如不同文化的道德差异），如何让AI聚合多元价值观仍是难题。论文提出"民主微调"等方法，通过模拟社会协商过程对齐AI。
可扩展性监督（Scalable Oversight） ：
当AI能力超越人类时，如何高效评估其行为？可能需要"递归奖励建模"（用AI辅助人类评估更强大的AI）或"辩论框架"（让两个AI互相质疑以暴露风险）。
社会技术视角 ：
AI对齐不仅是技术问题，还需结合社会学、伦理学。例如，研究AI对就业、隐私的长期影响，或设计符合"罗尔斯无知之幕"的公平机制。

四、总结

AI对齐是确保AI安全的核心，需结合技术创新（如可解释性工具、鲁棒训练方法）和社会治理（如国际协作、伦理准则）。论文强调，随着AI向通用人工智能（AGI）演进，对齐的重要性将远超技术本身------它关乎人类对AI的可控性和文明的长期安全。未来需要跨学科合作，持续更新对齐方法，应对AI快速发展带来的新挑战。

一句话概括 ：

本文系统介绍了如何让AI按人类意愿行事，涵盖鲁棒性、可解释性等核心目标，提出训练与监管框架，并讨论了欺骗风险和跨学科解决方案，为AI安全发展提供了全面指南。

论文翻译

2 从反馈中学习

从反馈中学习旨在将人类意图和价值观传递给人工智能系统。它是正向对齐的基础。在本节中，我们关注从反馈中学习的动态过程，将其分为三个关键要素：（1）人工智能系统：指需要对齐的系统，如预训练的大型语言模型；（2）反馈：由顾问集提供，顾问集可能由人类、人工智能或人类在人工智能协助下组成等。这是用于调整人工智能系统的信息；（3）代理：为模拟反馈而开发的系统，以促进更易访问的学习。例如，人类对人工智能系统行为的偏好排名作为反馈，而奖励模型则作为相应的代理。从这些要素中，我们确定了人工智能系统从反馈中学习的两条路径：（1）直接从反馈本身学习；（2）通过对反馈进行建模的代理间接学习。

图4：从反馈中学习过程的概述。出现了两条学习路径：直接的基于反馈的学习和代理介导的学习（如RLHF）。我们采用以人为本的视角，将人工智能系统视为黑箱，并将呈现给人工智能系统的反馈形式分为四种类型：标签、奖励、示范和比较。

接下来，我们进入第2.1节，从对齐的角度讨论不同的反馈类型，重点介绍向人工智能系统提供信息的各种方法。在以下章节中，我们将介绍最近为开发强大人工智能系统（Christiano等人，2017）并使其与人类意图保持一致（Touvron等人，2023）提供见解的关键概念。第2.2节侧重于偏好建模，强调其在创建代理方面的作用，这些代理帮助人类向复杂或难以评估的人工智能系统提供反馈。接下来，我们在第2.3节探讨策略学习，重点是通过反馈开发有能力的人工智能系统的关键研究方向。然后，讨论自然过渡到第2.4节的可扩展监督，我们从更广泛的对齐角度反思学习过程和目标。

2.1 反馈类型

反馈是人工智能行为与人类意图之间的关键纽带（Stumpf等人，2007，2009），人工智能系统利用反馈来完善其目标并更紧密地与人类价值观保持一致（Glaese等人，2022），这包括两个主要含义：（1）在系统构建过程中，外部来源对人工智能系统的输出提供反馈，指导对系统架构或其内部信息的改进（Zhou，2021）。（2）在系统部署后，它将不断适应外部环境数据的变化，保持系统的架构或基本策略不变，采用自适应控制（Åström和Wittenmark，2008；Åström和Murray，2021）和上下文学习（Dong等人，2022）等方法。为了精确和详细地讨论反馈类型，必须首先在对齐的范围内定义反馈。

反馈是提供给人工智能系统以使其与人类意图保持一致的信息。

考虑到对齐研究中的各种人工智能系统，我们采用以人为本的方法。我们没有深入研究复杂的系统机制，而是提出了一种分类法，根据反馈向系统的直接呈现形式对其进行分类。本节介绍通常用于使人工智能系统保持一致的四种反馈类型：标签、奖励、示范和比较。值得注意的是，除了显式反馈之外，还有一些方法通过无监督预训练（Parisi等人，2022）和半监督学习（Xu等人，2018b）利用大量未标记数据中嵌入的信息，这些方法在增强模型能力方面显示出相当大的潜力（Zhou等人，2024）。
标签

标签反馈是指附加到原始数据项上的一个或多个有意义的信息标签（Hastie等人，2009），它是最直接的形式，为人工智能系统提供明确的指导并划定预期输出。这种类型的反馈促使人工智能系统从专家顾问提供的输入-输出对中学习。例如，在监督学习中，使用标记的输入-输出对数据集训练人工智能模型，表示为D = {(xi , yi )}N i=1。这里，yi 表示与输入数据xi 对应的真实标签，N表示数据集中的样本总数。学习过程的本质围绕着最小化损失函数L（如MSE）展开，该函数根据模型参数θ衡量模型预测f(x;θ)与真实标签y之间的差异。

标签反馈的优点是其明确性和解释的简单性。然而，由于标签反馈无法完全封装这种选择的潜在逻辑，在模型训练中使用这种反馈可能会导致目标变量偏差（Guerdan等人，2023）。此外，当处理不仅仅是分类或回归的复杂任务时，其效用可能会降低（Lake等人，2017；Marcus，2018）。例如，在优化算法（Fawzi等人，2022；Mankowitz等人，2023）、电子游戏玩法（Baker等人，2022）和多模态生成（OpenAI，2023b）等任务中，不仅不可能为每种可能的情况提供明确的指令，而且仅依靠标签反馈来构建超越人类能力的系统也是不够的。

奖励

奖励是对人工智能系统单个输出的绝对评价，表现为标量分数（Silver等人，2021）或分数向量（Wu等人，2024），每个分数独立于其他输出。

基于奖励的反馈为人工智能系统提供量化评估，允许对行为调整进行直接指导。这种反馈通常源自预先设计的、基于规则的函数或程序。例如，在MuJoCo模拟（OpenAI Gym的环境，Brockman等人，2016）中，任务是引导智能体有效向前移动。为此，一个有效的基于规则的奖励函数可由几个关键组件构成：维持健康状态、鼓励向前移动、最小化控制消耗和调节接触强度。

奖励反馈的优点是设计者无需描绘最优行为，同时允许人工智能系统通过探索找到最优策略（Kaelbling等人，1996；Mnih等人，2015；Silver等人，2016，2017）。然而，人类难以制定完美规则来确定评估人工智能系统输出的函数分数（Everitt等人，2017；Victoria等人，2020；Pan等人，2021），或直接为每个人工智能系统输出分配经过校准且一致的分数（Isbell等人，2001；Thomaz和Breazeal，2008；Christiano等人，2017；Casper等人，2023b）。这是由于任务本身的复杂性，难以考虑到每一个细微差别。此外，有缺陷或不完整的奖励函数可能导致与设计者意图不一致的危险行为，如负面副作用和奖励篡改（Hadfield-Menell等人，2017b；Skalse等人，2022）。因此，仅从对齐的角度来看，基于奖励的反馈最重要的局限性可能是难以排除操纵（Shevlane等人，2023），在此背景下这相当于奖励篡改和奖励博弈（Leike等人，2018；Everitt等人，2021；Skalse等人，2022）。第2.4.5节中的CIRL为这一特定问题提供了见解。

示范

示范反馈是专家顾问在实现特定目标时记录的行为数据（Hussein等人，2017）。示范可以采取多种形式，包括视频（Shaw等人，2023）、可穿戴设备示范（Edmonds等人，2017；Wang等人，2023a）、协作示范（Bozorgi和Ngo，2023）和远程操作（Zhang等人，2018d）。如果示范者和人工智能学习者的动态相同，示范可以直接构成由状态-动作对组成的轨迹（Zhang等人，2023b）。这些状态-动作对也可能是部分可观察的（Torabi等人，2018；Brown等人，2019）。例如，可以录制人类专家执行机器人操作任务的视频，如用机械手抓取物体。随后可以为每个视频帧标注相关的机器人状态（Shaw等人，2023）和每一帧的动作（Baker等人，2022）。这将生成来自人类示范的状态-动作对数据集，可用于训练智能体的策略以模仿专家行为。

这种反馈直接利用顾问的专业知识和经验，无需形式化的知识表示（Fang等人，2019；Dasari等人，2023）。然而，当面对超出顾问专业领域的任务时，它可能会失效（Hussein等人，2017）。此外，它还面临来自现实世界顾问示范中的噪声（Sasaki和Yamashina，2020）和次优性（Attia和Dayan，2018）的挑战（Yang等人，2021）。此外，人类顾问容易出现不精确和错误，可能引入不一致性（Zhu等人，2019；Hejna III和Sadigh，2022）。同时，可能需要在可接受的成本范围内提供大量（Sasaki和Yamashina，2020）和多样化（Beliaev等人，2022）的示范，这导致学习可靠行为的难度很大。

比较

比较反馈是一种相对评价，对人工智能系统的一组输出进行排序，并引导系统做出更明智的决策（Wirth等人，2017）。例如，这种反馈形式体现在偏好学习中（Fürnkranz和Hüllermeier，2010），其中人工智能系统通过比较多个示例来识别顾问的偏好。

比较反馈的根本优势在于人类能够快速处理难以精确评估的任务和目标（Hüllermeier等人，2008；Christiano等人，2017；Ouyang等人，2022）。然而，除了反馈中的噪声和未建模的上下文元素等常见因素会阻碍模型收敛到真实目标外，不同项目之间的绝对差异也会被掩盖。因此，策略的性能往往朝着中位数目标优化，而不是平均目标。Casper等人（2023b）用一个例子说明了这一点：动作A总是产生值1，动作B在40%的情况下产生10，在60%的情况下产生0。当基于比较反馈进行评估时，动作A被认为优于B，尽管B具有更高的预期回报。它还存在可能需要大量比较数据的固有局限性（Fürnkranz和Hüllermeier，2003；Gao等人，2023），尽管一些研究表明所需数量可能相对较少（Christiano等人，2017）。偏好建模是使用这种反馈类型的一个例子，如第2.2节所述。

讨论

所有类型的反馈都可以交互式地、在线地提供给人工智能系统。这个过程在提供反馈和人工智能系统更新之间产生同步迭代，强调快速、有针对性的增量模型修改（Amershi等人，2014；Holzinger，2016）。例如，示范反馈可以在线校正的形式出现（Bajcsy等人，2018；Li等人，2021b；Losey等人，2022）。

交互式提供反馈强调了交互性在学习过程中的作用，允许人工智能系统根据交互经验进化。在主动学习中，机器人主动参与数据发现和获取，从而促进在线部署过程中的学习（Taylor等人，2021）。在交互式学习中，反馈以引导校正的形式出现，在线纠正人工智能系统行为中的错误（Fails和Olsen Jr，2003；Amershi等人，2014；Saunders等人，2022）。例如，交互式图像分割强调简单（Zhang等人，2020a）、直观（Rother等人，2004；Xu等人，2016）和实时（Liu等人，2022）的交互。

交互式提供反馈的主要优点之一是能够实时微调人工智能系统，允许用户交互式地探索模型空间（Amershi等人，2014），以确保快速、微妙地与顾问的指令保持一致（Shin等人，2020；Wei等人，2022；Zou等人，2024b）。此外，这一过程减少了对专业知识的依赖，并促进了更好的可解释性（Berg等人，2019）。然而，它可能受到选择耗时算法的交互性限制（Fails和Olsen Jr，2003；Holzinger，2016）。

此外，考虑到更强大的人工智能系统正在涌现，更通用的交互界面也在出现，如语言（Lynch等人，2023；OpenAI，2023a）和视觉（Yevgen Chebotar，2023），这些界面弥合了人类和人工智能系统之间的沟通差距。在机器人领域，一系列研究将人类提供的语言与智能体获得的奖励联系起来。这种关联使人类能够通过语言传达细微的意图，从而在训练（Fu等人，2019；Goyal等人，2019；Sumers等人，2021；Zhou和Small，2021；Lin等人，2022b；Yu等人，2023）和规划（Sharma等人，2022）过程中引导标量反馈信号的生成。在大型语言模型领域，上下文学习（Dong等人，2022）作为一种在部署期间通过语言补充信息的手段，从而增强大型语言模型与人类意图的对齐。

这些不同的反馈模式有一个共同特点------它们都可以被视为人类试图传达一个隐藏的奖励函数。Jeon等人（2020）提出并正式确立了这一立场，并通过定义一个参数化的奖励函数Ψ(·;θ)来统一多种反馈类型，该函数是反馈过程的基础。这使得人工智能系统能够对θ进行贝叶斯推理，而不管反馈类型如何。

最近，基于模仿学习（IL）和强化学习（RL）的技术成功构建了具有重要能力的人工智能系统（Baker等人，2022；OpenAI，2023b）。然而，这一成功自然引发了两个问题：

• 我们如何为更复杂的行为（如交互式对话中的各种子任务）定义奖励函数，以指导人工智能系统的学习过程？

• 我们如何表达人类价值观，使强大的人工智能系统更好地与人类对齐，确保系统的可控性和伦理合规性？

将偏好建模纳入策略学习的努力已显示出进展。这一领域最显著的成就是在构建强大的大型语言模型方面（OpenAI，2023a；Touvron等人，2023；Anthropic，2023c）。此外，一系列策略学习研究报告了性能改进。例如，将偏好建模与逆强化学习（IRL）（Brown等人，2019，2020a）和离线强化学习（Shin等人，2023）相结合，微调奖励函数（Hejna III和Sadigh，2022），对非马尔可夫奖励进行建模（Kim等人，2023），以及帮助构建复杂的奖励函数（Bukharin等人，2023）。因此，我们将偏好建模（如第2.2节所示）和策略学习（如第2.3节所示）视为理解对齐面临的挑战和潜在解决方案的基本背景。接下来，我们简要概述这些与对齐相关的具体技术。

表2：序列决策背景下三种偏好粒度的比较。每种类型根据其特征以及比较学习过程中不同元素的方式来定义。符号 i 1 > i 2 i_1 > i_2 i1>i2表示 i 1 i_1 i1严格优于 i 2 i_2 i2。

偏好粒度	定义
动作	在相同状态 s s s下比较两个动作 a 1 a_1 a1和 a 2 a_2 a2，表示为 a 1 > s a 2 a_1 >_s a_2 a1>sa2。
状态	比较两个状态 s 1 s_1 s1和 s 2 s_2 s2，表示为 s 1 > s 2 s_1 > s_2 s1>s2。
轨迹	比较两条完整的状态 - 动作序列轨迹，表示为 τ 1 > τ 2 \tau_1 > \tau_2 τ1>τ2。每条轨迹 τ \tau τ由时刻 t t t的状态 - 动作对组成，表示为 τ = { s 0 , a 0 , s 1 , a 1 , ... , s T − 1 , a T − 1 , s T } \tau = \{s_0, a_0, s_1, a_1, \ldots, s_{T - 1}, a_{T - 1}, s_T\} τ={s0,a0,s1,a1,...,sT−1,aT−1,sT}。

2.2 偏好建模

在许多复杂任务中，如对话（Ouyang等人，2022），构建精确的基于规则的奖励存在挑战（Bender等人，2021）。同时，基于示范的方法可能需要大量专业人力资源投入，导致成本高昂。目前，基于比较反馈的偏好建模（Akrour等人，2011）已成为一种非常有前景的方法（Ouyang等人，2022；OpenAI，2023a；Touvron等人，2023），用于辅助微调强大的人工智能系统（Amodei等人，2016）。

通常，在获取专家偏好数据时，有必要迭代探索系统动态，以更多地了解优化目标。这个过程被称为偏好引出（Wirth和Fürnkranz，2013；Wirth等人，2017；Christiano等人，2017；Cabi等人，2020），它对于获取与人工智能系统输出相关的丰富、有价值的反馈至关重要，从而指导对齐过程（Hejna III和Sadigh，2022）。

在偏好引出中，需要确定的两个核心决策是偏好粒度和偏好类别。本文在序列决策问题中介绍这些内容，但其见解适用于广泛的人工智能系统（Amodei等人，2016；Christiano等人，2018；Leike等人，2018）。

偏好粒度

偏好（Wirth等人，2017）按粒度主要可分为三种类型：动作、状态和轨迹（如表2所示）。

动作偏好侧重于在特定状态下比较动作，指定特定条件下的偏好动作。当转化为轨迹偏好时，可能会带来诸如评估者专业知识需求和潜在信息损失等挑战。状态偏好涉及比较状态。它封装了状态之间的偏好关系，但在转化为轨迹偏好时需要对状态可达性和独立性做出假设。轨迹偏好考虑整个状态 - 动作序列，提供更全面的策略信息。它本质上评估长期效用，对专家判断的依赖较小。Christiano等人（2017）通过消融研究表明，在他们研究的设定中，较长的轨迹段在每段基础上能产生更具信息量的比较。在MuJoCo任务中，人类对这些段的评估也更一致。

偏好类别 偏好建模中存在多种目标。根据目标，偏好可分为对象偏好和标签偏好（Fürnkranz和Hüllermeier，2010）。具体而言，对象偏好作用于每个实例的一组标签，而标签偏好作用于一组对象本身。还可以根据偏好形式对它们进行不同的进一步分类。

• 绝对偏好。绝对偏好独立地阐明每个项目的偏好程度。

二元偏好。将项目分类为喜欢或不喜欢，提供了一种简单直接的用户偏好模型（Tsoumakas和Katakis，2007；Cheng等人，2010a）。
渐进偏好。这可以进一步区分为数值偏好和序数值偏好。数值偏好采用绝对数值，使得每个项目都获得一个数值分数，反映偏好程度（Cheng等人，2010b）。另一方面，序数值偏好对一组固定项目进行分级评估，如偏好、较不偏好或中等偏好等，能够在不包含具体数值度量的情况下描述用户偏好（Cheng等人，2010a）。
• 相对偏好。相对偏好定义项目之间的偏好关系。
全序。这种形式建立了涵盖所有项目对的全面偏好关系，确定从最偏好到最不偏好的绝对顺序（Hüllermeier等人，2008）。
偏序。因为在某些情况下用户可能在两个项目之间没有明显偏好（Cheng等人，2010c），所以这种形式允许存在不可比的项目对。

奖励模型

奖励建模将比较反馈（Akrour和Hüllermeier, 2010; Wirth等人, 2011）转化为标量奖励形式，以促进策略学习（Ziegler等人, 2019; Cabi等人, 2020; Houmanfar等人, 2022）。给定一对动作 ( x 1 , y 1 ) (x_1, y_1) (x1,y1)和 ( x 2 , y 2 ) (x_2, y_2) (x2,y2)，我们假设人类更喜欢从 ( x 1 ) (x_1) (x1)采取的动作，而不是从 ( x 2 ) (x_2) (x2)采取的动作，分别表示为 y 1 ≻ y 2 y_1 \succ y_2 y1≻y2。我们使用奖励模型 r ( ⋅ ) r(\cdot) r(⋅)，通过直接从人类偏好中回归，来近似这些偏好。在文献中，有几种方法可用于模拟此类偏好，例如Bradley - Terry模型（Bradley和Terry, 1952）、Plackett - Luce排名模型（Plackett, 1975）等。在BT模型下，人类偏好的分布 p ∗ p^* p∗可形式化为：

p ∗ ( y 1 ≻ y 2 ∣ x ) = exp ⁡ ( r ( x , y 1 ) ) exp ⁡ ( r ( x , y 1 ) ) + exp ⁡ ( r ( x , y 2 ) ) = σ ( r ( x , y 1 ) − r ( x , y 2 ) ) p^*(y_1 \succ y_2 | x) = \frac{\exp(r(x, y_1))}{\exp(r(x, y_1)) + \exp(r(x, y_2))} = \sigma(r(x, y_1) - r(x, y_2)) p∗(y1≻y2∣x)=exp(r(x,y1))+exp(r(x,y2))exp(r(x,y1))=σ(r(x,y1)−r(x,y2))

其中 σ ( x ) = 1 / ( 1 + exp ⁡ ( − x ) ) \sigma(x) = 1 / (1 + \exp(-x)) σ(x)=1/(1+exp(−x))是逻辑 sigmoid 函数。随后，我们使用得到的偏好排名来训练参数化奖励模型，通过最大似然法优化其参数。

L R ( θ ) = − E ( x , y 1 , y 2 ) ∼ D [ log ⁡ ( σ ( r θ ( x , y p r e ) − r θ ( x , y p o s t ) ) ) ] \mathcal{L}R(\theta) = - \mathbb{E}{(x, y_1, y_2) \sim D} \left[ \log \left( \sigma(r_\theta(x, y_{pre}) - r_\theta(x, y_{post})) \right) \right] LR(θ)=−E(x,y1,y2)∼D[log(σ(rθ(x,ypre)−rθ(x,ypost)))]

在这个负对数似然损失中，该问题是一个二元分类任务，其中 D D D表示静态数据集 { x ( i ) , y p r e ( i ) , y p o s t ( i ) } i = 1 N \{x^{(i)}, y_{pre}^{(i)}, y_{post}^{(i)}\}_{i = 1}^{N} {x(i),ypre(i),ypost(i)}i=1N，由 ( x i ) (x_i) (xi)采样得到，用于输入特定偏好。

奖励模型使人类能够通过评估向这些系统注入偏好，从而绕开明确制定人类目标的复杂任务。最初，Knox和Konidaris（2013）的研究将人类奖励明确表示为马尔可夫决策过程（MDP）的奖励，构建了一个简单的案例。Christiano等人（2017）证明，使用监督学习训练的不同奖励模型可以显著减少大约三个数量级的交互复杂性。该研究结合了人类偏好的轨迹演示，然后依次收集人类轨迹注释，训练奖励模型，并更新策略。这项研究还对预训练奖励模型在奖励黑客攻击场景中的出现提供了关键见解。夸大奖励不会提高性能，特别是当行为安全至关重要时。此外，随机策略可能会在某些任务中意外地表现良好，这意味着有效注释需要代理具备一定能力才能学习这种行为。对于离线设置，也受益于人类模型：Cabi等人（2020）提出了自动奖励草图，以高效地学习一个奖励函数，该函数利用人类的认知判断进行历史数据注释，从而启用大规模批量RL。Qin等人（2024）基于奖励泛化的经验理论，在奖励模型中提出了一种新型的RM基线树结构偏好，该理论在实验中得到了验证。重要的是，奖励模型提供了一种基本工具，用于调整强大的大型语言模型（LLMs）（Ouyang等人，2022；Ziegler等人，2019），并在实际应用中实现重大政策改进。

这项工作还为揭示训练奖励模型时的数据分布偏移和奖励黑客攻击的影响提供了见解，表明奖励模型的有效性与数据规模和参数大小相关。基于此工作，InstructGPT（Ouyang等人，2022）扩展了奖励模型范式，以实现更广泛的对话任务，并表明多响应偏好优化损失函数可以缓解过拟合问题。此外，这项研究揭示了不同群体的偏好差异可以泛化到不同群体。

2.3 策略学习

策略学习旨在学习从感知状态到在这些状态下所采取动作的映射（Sutton和Barto，2018），以优化模型在特定任务中的性能。在策略学习中出现了许多与对齐相关的挑战（如§1.1.2所示）。因此，策略学习为对齐提供了关键背景，其技术可以进一步推进对齐目标（Amodei等人，2016；Christiano等人，2018；Ibarz等人，2018）。本节将讨论策略学习的不同领域，然后介绍用于策略学习的强大技术------基于人类反馈的强化学习（RLHF）（OpenAI，2023a；Touvron等人，2023）。

2.3.1 背景

我们在此介绍策略学习的一些通用领域，为读者提供总体背景。

强化学习（RL） ：强化学习使智能体能够通过与环境交互试错来学习最优策略（Sutton和Barto，2018）。这一范式在处理复杂任务方面取得了巨大成功（Agostinelli等人，2018；Yu等人，2021；Fawzi等人，2022；Baker等人，2022；Afsar等人，2022；Mankowitz等人，2023；OpenAI，2023b），展示了其在复杂状态空间中进行决策和控制的潜力。强化学习的目标是学习一个策略 π \pi π，该策略在状态 s s s中执行动作 a a a，以在环境转移动态 P P P和初始状态分布 ρ 0 \rho_0 ρ0下最大化预期累积奖励：

π ∗ = argmax π { E s 0 , a 0 , ... [ ∑ t = 0 ∞ γ t r ( s t ) ] } , 其中 s 0 ∼ ρ 0 ( ⋅ ) , a t ∼ π ( ⋅ ∣ s t ) , s t + 1 ∼ P ( ⋅ ∣ s t , a t ) \pi^* = \underset{\pi}{\text{argmax}} \left\{ \mathbb{E}{s_0, a_0, \ldots} \left[ \sum{t = 0}^{\infty} \gamma^t r(s_t) \right] \right\}, \text{ 其中 } s_0 \sim \rho_0(\cdot), a_t \sim \pi(\cdot | s_t), s_{t + 1} \sim P(\cdot | s_t, a_t) π∗=πargmax{Es0,a0,...[t=0∑∞γtr(st)]}, 其中 s0∼ρ0(⋅),at∼π(⋅∣st),st+1∼P(⋅∣st,at)

尽管强化学习仍然面临样本效率和稳定性等挑战（Busoniu等人，2018）。近端策略优化（PPO）（Schulman等人，2017）是强化学习领域中具有影响力的算法，是RLHF的关键算法（Ouyang等人，2022）。PPO的关键思想是限制策略更新，以防止与目标函数的显著偏差，通过引入一个近似目标函数来实现。Sikchi等人（2023）在对偶强化学习框架内，从拉格朗日对偶性的角度统一了几种强化学习和模仿学习（IL）算法。

基于偏好的强化学习（PbRL）：PbRL（Wirth等人，2017）试图使用偏好反馈而非显式奖励信号来辅助训练强化学习智能体（Christiano等人，2017；Sadigh等人，2017）。PbRL整合了偏好学习和强化学习的优势，拓宽了强化学习的应用范围，并减轻了与奖励函数形式化相关的困难，已有效地应用于机器人指令（Kupcsik等人，2013）、路径规划（Jain等人，2013）和操纵（Shevlane等人，2023）等各种任务中。在PbRL中，重点主要在于轨迹偏好（即状态 - 动作序列段的比较）（Wirth等人，2017）。这种轨迹偏好包含了人类对各种行为结果的评估，而不是单个状态，这使得PbRL更适合非专家用户（Christiano等人，2017；Shin等人，2023；Kim等人，2023）。PbRL的一般形式是加权成对分歧损失（Duchi等人，2010），它平衡多个可能冲突的偏好，以确定单一的最优策略：

L ( π , C ) = ∑ i = 1 N α i L ( π , ζ i ) \mathcal{L}(\pi, \mathcal{C}) = \sum_{i = 1}^{N} \alpha_i L(\pi, \zeta_i) L(π,C)=i=1∑NαiL(π,ζi)

其中 L ( π , C ) \mathcal{L}(\pi, \mathcal{C}) L(π,C)是策略 π \pi π相对于所有偏好 C \mathcal{C} C的聚合损失， α i \alpha_i αi是第 i i i个偏好的权重， L ( π , ζ i ) L(\pi, \zeta_i) L(π,ζi)是与策略 π \pi π相对于特定偏好 ζ i \zeta_i ζi相关的损失。

与精确的数值奖励相比，偏好反馈有几个优点（Wirth等人，2017），例如：（1）规避任意的奖励设计、奖励塑形、奖励工程或预先定义的目标权衡；（2）减少对专家知识的依赖；（3）通过对偏好进行建模来解耦训练循环与人类的联系（Akrour等人，2012）。然而，PbRL也面临挑战，包括由于时间延迟导致的信用分配问题、对偏好空间进行实际探索（Wirth等人，2017）、可能需要大量数据（Ouyang等人，2022），以及无法使用学习到的偏好模型进行再训练（McKinney等人，2022）。

模仿学习（IL） ：IL（Schaal，1999；Syed等人，2008），也称为从示范中学习或学徒学习，专注于在特定任务中模仿人类行为。智能体通过观察教师示范数据 D D D（Bakker等人，1996；Hussein等人，2017）来学习观察与动作之间的映射，以此完善其策略。这个过程无需环境奖励信号（Hussein等人，2017）。广义IL（Cotra，2018）旨在复制人类的欲望和意图，有效地创建人类决策过程的复制品。这一概念是迭代蒸馏与放大（IDA）等技术的核心，如§2.4.2中所示（Christiano等人，2018）。另一方面，狭义IL旨在复制特定人类行为以完成任务。行为克隆（BC）（Bain和Sammut，1995；Ross等人，2011；Osa等人，2018）是一种简单的策略（Pomerleau，1991；Ravichandar等人，2020），它使用监督学习直接从示范中学习（Schaal，1996）。BC方法具体寻求优化策略参数 ϕ \phi ϕ，目标是使策略 π ϕ ( a ∣ s ) \pi_\phi(a|s) πϕ(a∣s)与专家策略 π E \pi_E πE紧密对齐。这种对齐是通过最小化负对数似然来实现的，如下所示（Lynch等人，2020）：

L B C ( ϕ ) = − E ( s , a ) ∼ π E [ log ⁡ π ϕ ( a ∣ s ) ] \mathcal{L}{BC}(\phi) = - \mathbb{E}{(s, a) \sim \pi_E} [ \log \pi_\phi(a|s) ] LBC(ϕ)=−E(s,a)∼πE[logπϕ(a∣s)]

这里，期望是对从专家策略 π E \pi_E πE中采样的状态 - 动作对进行计算的。然而，它面临分布外（OOD）问题，这是由训练和测试分布之间的差异引起的（Ross等人，2011；Ho和Ermon，2016；Reddy等人，2019；Zhou等人，2022）。对抗模仿学习方法（Ho和Ermon，2016；Fu等人，2018；Lee等人，2019；Ghasemipour等人，2020）已证明能够增强策略对分布偏移的鲁棒性。然而，这些方法学习的是非平稳奖励，无法用于训练新策略（Ni等人，2021）。

逆强化学习（IRL）：与IL范式不同，IRL（Adams等人，2022）专注于从观察到的行为中推导奖励函数（Ng等人，2000；Arora和Doshi，2021）。标准的IRL方法包括特征匹配方法（Abbeel和Ng，2004），该方法假设最优的专家行为或决策过程，以及最大熵方法（Ziebart等人，2008）和贝叶斯方法（Ramachandran和Ammir，2007），其中大多数方法不能保证行为鲁棒性以应对状态分布的变化，但由于额外的RL步骤，计算复杂度会增加（Ho和Ermon，2016；Fu等人，2018b）。同时，这种相互作用引入了RL固有的挑战，例如样本效率（Yu，2018）和环境交互中的潜在危险（García和Fernández，2015）。此外，识别奖励函数仍然是一个挑战（Kim和Li，2021）。

2.3.2 基于人类反馈的强化学习（RLHF）

RLHF在深度强化学习（DRL）领域中扩展了基于偏好的强化学习（PbRL）（Christiano等人，2017），旨在使复杂人工智能系统更紧密地与人类偏好保持一致（OpenAI，2023b）。其主要优势在于能够利用人类更好地判断适当行为，从而给出示范或手动设置奖励。这种方法已获得显著关注，特别是在微调大型语言模型（LLMs）方面（Ouyang等人，2022；OpenAI，2023a；Touvron等人，2023）。然而，RLHF也带来了一些挑战，包括数据质量问题、奖励泛化问题、奖励黑客攻击，以及策略优化中的并发症（Casper等人，2023b）。具体而言，RLHF可以被视为一个递归奖励建模（RRM）过程（如§2.4.3中所示），无需深度反事实建模（Leike等人，2018）。在这里，我们简要回顾RLHF方法。

RLHF的起源可以追溯到Knox和Stone（2008，2012），随后其应用领域扩展到社交机器人（Knox等人，2013）和人机合作学习（Griffith等人，2013）等领域。除了关注反馈与策略之间的关联外，Loforte等人（2016）研究了反馈与训练策略之间的连接。Christiano等人（2017）将RLHF扩展到模拟机器人任务中，证明了其潜在有效性。

RLHF的一个重要应用领域是大型语言模型。一些研究发现，使用RLHF训练的大型语言模型（Ouyang等人，2022；Korbak等人，2023；Christiano，2023）比使用监督或自我监督学习方法训练的模型更具创造性且与人类的一致性更高（Kenton和Toutanova，2019；Brown等人，2020b）。RLHF的重要性不仅在于使大型语言模型遵循人类指令（Ouyang等人，2022），还在于通过赋予它们许多实用特性（如有用性、无害性和诚实性（Bai等人，2024）），帮助大型语言模型更好地保持一致。因此，RLHF是微调大型语言模型的重要工具（Ziegler等人，2019；Stiennon等人，2020；Bai等人，2022a；Glaese等人，2022；OpenAI，2023a；Touvron等人，2023）。此外，Dai等人（2024b）将安全RL（García和Fernández，2015）框架与RLHF相结合，解决了有益性与无害性对齐之间的内在矛盾（Bai等人，2022a）。未来的工作可以集中在减少对人工标注的依赖（Wang等人，2023c；Sun等人，2024），并通过利用迭代RLHF方法（即与辩论框架集成（Irving等人，2018））提高奖励模型的效率。Qiu等人（2024）还构建了RLHF的正式框架，将其过程描述为跨文本分布的齐格勒过程，并能够分析RLHF中的收敛特性。

我们回顾RLHF的相关内容，主要来自Ziegler等人（2019）、Ouyang等人（2022）、Rafailov等人（2024），以给出RLHF流水线的一般框架。它通常由三个阶段组成：

监督微调（SFT）：RLHF通常从一个预训练的语言模型开始，然后使用监督学习进行微调------具体来说，是在高质量的人类指令数据集上进行最大似然估计。这类任务的示例包括对话处理、指令遵循和总结（一些开源数据集包括Alpaca Data（52k条指令 - 跟随数据）（Taori等人，2023）、Vicuna（70K用户共享的ChatGPT对话）（Chiang等人，2023）等）。这个阶段也可以在任何其他阶段进行。
收集比较数据和奖励建模 ：这个阶段包括收集比较数据，随后从奖励模型中进行采样。SFT模型生成提示，记为 x x x，以生成响应对 ( y 1 , y 2 ) (y_1, y_2) (y1,y2)，采样自 π S F T ( y ∣ x ) \pi^{SFT}(y|x) πSFT(y∣x)。然后将这些响应提供给人类注释者，他们指出对其中一个响应的偏好。然后，如§2.2中所讨论的，比较数据用于构建奖励模型 r θ r_\theta rθ。
通过强化学习进行策略优化 ：最后一步是在奖励模型 r θ r_\theta rθ的指导下，通过强化学习将大型语言模型优化为策略 π \pi π。大型语言模型根据提示生成响应的过程被建模为一个多臂老虎机环境（Ouyang等人，2022），在每个响应结束时从奖励模型 r θ r_\theta rθ获得奖励。强化学习的主要目标是调整大型语言模型的参数 ϕ \phi ϕ，使得训练提示数据集 D R L \mathcal{D}_{RL} DRL上的期望奖励最大化：

argmax π ϕ E x ∼ D R L , y ∼ π ϕ [ r θ ( x , y ) ] \underset{\pi_\phi}{\text{argmax}} \mathbb{E}{x \sim \mathcal{D}{RL}, y \sim \pi_\phi} [ r_\theta(x, y) ] πϕargmaxEx∼DRL,y∼πϕ[rθ(x,y)]

通常，会引入一个额外的基于SFT模型 π S F T \pi^{SFT} πSFT的每个标记的KL惩罚项，以减轻奖励过度优化的问题。此外，整合来自预训练分布 D p r e t r a i n \mathcal{D}_{pretrain} Dpretrain的梯度有助于保持模型性能，在（Ouyang等人，2022）中称为PTX损失。因此，引入了一个更全面的实际目标函数：

J ( ϕ ) = E x ∼ D R L , y ∼ π ϕ [ r θ ( x , y ) − β log ⁡ ( π ϕ ( y ∣ x ) π S F T ( y ∣ x ) ) ] + η E ( x , y ) ∼ D p r e t r a i n [ log ⁡ ( π ϕ ( y ∣ x ) ) ] \mathcal{J}(\phi) = \mathbb{E}{x \sim \mathcal{D}{RL}, y \sim \pi_\phi} \left[ r_\theta(x, y) - \beta \log \left( \frac{\pi_\phi(y|x)}{\pi^{SFT}(y|x)} \right) \right] + \eta \mathbb{E}{(x, y) \sim \mathcal{D}{pretrain}} \left[ \log (\pi_\phi(y|x)) \right] J(ϕ)=Ex∼DRL,y∼πϕ[rθ(x,y)−βlog(πSFT(y∣x)πϕ(y∣x))]+ηE(x,y)∼Dpretrain[log(πϕ(y∣x))]

其中 β \beta β和 η \eta η分别是决定KL惩罚强度和预训练梯度混合程度的系数。这个过程优化了大型语言模型，使其能够生成与训练期间使用的提示的人类偏好更好对齐的响应。

尽管RLHF已被证明在使大型语言模型与人类偏好保持一致方面是有效的，但这种方法存在一些问题，如复杂的实现、超参数调整、样本效率（Choshen等人，2019）和计算开销（Yuan等人，2024），这使得其难以扩展。

一种直接的方法是拒绝采样（Dong等人，2023；Touvron等人，2023），并结合对最佳示例的微调。对于每个提示，从模型中采样 K K K个响应。然后用奖励模型对每个响应进行评估，奖励最高的响应被选作最佳响应，该响应稍后用于模型微调。Zhang等人（2023a）将语言模型指令对齐问题表述为目标达成强化学习问题，并提出了HIR算法。该方法分为两个阶段：在线采样和离线训练。在在线采样阶段，算法以较高的温度从模型中采样输出。在离线训练阶段，根据生成的输出重新标记指令，然后使用重新标记的数据进行监督学习。HIR利用成功和失败的案例，且不需要额外的参数。Yuan等人（2024）提出的RRHF，通过对来自多个来源的响应进行评分和排名，使模型概率与人类偏好保持一致。由于只需要1或2个模型，其实现简单直接。RRHF报告称，它可以有效地使语言模型与人类偏好保持一致，产生与近端策略优化（PPO）相当的性能。Gulcehre等人（2023）提出了ReSt算法，该算法包含两个循环：Grow和Improve。Grow循环使用当前模型来采样和生成数据集，而Improve循环则对固定数据集进行迭代训练。该算法提供了一个简单高效的框架，允许对固定数据集进行重复使用，以提高计算效率，与监督学习基线相比，在奖励模型分数和翻译质量方面有显著提高。Chakraborty等人（2024）提出了PARL，这是一个基于优化的双层框架，旨在解决RLHF中奖励建模对策略优化的依赖性问题。

Rafailov等人（2024）引入了直接策略优化（DPO），它展示了奖励函数与最优策略之间的映射关系。DPO既简单又高效，可直接从人类偏好数据优化语言模型，无需显式的奖励模型和多阶段训练。此外，Wang等人（2024）讨论了不同的散度约束如何影响DPO，并引入了一种广义方法，即 f f f-DPO。Azar等人（2023）提出了一个通用目标 Ψ \Psi ΨPO，旨在从人类成对偏好中学习，规避当前方法的假设：成对偏好可以用逐点奖励替代。该目标分析了RLHF和DPO的行为，揭示了它们潜在的过拟合问题。作者们通过将 Ψ \Psi Ψ设为恒等函数，进一步深入研究了 Ψ \Psi ΨPO的一个特定实例，旨在缓解过拟合问题。他们将这种方法称为IPO，并提供了将IPO与DPO进行对比的实证结果。Hejna等人（2024）引入了基于遗憾的偏好学习（CPL），它利用基于遗憾的偏好模型，直接提供关于最优策略的信息。

进一步的研究可以探索为什么RLHF在大型语言模型（LLMs）上表现有效，以及RLHF在多模态设置中的应用（Yevgen Chebotar，2023；OpenAI，2023b），以促进人机协作的优势（Carlson和Demiris，2010；Wu等人，2021；Bi等人，2021）。另见Casper等人（2023b）对RLHF开放问题的综述。

开放讨论
RLHF常用于大型语言模型的安全对齐，但许多紧迫问题仍未解决。例如，如何在对齐中平衡无害性和有益性？Dai等人（2024b）试图将安全强化学习（SafeRL）框架，特别是成本模型和奖励模型，整合到RLHF中，以解决这两个指标之间的内在矛盾。此外，即使没有恶意意图，仅在良性和常用数据集上进行微调，也可能在不经意间降低大型语言模型的安全对齐程度，尽管程度较小（Qi等人，2024），而且在良性数据上进行微调更有可能降低模型的安全性（He等人，2024）。这些发现表明，对已对齐的大型语言模型进行微调可能会引入新的安全风险，即使是在被认为绝对安全的数据集上。一般来说，语言模型可能具有弹性，使其对对齐工作具有抗性（Ji等人，2024c）。这就提出了一个问题：即使在进一步微调之后，我们如何保持模型完美的安全对齐？

人类偏好在个体、群体和社会之间可能存在差异，从而导致不同的观点。在从注释者那里收集偏好数据时，这种差异也很明显。为了解决这个问题，Findeis等人（2024）提出了一种方法，用于提取给定偏好数据集生成背后的基本规则。类似于宪法人工智能（Bai等人，2022b），其中偏好数据集是由大型语言模型基于预定义规则生成的，逆宪法人工智能旨在提取这样一种规则，用于重建偏好数据集。这个问题可以表述为一个优化问题：

argmax c { agreement ( p o , p ( c ) ) s.t. ∣ c ∣ ≤ n } \underset{c}{\text{argmax}} \{ \text{agreement}(po, p(c)) \text{ s.t. } |c| \leq n \} cargmax{agreement(po,p(c)) s.t. ∣c∣≤n}

其中 p o po po表示原始偏好， p ( c ) p(c) p(c)是大型语言模型 M M M使用规则 c c c在成对文本语料库 T T T上生成的符合规则的偏好。该集合被限制为最多包含 n n n条人类可读的自然语言规则。一致性被定义为与原始偏好 p o po po匹配的符合规则的偏好 p ( c ) p(c) p(c)的百分比。总体而言，规则的提取可以被视为一个压缩任务，即根据数据集生成规则，然后尽可能准确地用于重建数据集中的偏好。为了得出这样的规则，作者们提出了一种算法，该算法生成能够解释偏好数据的规则，然后对这些规则进行语义聚类。为了减少集合的大小，他们随后对规则进行二次采样，并通过测试它们在重建偏好数据时的可重复性来评估其能力。最后，根据规则与偏好数据的相关性对规则进行筛选。这种方法可用于推断特定偏好数据集背后的规则，并有潜力识别潜在偏差，或重复使用规则生成新数据，从而扩充现有数据集或创建符合个体偏好的新数据集。

图5：一个树形图，总结了与可扩展监督相关的关键概念和文献。根节点代表可扩展监督，其目标是确保即使人工智能系统超越人类能力，仍能与人类意图保持一致。主要分支代表有前景的框架，如基于反馈的强化学习（RLxF）、迭代蒸馏与放大（IDA）、递归奖励建模（RRM）、辩论和合作逆强化学习（CIRL）。进一步的子分支列出了探索每个框架的关键研究。此图概述了随着人工智能系统变得更加复杂，构建有效且安全的监督机制的研究方向。

2.4 可扩展监督：迈向超级对齐之路

统计学习通常依赖于关于数据分布的某些假设，例如独立性和同分布。因此，这些算法在某些情况下会失效，尤其是在特定分布下（Zhou等人，2022）。在基础系统中，通过可视化检查可以迅速识别出挑战（Christiano等人，2018；Ngo等人，2024）。随着人工智能系统变得更强大，训练信号捕捉不足或损失函数设计错误往往会导致灾难性后果（Russell等人，2015；Hubinger等人，2019c；Cotra，2021），比如通过混淆差异来欺骗人类（Russell，2019）、规范博弈（Victoria等人，2020）、奖励黑客攻击（Brown等人，2020a）以及追求权力的动态行为（Carlsmith，2022）。

从人类的角度来看，这些意味着人工智能系统的优化目标与我们心中的理想目标之间存在差距。因此，在各种决策中提供有效监督的问题变得至关重要（Bowman等人，2022；Li等人，2023a），这通常被称为可扩展监督（Amodei等人，2016），它源于两个实际挑战。

人类频繁评估人工智能系统行为的成本高昂。例如，训练过程耗时，将人类直接实时纳入训练循环会显著浪费人力资源并阻碍训练效率（Christiano等人，2017）。
人工智能系统行为的内在复杂性使得评估困难，尤其是在难以理解且风险较高的任务上（Saunders等人，2022），比如教人工智能系统总结书籍（Wu等人，2021）、生成复杂代码片段（Pearce等人，2022）以及预测未来天气变化（Bi等人，2023）等任务。

可扩展监督旨在确保即使是超越人类专业知识的人工智能系统，也能与人类意图保持一致。

在此背景下，我们主要关注提出一些有前景但尚未普遍实施的构建可扩展监督的方向（Amodei等人，2016；Leike等人，2018）。

2.4.1 从基于人类反馈的强化学习（RLHF）到基于反馈的强化学习（RLxF）

RLHF范式为复杂系统的对齐提供了一个框架（OpenAI，2023a；Touvron等人，2023）。然而，它遇到了诸如人类评估不准确及其相关的高成本等障碍（Christiano等人，2017；Casper等人，2023b；Perez等人，2023）。一个关键限制是在创建具有超人能力的人工智能系统时，难以利用RLHF来扩展人类反馈（Wu等人，2021）。在RLHF范式的基础上，我们引入RLxF作为可扩展监督的基本框架，旨在提高反馈效率和质量，并为更复杂的任务扩展人类反馈。这通过融入人工智能组件来增强RLHF（Fernandes等人，2023）。RLxF中的"x"表示人工智能与人类的融合。我们将在后续部分进一步探讨关于RLxF的具体方法。

基于人工智能反馈的强化学习（RLAIF）

RLAIF是RLHF的扩展。RLAIF扩展了Bai等人（2022a）的流水线，发现通过RLHF训练的大型语言模型可能会回避敏感和有争议的问题，这可能会降低模型的整体效用。为了解决这些限制，Bai等人（2022b）提出了一个训练流水线，使用大型语言模型（如GPT - 4或其他语言模型）生成的反馈。根据预设标准，策略模型在红队测试期间进行自我评估并修改其响应。然后使用修改后的响应对初始策略模型进行微调。最后，微调后的策略模型评估另一个语言模型响应的无害性（即人工智能反馈）。与RLHF类似，使用此反馈训练奖励来优化策略模型。Lee等人（2023a）在总结任务上比较了用RLAIF和RLHF训练的模型的性能。他们的结果表明，使用人工智能反馈训练的模型与使用人类反馈训练的模型表现几乎相同，尽管仍存在细微差异。相反，Findeis等人（2024）探索了宪法人工智能（CAI）的逆问题：给定一个反馈数据集，如何提取一个规则集，使大型语言模型能够最好地重建原始注释？这个问题不仅将人工智能反馈从偏好转换为相应的规则集，还提供了一种为人工智能反馈合成新偏好数据的方法。

基于人类和人工智能反馈的强化学习（RLHAIF）

RLHAIF整合了人类和人工智能模型来提供监督。Wu等人（2021）探索了使用人工智能协助人类总结书籍的可行性。这种方法通过将书籍总结任务分解为子任务，创建树状结构，促进了人类对模型性能的监督和评估。同时，Saunders等人（2022）探索了使用人工智能协助人类评估模型效能。他们的发现表明，模型生成的批评有助于人类识别他们可能遗漏的缺陷。Bowman等人（2022）提出了一个概念验证实验，以证明基于三明治结构（Cotra，2021）的可扩展监督技术的潜力。当与不可靠的大型语言模型合作时，结果表明人类的表现显著优于模型本身。Perez等人（2023）使用语言模型自主生成用于评估不同规模语言模型行为的数据集。作者生成了154个经过人类验证的高质量数据集。这些方法证明了使用人工智能辅助来扩大人类对复杂问题和各个领域的监督的可行性。

在一定程度上，RLAIF和RLHAIF为创建一个人类干预最少的训练循环提供了可行的替代方案，从而降低了训练成本。遵循透明且易于理解的人工智能行为准则的人工智能监督，可能会显著有助于实现可扩展监督（Bowman等人，2022）。

讨论

目前正在努力通过不再单纯依赖人类来增强RLHF（Leike等人，2018）。鉴于人类反馈的多维度性质，已经设计出各种方法，以根据特定规则提供有针对性的人类判断。此类规则的例子包括对聊天流畅性（Saunders等人，2022）和隐私保护（Carr，2023）等方面的考量。Saunders等人（2022）将高质量对话的要求拆解为智能体应遵循的自然语言准则，并要求对每条准则分别进行评估。通过收集有针对性的人类评估并在这些数据上训练模型，我们可以获得更高效的基于规则的奖励模型。这种方法显著提高了对话智能体的效能，使其与提示语言模型相比，更有帮助、更准确且更有益。Carr（2023）提出了基于隐私反馈的强化学习（RLPF），旨在使语言模型的输出质量与隐私保护相协调。该方法利用自然语言处理（NLP）技术对模型生成的文本进行实时隐私风险评估，然后根据这些评估调整强化学习反馈信号。具体来说，如果生成的文本包含敏感信息，就会收到负面反馈，而高质量、不泄露信息的文本则会收到正面反馈。随着模型不断训练，它会逐步提升自身能力，同时提高文本质量并最大限度减少隐私泄露。与严重依赖大规模手动数据标注的传统学习方法相比，这种方法通过运用成熟的NLP技术，能更高效地评估隐私风险。

RLxF方法的核心在于采用将大问题分解为较小子问题的策略，从而能够使用更高效的工具（如人工智能和软件）来快速解决子问题。通过利用这些子问题的解决方案，可以加快主要问题的解决。这些技术可被视为迭代蒸馏与放大（IDA）的初级实例；主要区别在于它们没有持续的迭代过程。尽管如此，有证据表明它们有望为超越人类表现的人工智能系统提供反馈（Wu等人，2021）。因此，这些方法可作为训练更先进人工智能系统的基础技术。

2.4.2 迭代蒸馏与放大

迭代蒸馏与放大（IDA）通过人类与人工智能之间的迭代协作，引入了一个构建可扩展监督的框架（Christiano等人，2018）。这个过程从一个初始智能体A[0]开始，它模仿人类H的决策。A[0]使用一种强大的技术进行训练，使其具备接近人类水平的能力（蒸馏步骤）；然后，H与多个A[0]实例进行协作交互，从而创建一个增强的智能体A[1]（放大步骤）。后续过程如算法1所述。

Cotra（2018）在强化学习（RL）和逆强化学习（IRL）中区分了广义和狭义的定义。广义RL向人工智能系统提供稀疏的奖励信号，并允许自主探索和优化未来累积奖励。这可能会产生超越人类的新颖策略，但很难完美地明确我们真正关注的内容。狭义RL提供密集反馈，奖励选择的合理性而非最终结果。这使得机器学习系统更像人类，但也限制了其能力。同样，广义IRL从人类行为的所有方面推断深层长期价值，而狭义IRL仅推断短期工具性价值。前者风险较高，而后者能力有限。

在IDA训练期间，需要使用狭义技术来确保每个智能体本身模仿人类行为。具体来说，狭义RL或模仿学习（IL）可用于训练智能体，使其尽可能像人类且可控。人类可以利用智能体的计算能力和并行性来制定更具前瞻性的宏观策略。这本质上是对人类内在能力的放大。在下一次迭代中，智能体再次使用狭义技术模仿这个强化的人机系统。这使得从狭义能力到广义能力能够逐步过渡，同时使智能体与人类价值观保持一致。随着迭代次数增加，人机系统变得越来越强大，逐渐接近一个既具有高能力又与人类价值观一致的系统，实现安全性和能力兼具。换句话说，狭义技术用于确保智能体遵循人类价值观，而放大阶段扩展的人类策略是利用智能体的一种方式，并不会扩展智能体自身的学习目标。

AlphaZero很好地阐释了IDA（Christiano等人，2018；Nguyen，2020）。该算法从一个简单策略（例如随机选择走法）开始，并从自我对弈游戏中学习，这是放大阶段。然后，它将这些游戏用作训练数据，以开发更好的走法选择启发式方法，这是蒸馏阶段。这个蒸馏 - 放大过程可以重复进行，以创建一个快速且熟练的围棋人工智能。在这里，对齐和能力之间的区别至关重要（Mennen，2018）。一个已对齐但能力较弱的人工智能试图获胜，但在面对中等对手时可能无法成功。一个能力强但对齐不佳的人工智能会实现除获胜之外的某些游戏属性。目标是让人工智能既具备能力又实现对齐，精通游戏并与赢得游戏的目标保持一致。

IDA的可行性引发了大量讨论（Yudkowsky，2018）。IDA运行基于一个关键假设，即错误不会在迭代过程中持续累积（Leike等人，2018）。因此，在蒸馏和放大步骤中仍然存在技术挑战，需要足够先进和安全的学习技术。此外，尽管最初的作者将IDA比作AlphaZero的训练过程（Silver等人，2017），并在简单环境中进行了演示（Christiano等人，2018），但其实际可行性取决于确保H能够将复杂任务的部分工作委派给A，就像领导者协调团队共同完成项目一样。在实践中，Gato（Reed等人，2022）展示了IDA的关键方面（Mukobi，2022），这可能为通用人工智能（AGI）铺平道路。它将多个专家人工智能的能力整合到一个单一模型中，验证了使用当代深度学习可以实现IDA的蒸馏过程。虽然尚未完全实现，但Gato暗示了放大的潜力，利用其多样化的技能来加速新任务的学习。然而，Gato缺乏保持对齐属性的安全放大或蒸馏方法。为像Gato这样的模型设计保持对齐的IDA方法仍然是人工智能安全研究的关键方向。从本质上讲，虽然Gato标志着在实现IDA方面取得了显著进展，但仍需要进一步的理论发展，以确保IDA框架能够导向安全的通用人工智能。

论文阅读

2 从反馈中学习

从反馈中学习，就是要把人类的想法和价值观传递给人工智能系统，这是实现人工智能正向对齐的基础。作者把从反馈中学习的动态过程，分成了三个关键部分：

人工智能系统：就是那些需要调整、与人类意图保持一致的系统，像预训练的大型语言模型就属于这一类。比如说我们常用的聊天机器人，它在训练后可能还不能完全符合我们的使用需求，就需要通过反馈来调整。
反馈：由一个顾问集合来提供，这个集合里可能有人类、人工智能，或者是在人工智能辅助下的人类等等。这些反馈就是用来调整人工智能系统的信息。例如，当我们使用一个图像识别模型时，标注人员给模型的标注信息就是一种反馈。
代理：是专门开发出来对反馈进行建模的系统，这样能让学习变得更容易。比如人类对人工智能系统行为的偏好排名是反馈，而奖励模型就是对应的代理。

从这三个要素出发，人工智能系统从反馈中学习有两条路径：一是直接从反馈本身学习；二是通过对反馈进行建模的代理来间接学习。

（从反馈中学习过程的概述图）

这张图从以人为本的视角出发，把人工智能系统当成黑箱，展示了从反馈中学习的过程。图中呈现了两个学习路径：

直接基于反馈的学习：就是人工智能系统直接从标签、奖励、示范、比较这四类反馈中学习。比如标签反馈，人工智能系统直接根据标注的信息去学习。
代理介导的学习：以基于人类反馈的强化学习（RLHF）为例子。先有反馈，比如人类对人工智能系统行为给出偏好排名，然后通过建模，用奖励模型等代理来帮助人工智能系统学习。

图里还列出了策略学习的几种方式，像强化学习（RL）、基于偏好的强化学习（PbRL）、逆强化学习（IRL）、模仿学习（IL），以及可扩展监督的一些方法，比如迭代蒸馏与放大（IDA）、递归奖励建模（RRM）等。这张图整体上概括了人工智能系统从反馈中学习的不同要素和路径。

2.1 反馈类型

反馈是连接人工智能行为和人类意图的关键纽带。人工智能系统利用反馈来完善目标，更好地符合人类价值观。反馈主要有两个含义：一是在系统构建时，外部对人工智能系统输出给出反馈，指导系统架构或内部信息的改进；二是系统部署后，它会不断适应外部环境数据变化，同时保持系统架构和基本策略不变。

为了详细说明反馈类型，作者从以人为本的角度出发，把反馈根据其呈现形式，分成了下面四类：

标签反馈：这是最直接的反馈形式，就是在原始数据项上附上一个或多个有意义的信息标签。比如在监督学习里训练一个图像识别模型，会有标注好的图像数据集，标注的类别信息就是标签。模型通过这些标签来学习输入（图像）和输出（类别）的对应关系。它的优点是明确好理解，但是它没办法完全解释选择的深层逻辑，在模型训练里用这种反馈，可能会导致目标变量偏差。而且遇到复杂任务，比如优化算法、玩电子游戏、多模态生成等，光靠标签反馈就不够用了。
奖励反馈：是对人工智能系统单个输出的绝对评价，用标量分数或者分数向量来表示。比如在一个机器人运动控制任务中，设计一个基于规则的奖励函数，根据机器人是否保持健康状态、是否向前移动、控制消耗多少、接触强度如何等因素来打分。它的好处是设计者不用详细规定最优行为，让人工智能自己探索最优策略。但问题是，人类很难制定出完美的规则来给人工智能系统的输出打分，而且有缺陷的奖励函数可能会让人工智能产生危险行为，还可能存在被操纵的风险。
示范反馈：是专家顾问在完成特定目标时记录下来的行为数据。可以是视频形式，比如人类专家操作机器人抓取物体的视频；也可以是可穿戴设备记录的示范等。把视频里每一帧机器人的状态和动作标注出来，就形成了状态 - 动作对数据集，用来训练智能体模仿专家行为。这种反馈直接利用了专家的经验，不过要是遇到超出专家专业领域的任务，或者示范数据有噪声、不是最优解，以及人类专家操作不精确等情况，就会出问题。而且还需要大量多样的示范数据，这也增加了学习可靠行为的难度。
比较反馈：是一种相对评价，给人工智能系统的一组输出进行排序，引导系统做出更明智的决策。比如在偏好学习里，人工智能系统通过比较多个示例来了解顾问的偏好。它的优势是人类能快速处理那些不好精确评估的任务，但也存在问题，像反馈里的噪声、没考虑到的上下文因素，会让模型很难收敛到真正的目标，不同项目之间的绝对差异也会被掩盖，而且可能需要大量比较数据。

各种反馈都能以交互和在线的方式提供给人工智能系统。这种交互过程能让模型实时微调，减少对专业知识的依赖，还能提高可解释性。现在随着人工智能系统越来越强大，语言、视觉等更通用的交互界面也出现了，帮助人类和人工智能更好地沟通。不同的反馈模式其实都可以看成是人类在尝试传达一个隐藏的奖励函数。

最近基于模仿学习和强化学习的技术，成功构建出了有强大能力的人工智能系统，但也带来了两个问题：一是怎么给更复杂的行为定义奖励函数，来引导人工智能系统学习；二是怎么表达人类价值观，让强大的人工智能系统更好地和人类对齐，保证可控性和符合伦理。把偏好建模融入策略学习已经有了一些进展，在构建强大的大型语言模型等方面有显著成果，还有一系列策略学习研究也报告了性能提升。所以作者认为偏好建模和策略学习是理解对齐挑战和潜在解决方案的重要背景。

Table 2（序列决策背景下三种偏好粒度的比较表）

这张表比较了序列决策背景下三种偏好粒度，每种类型根据自身特点和比较学习过程中不同元素的方式来定义：

动作偏好粒度 ：在相同状态 s s s下比较两个动作 a 1 a_1 a1和 a 2 a_2 a2 ，表示为 a 1 > s a 2 a_1 >_s a_2 a1>sa2 。比如在一个游戏里，在某个场景状态下，比较向左移动和向右移动这两个动作，看哪个动作更受偏好。
状态偏好粒度 ：比较两个状态 s 1 s_1 s1和 s 2 s_2 s2 ，表示为 s 1 > s 2 s_1 > s_2 s1>s2 。例如在机器人探索环境任务中，比较机器人在位置A的状态和在位置B的状态，判断哪个状态更优。
轨迹偏好粒度 ：比较两条完整的状态 - 动作序列轨迹，表示为 τ 1 > τ 2 \tau_1 > \tau_2 τ1>τ2 。每条轨迹 τ \tau τ由时刻 t t t的状态 - 动作对组成，比如 τ = { s 0 , a 0 , s 1 , a 1 , ... , s T − 1 , a T − 1 , s T } \tau = \{s_0, a_0, s_1, a_1, \ldots, s_{T - 1}, a_{T - 1}, s_T\} τ={s0,a0,s1,a1,...,sT−1,aT−1,sT} 。就像在自动驾驶任务中，比较两条不同的行驶轨迹，哪条轨迹更符合要求。

2.2 偏好建模

在很多像对话这样的复杂任务里，构建精确的基于规则的奖励是个难题，同时基于示范的方法又得投入大量专家人力，成本很高。所以现在基于比较反馈的偏好建模，成了微调强大人工智能系统的好办法。

偏好引出

通常在获取专家偏好数据时，得不断探索系统的动态变化，这样才能更多了解优化目标。这个过程就叫偏好引出，它对拿到跟人工智能系统输出有关的有用反馈很关键，能指导人工智能和人类意图对齐。在偏好引出里，有两个关键得确定，就是偏好粒度和偏好类别。虽然论文在序列决策问题里讲这些，但这些见解适用于很多人工智能系统。

偏好粒度

偏好按粒度主要能分成三类，就像下面表格呈现的这样：

动作偏好粒度：主要是在特定状态下比较不同动作，明确特定条件下更喜欢哪个动作。比如说在一个游戏场景里，角色在某种状态时，比较"攻击"和"防御"这两个动作，看哪个更合适。不过把这种偏好变成轨迹偏好时，可能会因为评估者得有专业知识，以及可能损失一些信息而遇到麻烦。
状态偏好粒度：是比较不同的状态。比如在机器人探索环境时，比较机器人在房间A和房间B这两种状态，看看哪种状态更符合预期。它涵盖了状态之间的偏好关系，可要是变成轨迹偏好，就得假设状态之间的可达性和独立性。
轨迹偏好粒度：考虑的是一整条状态 - 动作序列轨迹。还是以机器人探索为例，一条轨迹可能是从房间A出发，经过一系列动作到达房间B，另一条轨迹是从房间A出发经过不同动作到达房间C，比较这两条轨迹哪个更好。这种偏好能给出更全面的策略信息，评估长期效果，而且不太依赖专家判断。有研究用对比实验表明，在他们研究的设定里，较长的轨迹段在每段基础上能给出更有用的比较，在相关任务里人类对这些段的评估也更一致。

偏好类别

偏好建模里有各种各样的目标，按目标可以把偏好分成对象偏好和标签偏好。对象偏好是作用在每个实例的一组标签上，标签偏好是作用在一组对象本身。还能根据偏好形式再细分：

绝对偏好 ：独立说明每个项目的偏好程度。
- 二元偏好：把项目简单分成喜欢或不喜欢。比如对一幅画，就判断是喜欢还是不喜欢，这是很简单直接的用户偏好模型。
- 渐进偏好：又能分成数值偏好和序数值偏好。数值偏好给每个项目一个具体数值分数，反映偏好程度，比如给不同电影打1 - 10分。序数值偏好是对一组固定项目进行分级评估，像偏好、较不偏好、中等偏好等，不用具体数值也能描述用户偏好，比如把几款手机分成推荐、一般推荐、不推荐。
相对偏好 ：确定项目之间的偏好关系。
- 全序：建立涵盖所有项目对的全面偏好关系，从最喜欢到最不喜欢排个绝对顺序。比如对一系列旅游景点，按喜欢程度排个序。
- 偏序：因为有时候用户在两个项目间没明显偏好，所以允许存在没法比较的项目对。比如在选择红色衣服和蓝色衣服时，用户可能觉得都行，没有特别的偏好。

奖励模型

奖励建模就是把比较反馈转化成标量奖励形式，方便策略学习。假设强化学习智能体做出了两个动作 ( x 1 , y 1 ) (x_1, y_1) (x1,y1)和 ( x 2 , y 2 ) (x_2, y_2) (x2,y2) ，我们觉得从 ( x 1 ) (x_1) (x1)做出的动作 y 1 y_1 y1更好，就表示成 y 1 ≻ y 2 y_1 \succ y_2 y1≻y2 。我们用奖励模型 r ( ⋅ ) r(\cdot) r(⋅)去近似这种偏好，有一些方法能模拟这种偏好，像Bradley - Terry模型等。在Bradley - Terry模型下，人类偏好的分布可以用公式表示。然后用得到的偏好排名去训练参数化奖励模型，通过最大似然法优化参数。

奖励模型让人类能通过评估给人工智能系统注入偏好，不用去明确制定人类目标。最开始，有研究把人类奖励当成马尔可夫决策过程的奖励，后来也有研究用监督学习构建奖励模型，能减少交互复杂性。还有研究结合人类偏好的轨迹演示，训练奖励模型并更新策略，还对奖励黑客攻击（就是奖励增加了但性能没提升，特别是策略太复杂时）给出了见解。另外，有的研究提出自动奖励草图来高效学习奖励函数，还有基于奖励泛化理论提出新的奖励模型基线。奖励模型是调整强大大型语言模型的重要工具，也有研究关注到训练奖励模型时数据分布偏移和奖励黑客攻击等问题。

2.3 策略学习

策略学习的目标是学习从感知到的状态，到在这些状态下所采取动作的映射，这样就能优化模型在特定任务中的表现。在策略学习中，存在许多与对齐相关的挑战，不过它也为实现对齐提供了关键背景，其技术有助于推进对齐目标。这部分内容先探讨策略学习的不同领域，再介绍基于人类反馈的强化学习（RLHF）这一强大的策略学习技术。

2.3.1 背景

强化学习（RL）

强化学习能让智能体通过与环境交互试错，来学习最优策略。就像一个机器人在迷宫里，不断尝试不同路径，逐渐找到走出迷宫的最佳方法。在很多复杂任务中，比如机器人控制、游戏对战等，强化学习都取得了很好的效果，展示了它在复杂状态空间中决策和控制的潜力。强化学习的目标是学习一个策略 π \pi π，让智能体在状态 s s s中执行动作 a a a，在环境转移动态 P P P和初始状态分布 ρ 0 \rho_0 ρ0下，最大化预期累积奖励。虽然强化学习很有效，但也面临样本效率和稳定性方面的挑战。近端策略优化（PPO）是强化学习领域中很有影响力的算法，也是RLHF的关键算法。PPO的核心思想是通过引入近似目标，限制策略更新，防止与原始策略产生过大偏差。还有研究从拉格朗日对偶性的角度，统一了几种强化学习和模仿学习算法。

基于偏好的强化学习（PbRL）

PbRL尝试用偏好反馈，而不是明确的奖励信号来训练强化学习智能体。比如在训练一个自动驾驶模型时，不再单纯依靠速度、距离等指标设定奖励，而是根据人类对不同驾驶轨迹的偏好来调整模型。它结合了偏好学习和强化学习的优势，拓宽了强化学习的应用范围，减轻了设计奖励函数的困难，在机器人指令、路径规划和操纵等任务中都有应用。在PbRL中，重点关注轨迹偏好，也就是比较状态 - 动作序列段。比如比较两条不同的自动驾驶行驶轨迹，看哪条更符合人类的评价。轨迹偏好考虑了人类对各种行为结果的评估，更适合非专家用户。PbRL的一般形式是加权成对分歧损失，通过平衡多个可能冲突的偏好，来确定最优策略。与精确数值奖励相比，偏好反馈有不少优点，比如能避免随意的奖励设计，减少对专家知识的依赖，通过对偏好建模来解耦训练循环与人类的联系等。但PbRL也面临一些挑战，比如由于时间延迟导致的信用分配问题、偏好空间的实际探索问题、可能需要大量数据以及无法用学到的偏好模型进行再训练等。

模仿学习（IL）

模仿学习也叫从示范中学习或学徒学习，主要是让智能体在特定任务中模仿人类行为。比如一个机器人通过观看人类操作的视频，学习如何抓取物品。智能体观察教师示范数据集中的示范，学习观察和动作之间的映射，进而完善自己的策略，这个过程不需要环境奖励信号。广义的模仿学习旨在复制人类的欲望和意图，形成人类决策过程的复制品，这是迭代蒸馏与放大（IDA）等技术的核心。狭义的模仿学习则是在给定任务中复制特定的人类行为。行为克隆（BC）是一种简单的模仿学习策略，它使用监督学习直接从示范中学习。比如在训练一个图像分类模型时，让模型学习专家标注的图像数据，来调整自己的策略参数。BC方法通过最小化负对数似然，让策略与专家策略紧密对齐，但它面临分布外（OOD）问题，即训练和测试数据的分布不同。对抗模仿学习方法能增强策略对分布偏移的鲁棒性，但这些方法学习的是非平稳奖励，不能用于训练新策略。

逆强化学习（IRL）

与模仿学习不同，逆强化学习专注于从观察到的行为中推导奖励函数。比如观察一个熟练的棋手对弈过程，尝试推导出能反映其下棋策略的奖励函数。标准的逆强化学习方法包括特征匹配方法，它假设存在最优的专家行为或决策过程；还有最大熵方法和贝叶斯方法，这两种方法不要求最优行为。逆强化学习能保证对状态分布变化的鲁棒性，但由于额外的强化学习步骤，会增加计算复杂度。同时，它也带来了强化学习中固有的挑战，比如样本效率问题，以及在环境交互中可能存在的危险。另外，识别奖励函数仍然是一个难题。

2.3.2 基于人类反馈的强化学习（RLHF）

RLHF概述

RLHF在深度强化学习领域中拓展了基于偏好的强化学习（PbRL），目标是让复杂的人工智能系统与人类偏好更紧密地保持一致。它的主要优势在于能更好地利用人类对恰当行为的判断，比如人类可以给出示范或者手动设定奖励。这种方法在微调大型语言模型（LLMs）方面备受关注，取得了显著成果。不过，RLHF也面临一些挑战，像数据质量问题、奖励泛化风险、奖励黑客攻击，以及策略优化过程中的复杂性等。从某种角度看，RLHF可以被视为一种无深度反事实建模的递归奖励建模（RRM）过程。

RLHF的概念可追溯到早期研究，后来其应用领域不断拓展，涵盖社交机器人、人机合作学习等。相关研究不仅关注反馈与策略的关联，还将RLHF扩展到模拟机器人任务中，验证了其有效性。RLHF在大型语言模型领域有着重要应用，研究发现用RLHF训练的大型语言模型更具创造性，且与人类偏好的一致性更高。它有助于大型语言模型遵循人类指令，赋予模型如有用性、无害性和诚实性等重要特质，是微调大型语言模型的重要手段。此外，还有研究将安全强化学习框架与RLHF结合，以解决有益性与无害性对齐之间的矛盾。未来，可致力于减少对人工标注的依赖，通过迭代RLHF方法（如与辩论框架结合）提高奖励模型的效率。已有研究构建了RLHF的正式框架，将其过程描述为跨文本分布的自动编码过程，并对其收敛特性进行分析。

RLHF流程

论文回顾相关研究，给出RLHF流水线的通用框架，通常包含三个阶段：

监督微调（SFT） ：RLHF一般从预训练的语言模型起步，接着在高质量的人类指令数据集上，使用监督学习进行微调，具体是通过最大似然估计的方式。任务示例包括对话处理、指令遵循和总结等。开源数据集如Alpaca Data（包含52k条指令 - 跟随数据）、Vicuna（有70K用户共享的ChatGPT对话）等可用于此阶段。这个阶段也可在其他阶段进行。比如训练一个聊天机器人，先在大量有明确标注的对话数据上进行微调，让它初步掌握常见对话的应对方式。
收集比较数据和奖励建模 ：此阶段先收集比较数据，具体是SFT模型接收提示 x x x，生成响应对 ( y 1 , y 2 ) (y_1, y_2) (y1,y2)，这些响应对被提供给人类注释者，由他们指出对其中一个响应的偏好。然后，就像之前章节讨论的那样，利用这些比较数据构建奖励模型 r θ r_\theta rθ 。例如在训练一个文本生成模型时，模型针对同一提示生成两个不同文本，由人类判断哪个文本更好，基于大量这样的判断数据来构建奖励模型。
通过强化学习进行策略优化 ：最后一步是在奖励模型 r θ r_\theta rθ的引导下，通过强化学习将大型语言模型优化为策略 π \pi π 。大型语言模型根据提示生成响应的过程被建模为多臂老虎机环境，每个响应结束时从奖励模型 r θ r_\theta rθ获取奖励。强化学习的主要目标是调整大型语言模型的参数 ϕ \phi ϕ ，使训练提示数据集 D R L \mathcal{D}{RL} DRL上的期望奖励最大化。通常，为避免奖励过度优化，会引入基于SFT模型 π S F T \pi^{SFT} πSFT的每个标记的KL惩罚项。此外，整合来自预训练分布 D p r e t r a i n \mathcal{D}{pretrain} Dpretrain的梯度（即PTX损失）有助于维持模型性能。通过这个过程，优化大型语言模型，使其生成的响应与训练中使用的提示的人类偏好更契合。比如在训练一个智能写作助手时，根据奖励模型的反馈不断调整模型参数，让它写出更符合用户需求和偏好的文章。

RLHF的问题与改进研究

尽管RLHF在使大型语言模型与人类偏好对齐方面效果显著，但也存在一些问题，比如实现过程复杂、超参数调整困难、样本效率低以及计算开销大，这些问题使其难以扩展。针对这些问题，有诸多改进研究：

有的研究提出简单直接的方法，将强大的基础模型与微调相结合，为每个提示从模型中采样 K K K个响应，用奖励模型评估后选择奖励最高的响应用于最终微调。
有的研究将语言指令对齐问题构建为目标达成强化学习问题，提出HIR算法，分在线采样和离线训练两个阶段，利用重新标记的数据进行监督学习，该算法利用成功和失败案例，且无需额外参数。
有的研究提出RRHF方法，通过对多个来源的响应进行评分和排名，使模型概率与人类偏好对齐，实现简单且能有效对齐语言模型与人类偏好。
有的研究提出ReSt算法，结合两个循环（Grow循环和Improve循环），在固定数据集上迭代训练模型，提供了简单高效的框架，可提高奖励模型分数和翻译质量。
有的研究提出PARL，这是一种基于优化的双层框架，旨在解决RLHF中奖励建模对策略优化的依赖问题。
有的研究引入DPO，展示了奖励函数与最优策略之间的映射关系，简单高效，可直接从人类偏好数据优化语言模型，无需显式奖励模型和多阶段训练。相关研究还探讨了不同散度约束对DPO的影响，并提出广义方法 f f f-DPO 。
有的研究提出一般目标 Ψ \Psi ΨPO，用于从人类成对偏好中学习，分析RLHF和DPO的行为，揭示其潜在过拟合问题，并通过设置 Ψ \Psi Ψ为恒等函数提出IPO方法来缓解过拟合。
有的研究引入CPL，利用基于遗憾的偏好模型直接提供关于最优策略的信息。

开放讨论
RLHF常用于大型语言模型的安全对齐，但仍有许多关键问题亟待解决。比如，如何在对齐过程中平衡无害性和有益性，有研究尝试将SafeRL框架（包括成本模型和奖励模型）整合到RLHF中，以解决这两个指标之间的内在矛盾。另外，即使没有恶意意图，仅在良性和常用数据集上进行微调，也可能意外降低大型语言模型的安全对齐程度，甚至在看似绝对安全的数据集上微调也可能引入新的安全风险。而且语言模型可能具有弹性，对对齐工作产生抗性。那么如何在进一步微调后仍保持模型完美的安全对齐，就是一个值得探讨的问题。

人类偏好存在个体、群体和社会差异，在从注释者收集偏好数据时，这种差异尤为明显。为解决该问题，有研究提出方法提取给定偏好数据集生成背后的基本规则，类似于宪法人工智能中基于预定义规则由大型语言模型生成偏好数据集，逆宪法人工智能旨在提取这样的规则以重建偏好数据集。这个问题可表述为一个优化问题，通过生成基于规则的偏好并与原始偏好匹配，来推断特定偏好数据集背后的规则，该方法有望识别潜在偏差，或重复使用规则生成新数据，从而扩充现有数据集或创建符合个体偏好的新数据集。

2.4 可扩展监督：迈向超级对齐之路

统计学习常常依赖于数据分布的一些假设，像独立性和同分布假设。所以在某些情况下，尤其是特定的数据分布下，这些算法就不好使了（Zhou等人，2022）。在基础系统里，通过可视化检查能快速发现问题（Christiano等人，2018；Ngo等人，2024）。但随着人工智能系统越来越强大，要是训练信号捕捉得不够，或者损失函数设计错了，就经常会导致灾难性后果（Russell等人，2015；Hubinger等人，2019c；Cotra，2021），比如通过混淆差异来欺骗人类（Russell，2019）、规范博弈（Victoria等人，2020）、奖励黑客攻击（Brown等人，2020a），还有追求权力的动态行为（Carlsmith，2022）。

从人类的角度看，这就说明人工智能系统优化的目标和我们心里的理想目标有差距。所以在各种决策中进行有效监督这个事儿就很关键了（Bowman等人，2022；Li等人，2023a），这通常被叫做可扩展监督（Amodei等人，2016），它面临两个实际挑战：

人类频繁评估人工智能系统行为成本太高。比如训练过程很耗时，要是把人类直接实时放进训练循环，那会浪费大量人力资源，还会拖慢训练效率（Christiano等人，2017）。
人工智能系统行为本来就复杂，评估起来很困难，特别是在那些难以理解、风险又高的任务上（Saunders等人，2022），像教人工智能系统总结书籍（Wu等人，2021）、生成复杂代码（Pearce等人，2022）、预测未来天气变化（Bi等人，2023）这些任务。

可扩展监督就是要保证哪怕人工智能系统超过了人类的专业水平，也能和人类的意图保持一致。在这种背景下，我们主要关注提出一些有前景但还没普遍应用的构建可扩展监督的方向（Amodei等人，2016；Leike等人，2018）。

2.4.1 从基于人类反馈的强化学习（RLHF）到基于反馈的强化学习（RLxF）

RLHF范式给复杂系统的对齐提供了一个框架（OpenAI，2023a；Touvron等人，2023）。但它也有问题，比如人类评估不准确，而且成本还高（Christiano等人，2017；Casper等人，2023b；Perez等人，2023）。一个关键的不足是，在打造比人类还厉害的人工智能系统时，很难用RLHF来扩展人类反馈（Wu等人，2021）。在RLHF范式基础上，我们引入RLxF作为可扩展监督的基本框架，想提高反馈的效率和质量，还能为更复杂的任务扩展人类反馈。这是通过加入人工智能组件来增强RLHF（Fernandes等人，2023）。RLxF里的"x"代表人工智能和人类的融合。我们会在后面进一步探讨RLxF的具体方法。

基于人工智能反馈的强化学习（RLAIF）

RLAIF是RLHF的扩展。RLAIF拓展了Bai等人（2022a）的流程，发现用RLHF训练的大语言模型可能会避开敏感和有争议的问题，这可能会降低模型的整体实用性。为了解决这些问题，Bai等人（2022b）提出了一个训练流程，用大语言模型（像GPT - 4或者其他语言模型）生成的反馈。按照预设标准，策略模型在红队测试的时候会自我评估和修改响应。然后用修改后的响应对初始策略模型进行微调。最后，微调后的策略模型评估另一个语言模型响应的无害性（也就是人工智能反馈）。和RLHF类似，用这个反馈训练奖励来优化策略模型。Lee等人（2023a）在总结任务上比较了用RLAIF和RLHF训练的模型的表现。结果显示，用人工智能反馈训练的模型和用人类反馈训练的模型表现差不多，不过还是有点细微差别。反过来，Findeis等人（2024）研究了宪法人工智能（CAI）的逆问题：给定一个反馈数据集，怎么提取一个规则集，能让大语言模型最好地重建原始注释？这个问题不光把人工智能反馈从偏好转换成了对应的规则集，还提供了一种为人工智能反馈合成新偏好数据的办法。

基于人类和人工智能反馈的强化学习（RLHAIF）

RLHAIF把人类和人工智能模型结合起来进行监督。Wu等人（2021）研究了用人工智能帮人类总结书籍的可行性。这个方法把书籍总结任务分解成子任务，搞出个树状结构，方便人类监督和评估模型的表现。同时，Saunders等人（2022）研究了用人工智能帮人类评估模型效果。他们发现模型生成的批评能帮人类发现可能漏掉的缺陷。Bowman等人（2022）提出了一个概念验证实验，来证明基于三明治结构（Cotra，2021）的可扩展监督技术的潜力。和不可靠的大语言模型合作时，结果表明人类的表现比模型和他们自己原本的表现要好得多。Perez等人（2023）用语言模型自动生成评估不同规模语言模型行为的数据集。作者们做出了154个经过人类验证的高质量数据集。这些方法证明了用人工智能辅助来扩大人类对复杂问题和不同领域的监督是可行的。

在一定程度上，RLAIF和RLHAIF为创建一个人类干预最少的训练循环提供了可行的办法，这样就能降低训练成本。遵循透明且易懂的人工智能行为准则的人工智能监督，可能会大大有助于实现可扩展监督（Bowman等人，2022）。

讨论

现在正努力通过不再只依赖人类来增强RLHF（Leike等人，2018）。考虑到人类反馈的多维度特性，已经想出了各种办法，根据特定规则给出有针对性的人类判断。比如像聊天流畅性（Saunders等人，2022）和隐私保护（Carr，2023）这些规则。Saunders等人（2022）把高质量对话的要求拆分成智能体该遵守的自然语言准则，然后分别对每条准则进行评估。通过收集有针对性的人类评估，并在这些数据上训练模型，我们能得到更高效的基于规则的奖励模型。这个办法大大提高了对话智能体的效果，让它们跟提示语言模型比起来，更有帮助、更准确、更可靠。Carr（2023）提出了基于隐私反馈的强化学习（RLPF），想把语言模型的输出质量和隐私保护协调起来。这个方法用自然语言处理技术对模型生成的文本进行实时隐私风险评估，然后根据评估结果调整强化学习反馈信号。明确地说，如果生成的文本包含敏感信息，就会收到负面反馈，高质量、不泄露信息的文本则会收到正面反馈。随着模型不断训练，它会逐步提升能力，同时提高文本质量，减少隐私泄露。跟严重依赖大规模手动数据标注的传统学习方法比起来，这个方法用成熟的自然语言处理技术能更高效地评估隐私风险。

RLxF方法的核心是把大问题分解成小的子问题，这样就能用更高效的工具，像人工智能和软件，来快速解决子问题。利用这些子问题的解决方案，就能加快主要问题的解决。这些技术可以看成是迭代蒸馏与放大（IDA）的初级形式；主要区别在于它们没有持续的迭代过程。不过，有证据显示它们有希望为超越人类表现的人工智能系统提供反馈（Wu等人，2021）。所以，这些方法能作为训练更先进人工智能系统的基础技术。

Figure 5

图5是一个树形图，总结了和可扩展监督相关的关键概念和文献。根节点是可扩展监督，它的目标是确保就算人工智能系统超越了人类能力，也能和人类意图保持一致。主要分支是一些有前景的框架，像基于反馈的强化学习（RLxF）、迭代蒸馏与放大（IDA）、递归奖励建模（RRM）、辩论和合作逆强化学习（CIRL）。进一步的子分支列出了探索每个框架的关键研究。这个图给出了随着人工智能系统变得更复杂，构建有效又安全的监督机制的研究方向概览。比如说，RLxF下面又分出了基于人工智能反馈的强化学习（RLAIF）和基于人类和人工智能反馈的强化学习（RLHAIF）；IDA、RRM、Debate、CIRL也都有各自相关的研究文献引用，通过这个图能很清楚地看到可扩展监督这个领域的研究结构和方向。

2.4.2 迭代蒸馏与放大

迭代蒸馏与放大（IDA）框架介绍

迭代蒸馏与放大（IDA）通过人类与人工智能之间的迭代协作，提出了一个构建可扩展监督的框架（Christiano等人，2018）。这个过程从一个初始智能体A[0]开始，A[0]模仿人类H的决策。A[0]会使用一种强大的技术进行训练，使其具备接近人类水平的能力，这就是蒸馏步骤；然后，人类H与多个A[0]实例进行协作交互，从而创建出一个增强的智能体A[1] ，这便是放大步骤。后续的连续过程在算法1中有描述。

广义和狭义定义区分

Cotra（2018）在强化学习（RL）和逆强化学习（IRL）中区分了广义和狭义的定义。广义RL向人工智能系统提供稀疏的奖励信号，允许其自主探索和优化未来累积奖励。这可能会产生超越人类的新颖策略，但很难精确确定我们真正关注的内容。狭义RL则提供密集反馈，奖励选择的合理性而非最终结果，这使机器学习系统更像人类，但也限制了其能力。同样，广义IRL从人类行为的所有方面推断深层长期价值，而狭义IRL仅推断短期工具性价值。前者风险较高，后者能力有限。

IDA训练中的技术运用

在IDA训练期间，需要使用狭义技术来确保每个智能体本身模仿人类行为。具体来说，狭义RL或模仿学习（IL）可用于训练智能体，使其尽可能像人类且可控。人类可以利用智能体的计算能力和并行性来制定更具前瞻性的宏观策略，这本质上是对人类内在能力的放大。在下一次迭代中，智能体再次使用狭义技术模仿这个强化的人机系统。这使得从狭义能力到广义能力能够逐步过渡，同时使智能体与人类价值观保持一致。随着迭代次数增加，人机系统变得越来越强大，逐渐接近一个既具有高能力又与人类价值观一致的系统，实现安全性和能力兼具。换句话说，狭义技术用于确保智能体遵循人类价值观，而放大阶段扩展的人类策略是利用智能体的一种方式，并不会扩展智能体自身的学习目标。

IDA的示例与相关讨论

IDA的可行性引发了大量讨论（Yudkowsky，2018）。IDA运行基于一个关键假设，即错误不会在迭代过程中持续累积（Leike等人，2018）。因此，在蒸馏和放大步骤中仍然存在技术挑战，需要足够先进和安全的学习技术。此外，尽管最初的作者将IDA比作AlphaZero的训练过程（Silver等人，2017），并在简单环境中进行了演示（Christiano等人，2018），但其实际可行性取决于确保人类H能够将复杂任务的部分工作委派给人工智能A，就像领导者协调团队共同完成项目一样。在实践中，Gato（Reed等人，2022）展示了IDA的关键方面（Mukobi，2022），这可能为通用人工智能（AGI）铺平道路。它将多个专家人工智能的能力整合到一个单一模型中，验证了使用当代深度学习可以实现IDA的蒸馏过程。虽然尚未完全实现，但Gato暗示了放大的潜力，利用其多样化的技能来加速新任务的学习。然而，Gato缺乏保持对齐属性的安全放大或蒸馏方法。为像Gato这样的模型设计保持对齐的IDA方法仍然是人工智能安全研究的关键方向。从本质上讲，虽然Gato标志着在实现IDA方面取得了显著进展，但仍需要进一步的理论发展，以确保IDA框架能够导向安全的通用人工智能。

Algorithm 1 迭代蒸馏与放大算法

整体流程

算法1描述了迭代蒸馏与放大（IDA）的过程，其核心是一个不断重复的迭代结构。首先是IDA过程的总体框架：

初始化 ：在IDA(H)过程中，先对智能体A进行随机初始化。这里的H代表人类，A是人工智能体，随机初始化就是给A一个起始状态。
迭代循环 ：进入一个无限循环（repeat - until False结构），在这个循环里不断进行放大和蒸馏操作。
- 放大步骤（AMPLIFY） ：调用AMPLIFY(H, A)函数，这是一个交互式过程，在这个过程中人类会多次调用人工智能，来提升人类在相关任务上的原始表现。简单来说，就是人类借助人工智能的能力，一起把任务完成得更好。比如在设计一个建筑模型时，人类设计师可以利用人工智能在数据分析、创意生成等方面的能力，来完善自己的设计方案。
- 蒸馏步骤（DISTILL） ：调用DISTILL(B)函数，这里的B是经过放大步骤得到的结果。蒸馏步骤会使用狭义、稳健的技术来训练人工智能，使其能够执行监督者（这里可以理解为人类，因为人类设定任务目标等）已经知道如何执行的任务。例如在训练一个图像识别模型时，通过蒸馏步骤，让模型学习如何准确识别图像中的物体，就像人类期望的那样。
持续迭代 ：这个循环会一直重复，不断进行放大和蒸馏，逐步提升人工智能体的能力，使其越来越接近既具备高能力又与人类价值观一致的目标。

子过程说明

DISTILL过程 ：在DISTILL(overseer)过程中，它会返回一个使用狭义、稳健技术训练的人工智能，这个人工智能能够执行监督者（比如人类）已经懂得如何执行的任务。
AMPLIFY过程 ：AMPLIFY(human, AI)过程强调了这是一个交互式过程，人类通过多次调用人工智能来改进自己在相关任务上的表现。

2.4.3 递归奖励建模

奖励建模基础与RRM目标

就像在2.2节讨论的，奖励建模是利用人类反馈来训练一个奖励模型，然后智能体去追求这个奖励模型所设定的目标。这样能把系统目标的构建和对其行为的评估分离开（Ibarz等人，2018）。通过这种方式，奖励模型为人工智能系统的优化方向提供了指引。特别值得一提的是，它能让系统精准地和人类的意图、价值观对齐，比如微调语言模型使其遵守人类指令（Bai等人，2022a；Touvron等人，2023）。而且，奖励建模在推动人工智能研究方面也很有价值（Zhao等人，2023；Bukharin等人，2023）。递归奖励建模（RRM）（Leike等人，2018）则是想把奖励建模的应用拓展到更复杂的任务中。RRM的核心思路是，让已经训练好的智能体 A t − 1 A_{t - 1} At−1通过执行奖励学习任务，为在更复杂任务上训练后续智能体 A t A_{t} At提供反馈，这个过程中智能体是基于自身的放大版本来进行操作的。初始智能体 A 0 A_{0} A0是通过纯粹的人类反馈进行基础奖励建模训练的。这种方法不仅受人类反馈影响，还受模型自身对什么是有奖励结果的评估影响。如果"评估结果比产生行为更容易"这个假设成立，那么奖励建模的迭代过程就能不断提升监督更强大人工智能系统的能力，为将监督拓展到更复杂领域铺平道路。这个过程在算法2中有详细描述。

城市规划示例

举个例子，假设我们要训练人工智能A来设计一个全面的城市规划。设计城市涉及很多复杂元素，比如交通规划、公共设施布局，还有住宅和商业区的分布等。评估这样的城市设计是个大挑战，因为很多问题只有在现实世界长期测试后才会显现出来。为了推进这个过程，我们可能需要一个专门负责交通规划的智能体B。但交通规划本身又是个多方面的任务，所以我们还需要其他智能体来评估道路宽度、交通流量、公共交通设计等方面。对于像测量道路宽度这样的子任务，我们可以训练一个辅助智能体，来检查是否符合安全标准，是否考虑了各种交通方式等等。这样，我们就建立了一个RRM过程，每个智能体都在评估子任务的智能体帮助下进行训练。这种方法有点像大公司的组织架构（Leike等人，2018）。在城市规划的情境下，主要规划团队（类似CEO）负责最终的设计决策。他们的决策依据来自交通团队（类似部门经理）的建议，而交通团队的建议又基于道路宽度团队（类似经理）等的输入，依此类推。每个决策层级都依赖于下一层级的反馈，每个任务都通过奖励建模来优化。

RRM面临的挑战及应对

RRM面临的挑战可以围绕外部对齐和内部对齐的概念来描述（Hubinger，2020）。外部对齐关注反馈机制是否足以保证学习到的奖励模型在动作模型感知的领域内准确无误。这个挑战取决于多个因素，包括人类反馈的质量、泛化的难度，以及智能体欺骗的可能性。相比之下，内部对齐重点关注人类如何有效地使用透明工具，来防止奖励模型和智能体出现欺骗或灾难性的行为。这取决于监督机制在验证奖励模型没有发生意外优化，以及智能体没有短视行为方面的有效性（Cotra，2018）。

缓解这些挑战的潜在方法（Leike等人，2018）包括：在训练过程中通过在线反馈来修正奖励模型（Christiano等人，2017）；通过离策略反馈来告知不安全状态（Everitt等人，2017）；通过无监督学习或标注，利用视频和文本等现有数据（Baker等人，2022）；在不同层级进行分层反馈（Bukharin等人，2023）；通过对抗训练来发现漏洞（Mady等人，2018）；以及在征求反馈时进行不确定性估计（Hadfield - Menell等人，2016；MacGlashan等人，2017）。RRM的优势在于其竞争性训练方法，它需要人类反馈而非示范，这可能让反馈更可靠、更容易获取（Hubinger，2020）。本质上，RRM的过程和IDA（Christiano等人，2018）类似，只是奖励建模取代了监督学习或模仿学习。所以，RRM面临的挑战和IDA遇到的很相似，特别是在防止错误累积方面。另外，奖励建模本身不一定能提炼出一个狭义模型（Cotra，2018），这在权衡对齐程度和性能时带来了挑战。

Algorithm 2 递归奖励建模算法
算法流程

初始化 ：第一步是基于用户反馈（可以是偏好或者数值信号），使用奖励建模来初始化智能体 A 0 A_{0} A0 。这就像是给整个递归奖励建模过程设定一个起点，让智能体从人类反馈中获取初始的奖励模型信息。
迭代循环 ：进入一个循环， t t t从1开始依次递增。在每次循环中：
- 让 A t − 1 A_{t - 1} At−1协助用户评估结果。比如在前面城市规划的例子里，负责交通规划的智能体（假设是 A t − 1 A_{t - 1} At−1 ）可以帮助人类评估交通规划相关的结果，看是否符合要求、有没有达到预期效果等。
- 基于用户在 A t − 1 A_{t - 1} At−1协助下的评估结果，训练智能体 A t A_{t} At 。这里 A t A_{t} At的目标通常比 A t − 1 A_{t - 1} At−1更复杂。还是以城市规划为例，后续负责更综合城市规划任务的智能体 A t A_{t} At ，要考虑的因素更多、任务更复杂，它通过前面智能体协助评估得到的反馈来进行训练，提升自己完成更复杂任务的能力。
持续迭代 ：这个循环不断进行，每一次迭代都基于上一次的结果进行，逐步训练出能处理更复杂任务的智能体，实现递归奖励建模的过程，让智能体在越来越复杂的任务中通过奖励建模不断优化。

2.4.4 辩论

辩论机制概述

辩论是指两个智能体给出答案和陈述，来协助人类裁判进行决策（Irving等人，2018），具体过程在算法3中阐述。这是一种零和博弈的辩论游戏，智能体既要努力找出对方的缺陷，又要争取获得人类裁判更高的信任，它有可能成为构建可扩展监督的一种方法。例如在围棋游戏中，人类裁判可能仅从棋盘本身难以看出优势方，但通过观察对局过程和最终结果，就能更容易推断出来。

这种方法基于一个关键假设：为真理辩论通常比为谬误辩论更容易，这使得说实话的辩论者具有优势。然而，这个假设并非普遍成立。比如在一个复杂问题中，人类可能无法理解辩论中使用的专业概念。此外，梯度下降的局限性可能会导致不理想的循环模式（即当优化某个属性，如诚实和突出缺陷时，模型往往会忽视或削弱另一个属性）（Irving等人，2018）。

值得一提的是，随着大语言模型能力的提升，我们已经能看到辩论的实际应用案例（Du等人，2023；Claude，2023）。但在实际场景中，辩论也会面临一些挑战（Irving等人，2018）。比如某些问题可能过于复杂，人类难以理解，或者内容太多难以完整呈现。同样，有时最佳答案可能极长，需要在很长的文本跨度中去寻找。在辩论过程中，智能体可能会选择一个响应，然后随着辩论推进，再揭示问题或答案的某些部分。Irving等人（2018）针对这个过程做了一个简单实验。同时，我们必须考虑人类时间有限。在一些需要与环境交互的场景中，比如指挥机器人，每次行动可能都需要进行一场不同的辩论。由于时间限制，人类并不总是能对每场辩论做出评判。为应对这个挑战，我们可能需要设计机器学习模型来预测人类反馈。基于此，Khan等人（2024）进行了实验，让较小的非专家模型作为裁判，评判两个专家模型之间的辩论，这些非专家模型可以访问基础数据，也能引用其中的内容。实验表明，这些较小的非专家模型在参考专家模型辩论时能达到更高的准确率，不过与人类裁判相比仍有差距。此外，专家模型还可以针对说服力进行优化，使裁判能更准确地判断并更容易发现真相。作者强调，辩论必须基于可验证的证据，以防止辩论者捏造事实。Kenton等人（2024）进一步研究了在较强模型引导下，使用较弱模型作为辩论裁判的情况。他们的实验聚焦于辩论者和裁判之间存在信息不对称和对称的任务，并扩展到包含多模态输入。他们应用的协议评估了没有辩论协议时裁判的基线表现，以及辩论和咨询协议的情况。这些实验考虑了辩论者或顾问可以选择立场的指定位置和案例。实验结果表明，辩论的表现始终优于咨询。较弱的裁判难以充分利用辩论协议，而咨询可能会显著降低裁判的准确率，尤其是当顾问主张错误解决方案时。总体而言，作者认为这些发现对于辩论框架来说只是有一定潜力。不过，这些实验仅在推理时使用模型进行，当辩论协议整合到训练中时可能具有更大潜力。鉴于评判辩论的任务对于主要针对问答进行微调的模型来说属于分布外任务，这一点尤为重要。

辩论机制的收敛性及相关讨论

另一个需要考虑的是辩论机制的收敛性（Irving等人，2018）。Du等人（2023）指出，辩论框架存在一种内在倾向，即最终会趋向于单一响应，即便不能保证准确性。同时，如果在实现收敛时出现挑战，我们可能不得不依靠直觉来判断收敛的有效性。这意味着需要人类评估者进行干预，并且要求这些人类评估者具备一定的专业知识，这是必须解决的挑战。

此外，从不同角度对辩论有很多讨论。Ngo（2021）将辩论视为迭代放大的一种类型，但认为它更侧重于在具体研究问题中打下基础，其对抗性框架使问题更容易被发现。Michaelcohen（2020）表达了对激励辩论者使用欺骗策略来影响评判过程的担忧。Armstrong（2019）和Barnes（2020）阐述了辩论过程中可能出现的各种问题，包括论点模糊问题、回答含糊不清以及误导性暗示的传播等。虽然有人可能认为论点中存在缺陷的概率足够低，从而主张对对方辩论者给予信任，但也有人认为存在足够高的概率在论点的某个地方发现缺乏信任的情况。Beth Barnes（2020）引入了交叉询问的概念，以激励辩论者提供更多信息。在这个过程中，辩论者有权选择一个先前的主张进行审查，并获取对方辩论者的回复副本。整个交流过程会被记录下来，辩论者可以向裁判展示相关部分。交叉询问的引入有力地遏制了不诚实的辩论者利用笼统叙述来误导裁判的行为。

辩论（Irving等人，2018）、迭代蒸馏与放大（IDA）（Christiano等人，2018）和递归奖励建模（RRM）（Leike等人，2018）有显著的相似性。这些方法可以从一个基本原理来理解：评估可能比任务完成更简单。因此，利用人工智能系统的评估能力可以带来分布外的能力提升。这些方法对人类的好处，尤其是在减轻错误累积方面，也具有相似性。

Algorithm 3 辩论算法

算法流程

初始化问题集 ：首先初始化一个问题集 Q Q Q ，这是后续辩论中问题的来源。比如准备一系列关于城市规划、科技发展等不同领域的问题，放在这个集合里。
初始化竞争智能体 ：接着初始化两个相互竞争的智能体。这两个智能体就是辩论的双方，它们会针对提出的问题给出不同观点和答案。
选择问题 ：从问题集 Q Q Q中选择一个问题 q q q ，并将这个问题展示给两个智能体。例如从城市规划相关问题中随机选一个，像"如何优化城市交通拥堵问题"，让两个智能体去思考和准备答案。
智能体作答 ：两个智能体针对问题 q q q分别给出自己的答案 a 0 a_0 a0和 a 1 a_1 a1 。比如一个智能体可能主张多建设地铁线路，另一个智能体可能主张优化道路设计和交通规则。
初始化辩论记录 ：将辩论记录 T T T初始化为一个空列表，这个列表用于记录后续辩论过程中双方的陈述。
辩论轮次循环 ：按照预先定义的辩论轮次数，进入循环。在每一轮中：
- 智能体进行辩论陈述 s s s 。两个智能体轮流发言，对自己的观点进行阐述，也会对对方的观点提出质疑等。
- 将陈述 s s s添加到辩论记录 T T T中。这样就能把整个辩论过程记录下来，方便后续裁判查看。
裁判判定 ：循环结束后，裁判观察问题 q q q 、两个智能体的答案 a 0 a_0 a0和 a 1 a_1 a1 ，以及辩论记录 T T T ，然后决定获胜的智能体。比如裁判根据双方辩论的逻辑性、论据的充分性等方面，判断哪个智能体在这场辩论中表现更优。