可信的人类与人工智能协作：基于人类反馈和物理知识的安全自主驾驶强化学习

Abstract

在自动驾驶领域，开发安全且可信赖的自动驾驶策略仍然是一项重大挑战。近年来，结合人类反馈的强化学习（RLHF）因其提升训练安全性和采样效率的潜力而备受关注。然而，现有的RLHF方法在面对不完美的人类示范时，往往会表现不佳，可能导致训练振荡甚至表现比基于规则的方法更差。受人类学习过程的启发，我们提出了物理增强的人类反馈强化学习（PE-RLHF）。该新框架协同融合了人类反馈（如人类干预和示范）和物理知识（如交通流模型）进入强化学习的训练回路中。PE-RLHF的关键优势在于，即使人类反馈质量下降，所学习的策略仍能至少达到给定物理策略的表现，从而确保了可信赖的安全性改进。PE-RLHF引入了一种物理增强的人机协作（PE-HAI）模式，用于在动态行动选择中结合人类和物理策略，并通过代理价值函数采用无奖励的方法来捕捉人类偏好，还结合了最小干预机制以减少人类导师的认知负担。通过在多种驾驶场景中的大量实验，PE-RLHF显著优于传统方法，取得了在安全性、效率和广泛适应性上的最新（SOTA）表现，即使在人类反馈质量不同的情况下，亦表现优异。PE-RLHF背后的理念不仅推动了自动驾驶技术的发展，也为其他安全关键领域提供了有价值的见解。

项目地址：https://zilin-huang.github.io/PE-RLHF-website/

Introduction

自动驾驶技术在多个驾驶场景下具有提升交通安全性和流动性的重要潜力。多家自动驾驶公司近年来展示了令人印象深刻的性能指标。例如，2023年，Waymo的自动驾驶车辆在加州总共行驶了4,858,890英里。同样，Cruise的自动驾驶车辆达成了2,064,728英里的无安全员驾驶里程和583,624英里的安全员驾驶里程，而Zoox报告了710,409英里的安全员驾驶里程和11,263英里的无安全员驾驶里程。尽管这些进展令人瞩目，自动驾驶技术在所有驾驶场景下实现完全自动化（第5级）仍然任重道远。尤其是，开发安全且具有广泛适应性的驾驶策略在多种安全关键场景中仍然是一个正在进行的研究挑战。最近的一项调查显示，安全性，而非经济后果或隐私问题，是公众对自动驾驶汽车接受度的主要担忧。此外，各种机构和公众仍对自动驾驶系统的可信度存有疑虑。因此，亟需通过开发可信赖且安全保障的驾驶策略来弥合预期的自动驾驶未来与当前先进技术之间的差距。

通常，自动驾驶公司采用分层方法将驾驶任务分解为多个子任务。这种方法降低了计算复杂性，并提供了良好的决策透明性。然而，这需要繁琐的手工规则制定，并且在复杂且高度交互的场景中可能会失效。近年来，基于学习的端到端方法因其能够从收集的驾驶数据中学习驾驶策略而逐渐受到关注，为设计更高效的驾驶策略提供了可能的途径。一个显著的例子是2023年CVPR的最佳论文UniAD。如图1（a）所示，模仿学习（IL）和强化学习（RL）是两种主要方法，特别是在端到端驾驶策略学习的背景下。IL旨在通过模仿人类驾驶行为来学习驾驶策略。尽管IL在特定的决策场景中表现良好，但在实际应用中面临两个重大问题：分布偏移和渐近性能限制。即使道路结构或周围车辆的轻微变化也可能导致灾难性后果，这在自动驾驶这种高风险的场景中尤为关键。

RL通过迭代自我改进，有潜力缓解模仿学习方法的固有局限性。在各种决策场景中，RL方法的有效性得到了验证，例如高速公路出口、交通拥堵和变道。然而，RL通常需要大量与环境的交互，可能会降低采样效率，并在训练和测试阶段带来安全问题。此外，设计合适的奖励函数以捕捉所有预期的驾驶行为可能具有挑战性。如果没有精心设计，这些奖励函数可能会导致意想不到的后果。许多自动驾驶文献中提出的奖励函数未通过基本的一致性检查，可能导致不安全的行为。因此，少有自动驾驶公司准备在其生产车辆中部署此技术。

这些观察结果促使我们探索一个关键问题：我们是否可以开发一种新的交互学习方案，使得强化学习（RL）能够同时从人类反馈和物理知识中学习，从而确保在RLHF技术中的"可信安全改进"？在这项工作中，我们提出了一个名为物理增强的强化学习与人类反馈（PE-RLHF）的新框架，以弥合上述差距。如图1（c）所示，PE-RLHF的独特之处在于其能够保持RLHF在提高训练安全性和采样效率方面的优势，同时利用物理知识来减轻因人类反馈不完美而导致的训练波动或发散。换句话说，我们放宽了对完美人类导师的假设，以考虑人类偶尔提供次优示范的情况。在这项工作中，"可信"这一概念意味着提出的PE-RLHF通过一个可控且可解释的基于物理的模型，确保即使人类反馈质量下降也能建立一个性能底线。我们强调，本工作并不旨在解决自动驾驶中的所有可信性问题，而是提供一个框架，结合RLHF和基于物理的方法的优点，以实现更好的安全性能（即可信的改进）。

3.问题描述

本研究的目标是为自动驾驶开发一个安全且可信赖的驾驶策略学习框架。该框架应具备以下特点：(a) 它应能够提供可信赖的安全性能保证。(b) 它应具有很强的泛化能力，能够应对现实世界交通场景中的环境不确定性（如道路几何变化和不可预见的障碍物）。(c）它应具有在有限训练数据下的高采样效率。为实现这一目标，我们提出将人类反馈和交通科学中的物理知识整合到强化学习的训练回路中。通过引入人类反馈，智能体可以以更高的采样效率进行学习。此外，通过引入物理知识，我们可以在统计上保证其安全性能优于给定的基于物理的策略。具体来说，我们将目标分解为以下子问题：

问题1（从人类反馈中学习）。传统的基于学习的方法，如模仿学习（IL）和强化学习（RL），在确保安全性和采样效率方面面临挑战。为了利用人类智慧，我们应设计一个方案，使自动驾驶智能体能够从人类反馈（如干预和示范）中学习。

问题2（可信赖的安全改进）。由于感知能力有限、注意力分散或疲劳等因素，人类演示的质量可能会随着时间的推移而下降，导致训练失败。为了确保基于人类反馈的强化学习方法（RLHF）的有效性和可信度，我们应确保即使在人类演示质量下降时，自动驾驶车辆（AV）智能体的策略性能仍不低于现有的基于物理的方法。

受到行为保护方法的启发，我们可以利用交通科学中成熟的基于物理的模型（能够处理大多数驾驶场景，除了长尾场景），作为自动驾驶车辆策略安全性能的可信赖下限。形式上，我们将问题定义如下：

其中，H是规划的时间范围。混合策略

定义为在人类策略

和基于物理的策略之间选择预期回报较高的动作。该公式确保即使在人类反馈可用时，AV智能体的性能至少与一样好。此外，这种方法提供了一个可信的安全下限，即使在人类演示质量下降时。通过从学习，AV智能体有可能超过

和的性能。

4. 增强物理知识的"人机协作"范式

4.1.启发

正如我们之前提到的，大多数人机协作范式通常依赖于"完美人类导师"的假设，但在实践中这可能并不总是成立。观察人类学习技能的过程，他们不仅依赖于人类教师，还依赖于既有的知识。比如，当学习外语时，学生可能会受到两位导师的指导：母语者和语法书。母语者的专业知识对学生的语言习得至关重要，提供了特定情境的指导和实际例子。然而，在某些情况下，母语者的解释可能不够清晰或不准确，比如使用与标准语法规则不同的口语表达。在这种情况下，语法书可以作为一个可靠的参考和安全网，确保学生遵循语言的基本规则。因此，通过从两位导师那里学习，学生的语言技能得到了提高。

受人类学习过程的启发，我们提出了"增强物理知识的人机协作"（PE-HAI）范式，其主要组成部分如图2（b）所示。在PE-HAI中，AV配备了三种策略：

（类似于母语者的角色）、（类似于语法书的角色）和（类似于学生的角色）。具体来说，基于可解释的物理模型生成动作，而

则基于人类的判断和情境感知提供动作

。当没有人类接管时，AV执行，并通过与环境的交互进行探索学习。当人类接管时，我们设计了一个动作选择机制，以确定是将

还是应用于环境中。通过这种方式，尽管

有时可能会由于疲劳等因素而失败，仍可以在这种情况下生成可行且安全的动作。

4.2. 人类策略生成

4.2.1. 人机共享控制

在本研究中，如图2（b）所示，我们采用了一种紧密的人机共享控制形式，将从干预中学习（LfI）和从示范中学习（LfD）集成到一个统一的架构中。更多关于人机共享控制的详细信息可以在我们之前的工作中找到。切换函数 T 决定了人类接管的状态和时机，允许人类展示正确的动作以指导学习代理。令 T (s) = 1 表示人类接管，T (s) = 0 表示否则。混合行为策略 πmix 可以表示为：

实际的策略分布。具体而言，πAV是在混合行为策略 πmix的样本上训练的，这可能无法准确代表 πAV 的真实动作分布。这些策略之间状态分布的显著差异，量化为 ∥dπmix − dπAV ∥1，可能导致分布转移，进而对训练过程产生不利影响。这个问题类似于行为克隆（BC）中的一个问题，在这种情况下，πAV 完全依赖于 πhuman样本进行学习，尽管没有干预。为了在自动驾驶的背景下检查这种状态分布的差异，我们首先引入一个相关的引理。

引理 1. 人类策略 πhuman 和自动驾驶策略 πAV 之间的状态分布差异由它们的期望策略差异界定：

我们将这个引理应用于人类-AI 共享控制的设置，并推导出 ∥dπmix − dπAV ∥1 的界限。

定理 1. 对于任何由人类策略 πhuman、自动驾驶策略 π~AV ~和切换函数 T (s) 推导出的混合行为策略 πmix，其状态分布差异由以下公式界定：

其中，

是加权策略差异的期望干预率。

对公式 5 和 6 的更详细分析表明，尽管这两者都通过每个状态的策略差异来界定状态分布的差异，但基于干预的上界进一步被干预率 β 收紧。在实践中，最小化 β 可以减少这种差异，从而可能减轻部署过程中的性能下降。下角标

4.2.2. 切换函数形式

一般来说，切换函数有两种常见形式：基于概率的切换函数和基于动作的切换函数。在本工作中，我们使用了基于动作的切换函数，当智能体的动作与人类的动作偏离时触发干预，如接管。基于动作的切换函数Tact设计为:

一个布尔指示符I(st)表示人类接管，应用于环境的动作定义为：

该设置消除了不必要的状态，并减轻了与传统RL方法相关的安全问题。

为了测量PE-HAI设置中Tact的有效性，我们考察了混合行为策略J(πmix)的回报。根据Eq.7定义的Tact(s)，J(πmix)可以通过以下定理进行界定：

定理2：基于动作的切换函数Tact，混合行为策略J(πmix)的回报有上下界

其中

表示共享控制期间人类策略的平均熵，β是来自定理1的加权干预率。这个定理为J(πmix)建立了一个下界，包括πhuman的回报和与其熵相关的附加项。结果表明，Tact通过允许AV从人类示范中学习，有效地促进了高回报的训练数据。因此，在πmix的轨迹上训练πAV有效地优化了AV次优性的上界。

虽然以上分析为人机共享控制的可行性和效率提供了见解，但成功与否与人类导师的质量密切相关。特别是，定理1和定理2中的界限直接与πhuman的表现相关。因此，如果πhuman的表现下降（例如，由于疲劳或分心），方法的有效性可能会显著下降，甚至导致失败。

为了测量PE-HAI设置中Tact的有效性，我们考察了混合行为策略J(πmix)的回报。根据Eq.7定义的Tact(s)，J(πmix)可以通过以下定理进行界定：

4.3 基于物理的策略生成

除了利用人类反馈外，我们还将物理知识纳入PE-HAI框架，以建立框架性能的可信下限。πphy是基于成熟的交通流模型导出的，即使在人类输入质量下降或不一致的情况下，也能作为可靠的保障。我们使用了智能驾驶员模型（IDM）和通过变道最小化整体刹车模型（MOBIL）来生成动作aphy。需要注意的是，其他交通流模型也可能有效，留待未来的研究进行探索和验证。

IDM描述了车辆的纵向动力学，公式如下：

对于变道决策，MOBIL模型提供了一个激励标准：

4.4 动作选择机制

4.4.1. 价值估计器构建

为了有效利用人类反馈和物理知识的优势，我们设计了动作选择机制，作为PE-HAI的核心模块。如图2（b）所示，该机制充当了一个仲裁组件，评估并选择由πhuman或πphy生成的动作。技术上，我们期望智能体选择预期Q值较高的动作（ahuman或aphy）执行。

为了有效利用人类反馈和物理知识的优势，我们设计了动作选择机制，作为PE-HAI的核心模块。如图2（b）所示，该机制充当了一个仲裁组件，评估并选择由πhuman或πphy生成的动作。技术上，我们期望智能体选择预期Q值较高的动作（ahuman或aphy）执行。人类导师的示范数据随后用于从头训练估计器Q网络。我们首先在更受约束的环境中训练专家策略πexpert。在热身阶段，我们执行πexpert并收集训练样本。收集到的数据随后用于训练估计器Q网络。

由于训练数据有限，估计器Q网络在遇到以前未见过的状态时可能无法提供准确的估计。为了解决这一问题，我们提出了使用一组估计器Q网络的技术。这组估计器Q网络具有相同的架构但不同的初始化权重，使用相同的数据进行训练。用于训练估计器Qϕ的损失函数为：

其中

是目标值，D是用于存储收集到的转移(s, a, r, s')的回放缓冲区。通过使用一组估计器Q网络，我们可以减少预期Q值估计中的偏差和方差，从而实现更稳健和准确的值估计。

4.4.2. 选择函数设计

接着，我们设计了一个选择函数Tselect(s)，用于在ahuman和aphy之间选择一个动作执行到环境中。选择函数Tselect(s)用于执行预期Q值较高的动作，其表达式为：

其中

是一个小的阈值，用于处理估计误差。

表示由选择函数生成的混合干预动作，该动作具有

和中预期回报较高的策略。结合方程7和13，我们可以定义PE-HAI协作范式的最终数学表达式：

当没有接管时，自动驾驶车辆(AV)执行aAV并通过与环境交互进行学习。当接管发生时，系统会判断应该应用ahuman还是aphy。具体来说，当ahuman的预期Q值高于aphy时，PE-HAI信任人类的判断并选择ahuman。否则，执行aphy以保持安全下限。这允许PE-HAI在偶尔出现次优决策的人类导师时，依然生成值得信赖和安全的动作。

4.4.3. 值得信赖的安全改进分析

为了证明PE-HAI的安全改进，我们将其性能与仅使用πhuman或πphy的方法进行比较。如上所述，目标是学习到一个最优策略π∗{AV}。通过分析方程2，我们发现人类反馈在RLHF中的质量越高，学习到的πAV就越接近最优策略π∗{AV}。在PE-HAI设置中，结合方程1、13和14，我们可以满足方程15中的约束条件。

定理3：从πhybrid学习获得的预期累计回报等于πhuman和πphy获得的预期累计回报中的最大值。此外，它也保证大于或等于πphy获得的预期累计回报。

策略的预期累计回报可以作为评估驾驶安全性的客观衡量标准。因此，方程15表明，PE-RLHF框架通过从πhybrid学习，可以确保卓越的驾驶安全性能。换句话说，即使人类导师偶尔做出次优决策，PE-RLHF框架仍然能够保证其安全性能至少与现有的可解释πphy一样好。图3展示了PE-HAI在避障场景中的优势。

5. 物理增强的强化学习与人类反馈框架

在这一部分，我们提出了一个 PE-RLHF 框架，如图 4 所示。整个框架由五个部分组成：(a) 观测空间和动作空间，(b) 无奖励的演员-评论家架构，© 从混合干预动作中学习，(d) 通过熵正则化进行探索学习，以及 (e) 减少人类导师的认知负担。在以下小节中，我们将详细解释这些组件。

5.1 观测空间和动作空间

遵循端到端学习范式，我们设计了观测空间和动作空间，以直接将原始传感器输入（LiDAR）映射到控制指令（油门和转向角），尽量减少对中间表示的需求。如图 4 (a) 所示，观测状态由三部分组成，旨在提供驾驶环境的全面视图：(a) 自车状态包括自车的当前状态，如转向角度、航向角、速度和相对道路边界的距离。(b) 导航信息包括目标车辆相对于即将到达的检查点的位置.（c）环境周围使用一个 240 维的向量来表示 2D-Lidar 类点云，捕捉最大检测距离为 50 米的周围环境，以目标车辆为中心。该向量中的每个条目都被归一化到 $0, 1$ 范围内，表示指定方向上最近障碍物的相对距离。

与预先选择一组动作作为候选的方法不同，我们采用了一种更具挑战性的方法，将动作空间定义为 $-1, 1$ 之间的连续空间。这种连续动作空间设计允许更平滑和更精确的控制，使得代理能够学习更细致的驾驶行为。具体而言，动作定义为油门和转向角。对于转向控制，负值表示左转命令，正值表示右转命令。对于油门，负值表示刹车命令，正值表示加速命令。

5.2 移除奖励函数

一些 RLHF 启用的工作尝试从人类示范数据中重塑奖励函数，以避免手动奖励设计。然而，这种方法仍然面临挑战，例如离线示范数据的潜在偏差和捕捉复杂人类偏好的困难。重新评估我们的主要目标后，我们意识到传统的奖励函数并非必要。相反，我们的核心目标是将人类偏好融入学习过程中。人类干预作为代理性能不佳的明确指示，无论是出于安全考虑还是行为不足。反之，缺乏干预意味着代理的动作符合人类的期望。这种二元反馈机制有效地编码了人类偏好，而无需传统的奖励结构。

基于这一见解，我们提出用代理值函数替代传统的奖励函数，以代表人类偏好。这种方法摒弃了显式奖励，转而计算代理 Q 值。关键优势在于我们可以操控这些代理 Q 值以引导期望的行为，利用基于值的 RL 的价值最大化特性，如公式 1 所示。通过省略即时奖励，我们将标准 Q 值更新

转化为代理 Q 值更新

。随后，我们可以通过以下公式优化来推导策略 πθ。

尽管公式 16 使用了代理 Q 值，但它保持了 MDP 结构而不跟踪显式奖励。基于时间差（TD）的方法最初将代理 Q 值重新分配给部分人类示范，然后将这些值传播到状态中。然后优化策略以符合代理值函数所捕捉的人类意图。第 5.3.1 节详细介绍了实施细节，公式 16 使我们能够将标准 RL 重新框定为从积极的人类参与中学习的无奖励范式。这种方法规避了手动奖励函数设计的挑战，这在自动驾驶等领域尤为复杂。

5.3 值网络的学习目标

我们提出了一组全面的目标，可以有效地利用人类反馈和物理知识。学习目标如下：(a) 代理应旨在最大化代理值函数，即 ˆQ(s, a)，这反映了混合干预动作 ahybrid 的价值。(b) 代理应积极探索状态-动作空间。这通过最大化动作分布的熵，即 H(π(· | s)) 来实现。© 代理应努力减少人类导师的认知负担，通过最小化干预值函数，即 Qint(s, a)。

总体学习目标可以总结如下：

5.3.1 从混合干预动作中学习

根据第5.2节的观察，我们应努力使代理的行为尽可能接近由PE-HAI选择的行为，该行为结合了人类和物理知识。对公式(1)的深入分析表明，最优的确定性策略总是选择Q值最高的动作。因此，在发生人类干预的状态下，混合动作ahybrid的值应始终高于其他备选动作，而代理动作aAV的值则应相对较低。

混合行为策略πmix(a | s)生成状态转移序列

，作为部分演示。这些部分演示连同自由探索的转移一起存储在重放缓冲区B中，并集成到训练管道中，且无需记录环境奖励或成本。仅仅从B中的部分演示学习会引入分布偏移。为了缓解这种情况，我们采用了CQL进行离策略训练。我们从B中采样

，给

分配代理Q值

和

到

。这个优化目标体现了对混合动作ahybrid的乐观偏好，同时保持对代理动作aAV的悲观展望。通过最小化混合动作ahybrid和代理动作aAV之间的代理Q值差异（如公式18所示），我们有效地引导代理的行为向PE-HAI所偏好的高价值状态-动作子空间靠拢。

5.3.2. 通过熵正则化从探索中学习

在自由采样期间，PE-HAI偏好的子空间探索不足可能导致与高代理值状态的遇见次数稀少，这种稀缺性可能阻碍代理值的反向传播，从而妨碍学习过程。为了解决这一问题并促进更全面的探索，我们引入了熵正则化，它为代理值函数更新引入了一个辅助信号：

其中，

其中

是在状态st下执行的动作，ϕ′表示目标网络的延迟更新参数，γ为折扣因子。

由于PE-RLHF框架在无奖励环境中运行，我们省略了更新目标y中的奖励项。结合公式19和20，我们将代理值函数的综合优化目标公式化为：

与依赖静态数据集且没有闭环反馈的传统离线RL方法不同，PE-RLHF同时利用在线探索和部分混合动作数据。此外，它在人类导师和代理之间的状态访问保持了连续性，从而有效地解决了可能的分布偏移问题。

5.3.3. 减少人类导师的认知负担

PE-HAI干预频率不受限制可能导致代理过度依赖混合动作ahybrid，这可能在独立评估时损害其性能(Peng等, 2022; Li等, 2022c; Wu等, 2023)。这种脆弱性源于

反映的是混合策略πmix的代理Q值，而不是代理策略πAV。因此，代理可能会选择与PE-HAI偏好相违背的动作，例如违反边界，进而需要频繁干预。这种循环会导致低自动化，并因人类导师需要不断进行纠正而增加其认知负担。

为了减少人类导师的认知负担并提高代理的自主性，我们引入了一个微妙的惩罚机制，用于代理触发PE-HAI干预时的行为。此惩罚通过计算aAV和ahybrid之间的余弦相似度量化，作为干预成本。其公式如下：

代理仅在aAV和ahybrid表现出显著余弦差异时面临实质性惩罚。此外，我们仅在PE-HAI的干预初始步骤将干预成本归因于代理。此方法基于以下观察：PE-HAI的干预是由特定的代理动作

触发的，这意味着该时刻代理的行为偏离了PE-HAI的偏好。

通过减少此类动作的发生，可以提高代理的自动化水平，从而减轻人类导师的认知负担。为防止PE-HAI的干预滥用，我们引入了一个干预值函数，记为

表示PE-HAI干预的预期累计成本。此方法类似于在Q-learning中通过Bellman方程估计状态-动作值的技术。

5.4 策略网络的学习

策略网络负责确定控制动作，并努力优化值网络。策略网络的批量梯度可以表示为：

其中，熵正则化系数 α 通过鼓励在利用和探索之间保持平衡来增强策略。系数 ψ 权衡代理动作与学习到的值函数对齐的重要性。与此同时，β 作为干预值函数的加权因子，允许在代理的自主性和依赖 PE-HAI 干预之间进行可控的权衡。PE-RLHF 的整体工作流程在附录 F 中以伪代码形式展示。

Experiment

1.与基于物理的方法的对比

我们首先将 PE-RLHF 与基于物理的方法进行比较。从表1可以看出，各种指标上都有显著的改善。在第一阶段，PE-RLHF 表现出优异的整体性能，其情景回报为 391.48，远远超过 IDM-MOBIL 的 206.30。此外，PE-RLHF 的成功率为 0.85，远高于 IDM-MOBIL 的 0.31。这些结果表明，PE-RLHF 在完成驾驶任务和到达目的地方面更加有效。在第二阶段，PE-RLHF 在安全性能上表现出更高的改进，具有较低的安全违规和更大的行驶距离。相比于强化学习 (RL) 或安全强化学习 (Safe RL) 方法，IDM-MOBIL 可以保证更低的安全违规率。然而，我们发现由于其严格的规则，在复杂驾驶场景下，它往往过于保守，无法执行如超车等有效操作。我们发现，IDM-MOBIL 的较低成功率是因为基于物理的方法主要考虑车辆之间的互动，难以有效处理具有固定障碍物的情况，即使这些障碍物可以通过传感器（如 LiDAR）检测到。图6展示了一些典型场景，其中基于物理的方法在面对静止的故障车辆、交通锥和路障时，往往陷入困境，无法采取如变道等措施。

2. 与 RL 和 Safe RL 方法的对比

考虑到环境成本，这一结果相比其他 RL 方法减少了两个数量级。例如，SAC-Lag 和 SAC-RS 分别记录了 1.18K 和 1.13K 的安全违规。

3.与离线 RL 和 IL 方法的对比

通过分析表1和图9、图10的结果，我们观察到这些方法在性能上存在显著差异。在测试阶段，第一阶段中，PE-RLHF 在情景回报和成功率方面显著优于所有离线 RL 和 IL 方法。PE-RLHF 的情景回报为 391.48，成功率为 0.85，远远高于表现最好的离线方法 CQL (50k)，其情景回报仅为 81.07，成功率仅为 0.01。BC 和 GAIL 的表现更差，几乎为零的情景回报和成功率。在第二阶段，BC 和 GAIL 看似优越的安全性是由于自动驾驶车辆 (AV) 几乎没有前进动作。通过行驶距离可以验证这一点。

4.与 RLHF 方法的对比

我们将 PE-RLHF 与两种最先进的在线 RLHF 方法进行比较：HACO（Li 等，2022c）和 HAIM-DRL（Huang 等，2024c）。这两种方法的实验数据见表1。值得注意的是，本研究更加注重安全性能，而 HAIM-DRL 还考虑了交通流效率的平衡。因此，在图12和图13中，我们重点描绘了 HACO 和我们提出的 PE-RLHF 方法的训练和测试过程。

5. 敏感性分析

5.1. 基于物理模型的影响

表2展示了 PE-RLHF 与不同物理模型组合以及独立 IDM-MOBIL 模型的性能对比。在第一阶段，我们观察到 PE-RLHF 在所有配置中都明显优于独立 IDM-MOBIL 模型。完整的 PE-RLHF（带有 IDM-MOBIL）实现了 391.48 的最高情景回报和 0.85 的成功率，而独立 IDM-MOBIL 模型的情景回报和成功率分别为 206.30 和 0.31。这一显著改进证明了将强化学习与基于物理的模型集成的有效性。进入第二阶段，我们注意到所有 PE-RLHF 变体的安全违规率均低于独立 IDM-MOBIL 模型。完整的 PE-RLHF 配置实现了最低的安全违规率 0.47，表明其在安全性能方面的优越性。此外，PE-RLHF 变体始终实现了更大的行驶距离，完整配置的行驶距离达到 177.00 米，而独立模型仅为 108.56 米。在第三阶段，完整的 PE-RLHF 实现了 21.85 km/h 的最高行驶速度和 16.33 次的总超车数，明显优于独立 IDM-MOBIL 模型（分别为 19.78 和 0）。

5.2. 人类导师熟练度的影响

表3展示了 PE-RLHF 在不同导师熟练度下的表现，并与基线 HACO 方法进行了比较。结果表明，无论导师的熟练度如何，PE-RLHF 在所有评估阶段始终优于 HACO。在第一阶段，具有专业导师的 PE-RLHF 实现了最高的情景回报（391.48）和成功率（0.85），而业余导师的情景回报和成功率分别为 376.44 和 0.83。这一趋势在第二阶段延续，专业导师使 PE-RLHF 实现了较低的安全违规（0.47）和更大的行驶距离（177.00 米），而业余导师的安全违规和行驶距离分别为 0.77 和 176.02 米。第三阶段的指标进一步强调了专业导师的优势，其行驶速度更快（21.85 km/h）和总超车数更多（16.33），相比之下，业余导师的行驶速度为 19.11 km/h，总超车数为 11.67。图12、图13、图16 和图17 分别展示了专业和业余导师的学习曲线。首先，相比业余导师（图16 和图17），专业导师（图12 和图13）在所有指标上表现出更快的收敛和更稳定的性能。例如，如图13（a）所示，具有专业导师的 PE-RLHF 在大约 15K 步骤时情景回报达到了稳定状态。而具有业余导师的 PE-RLHF（图17（a））在大约 20K 步骤时情景回报才达到稳定状态。然而，无论在哪种情况下，PE-RLHF 都优于 HACO，后者特别是对于业余导师，表现出更高的变化性和更慢的收敛速度。即使面对业余导师反馈质量的下降，PE-RLHF 的优越收敛特性仍然凸显了其在整合人类反馈和物理模型方面的稳健性和有效性。

图18（b）进一步揭示了导师反馈质量随时间的变化情况。对于专业导师，价值接管率在整个训练过程中保持相对稳定，徘徊在 0.6-0.7 之间。相比之下，业余导师的价值接管率呈现下降趋势，尽管最初与专业导师相似，但在约 25K 步骤时显著下降至接近零。这一下降表明，业余导师的反馈质量随着时间的推移可能由于疲劳或不一致性而下降。尽管业余导师的反馈质量下降，表3 显示 PE-RLHF 在两种导师类型下都表现优于 HACO。这种韧性可以归因于 PE-RLHF 将物理模型作为安全保障的整合。该框架在面对业余导师反馈质量下降时仍能维持高性能，表现出特别的优势。

6. 消融实验

为了评估 PE-RLHF 框架中每个组件的贡献，我们进行了消融实验。表4 展示了该消融实验的结果，比较了完整的 PE-RLHF 模型与去除或修改特定组件的变体。

结论

本文的主要贡献如下：

1.受人类学习过程的启发，本文设计了一个新的物理增强的人机协作（PE-HAI）范式，即使在人类反馈质量下降的情况下，也能确保可信的安全性能下限。具体而言，我们开发了一种动作选择机制，动态选择人类和基于物理的动作，保证代理执行具有更高策略值的动作。

2.基于PE-HAI，本文提出了PE-RLHF，据我们所知，这是第一个将人类反馈（例如，人类干预和示范）与物理知识（例如，交通流模型）协同集成到RL训练循环中的框架，用于驾驶策略学习。本文提供了PE-RLHF在性能提升方面相对于现有基于物理的策略的理论保证。

3.本文采用无奖励的方法，用代理值函数表示人类偏好并指导训练过程，从而规避了奖励设计的挑战。为了提高值估计的准确性和鲁棒性，我们实现了一个集成Q网络技术。此外，本文引入了最小干预机制，以减轻人类导师的认知负担。

4.本文在各种具有高度不确定性和复杂性的驾驶场景下进行了广泛的实验。结果表明，PE-RLHF在训练安全性、采样效率和泛化能力方面表现优越且稳定，即使在面对不同质量的人类反馈时，也优于最先进的方法（SOTA）。

文章引用：

Trustworthy Human-AI Collaboration: Reinforcement Learning with Human

Feedback and Physics Knowledge for Safe Autonomous Driving

最后别忘了，帮忙点"在看"。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。从算法原理讲解，环境配置，代码讲解，算法训练，部署等方面讲解项目。

扫码加入AIfighting自动驾驶实战知识星球，即可快速掌握自动驾驶感知的最新技术。

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。