LLM增强的RLHF框架，用多模态人类反馈提升自动驾驶安全性！

导读

这是一篇发表于UbiComp 2024（CCFA）的论文，探讨了如何将基于人类反馈的强化学习（RLHF）和大语言模型（LLM）结合，用于优化自动驾驶系统的安全性。

©️【深蓝AI】编译

本文由paper一作------Yuan Sun 授权【深蓝AI】编译发布！

论文标题：Optimizing Autonomous Driving for Safety: A Human-Centric Approach with LLM-Enhanced RLHF

论文作者：Yuan Sun, Navid Salami Pargoo，Peter Jin，Jorge Ortiz

论文地址：https://dl.acm.org/doi/abs/10.1145/3675094.3677588

01 研究背景

**在自动驾驶系统的发展过程中，强化学习（RL）和大语言模型（LLM）发挥着至关重要的作用。作为机器学习的一个重要分支，强化学习致力于使智能体通过不断学习和总结经验来做出最优决策。目前已有大量研究展示了强化学习在自动驾驶领域的应用价值。**例如，有研究提出利用强化学习将传感器观测数据映射到模拟环境中的控制输出;还有研究探索了深度强化学习在连续控制任务中的应用，这对自动驾驶场景具有重要意义。此外，一些研究提出了ASAP-RL这样的高效强化学习算法，该算法通过运动技能和专家先验知识来提高在密集交通环境下的学习效率和驾驶性能。还有研究提出了一种基于深度Q网络（DQN）的方法，用于训练模型并预测最优动作，以实现变道、加速和制动等决策。

**近期研究越来越多地将大语言模型整合到自动驾驶系统中，利用其在决策推理和交互方面的能力。**例如，一些研究将大语言模型用于增强常识推理和高层决策制定。另有研究利用大语言模型帮助自动驾驶模型模仿人类行为，从而提升端到端驾驶性能。有研究使用GPT以问答方式从美国国家公路交通安全管理局（NHTSA）的事故报告中提取关键信息，用于生成多样化的场景代码进行仿真和测试。还有研究展示了如何将大语言模型用作强大的解释器，将用户文本查询转换为交通仿真场景中结构化的车道和车辆位置规范。

**基于人类反馈的强化学习（RLHF）是大语言模型训练中的基础组件，被认为是现代大语言模型训练流程中的重要环节。**RLHF特别适合大语言模型，因为它涉及智能体从人类偏好反馈中学习。这种反馈被认为更符合人类直觉，更好地与人类价值观一致，并且在各种应用中更容易获取。大多数工作将RLHF应用于优化大语言模型，因为人类使用大语言模型的场景更适合追踪人类偏好。这种与人类价值观的一致性确保了模型在现实应用中表现得更加直观。相比之下，在自动驾驶场景中，让人类逐帧提供偏好反馈是不切实际的。因此，RLHF在自动驾驶领域较少被使用。

02 研究方法

**本研究的系统被设计为一个多智能体框架，以人机交互为核心，同时整合了大语言模型智能体和自动驾驶智能体。**系统包括人类驾驶员、人类行人，以及一个通过模仿他们行为来为汽车智能体生成训练交互的大语言模型智能体。人类通过方向盘和踏板等物理控制器来控制车辆。此外，他们还配备了各种可穿戴传感器，包括VR头显、用于收集和监测生理信号的手环，以及用于追踪视线的智能眼镜。环境中还设置了摄像头来记录人类反应。这些多模态数据被传输到仿真系统中。在数据整合之前，大语言模型会协助汽车智能体理解这些数据，并帮助人类智能体适应仿真环境。自动驾驶车辆模型在强化学习循环中从人类反馈中学习，其中大语言模型负责将人类数据解释为"偏好"，用于在强化学习循环中优化模型。

▲图1｜系统框架©️【深蓝AI】编译

▲图2｜实验配置©️【深蓝AI】编译

2.1. 基于人类反馈的强化学习（RLHF）

在传统的强化学习中，智能体的目标是开发一个策略，即一个指导其行为的函数。这个策略需要通过一个基于智能体在特定任务中表现的独特奖励函数来优化。然而，定义一个能准确反映人类偏好的奖励函数具有挑战性。为了解决这个问题，RLHF致力于直接从人类反馈中训练"奖励模型"。

不过，在我们的场景中，很难在逐帧基础上直接获得"偏好"反馈。例如，当使用强化学习训练自动驾驶模型时，车辆可能仅仅因为避免碰撞就给自己一个正面评分。然而，如果车辆执行了一个让用户感到不安的快速变道动作，这种反馈就无法反映用户对舒适度和安全性的偏好。同样，激进的刹车、突然加速或未能让行给行人等情况都可能导致负面的用户体验，这些都是自动驾驶强化学习循环中的重要"偏好"参考。

2.2. 大语言模型在自动驾驶中的集成

在本研究中，大语言模型的主要功能包括：在仿真中充当智能体、促进人类与仿真系统之间的交互，以及优化强化学习训练循环。

**1）仿真中的大语言模型智能体。**在这部分，作者强调了多智能体系统的两个关键用例。首先，当没有人类参与时，大语言模型智能体可以模仿人类行为来与车辆智能体互动。其次，当有人类参与循环时，大语言模型智能体可以作为另一个智能体（如其他车辆或行人）来增加系统的复杂性。例如，人类的反馈在只有一辆车和有多辆车的道路上是不同的。在这种复杂场景中的反馈更能代表现实生活中的情况。

**2）基于大语言模型的人机交互增强。**当仿真系统与人类智能体交互时，大语言模型可以增强这种交互。首先，在将从人类收集的数据发送到系统时，大语言模型可以帮助解释这些数据。例如，如果驾驶员技术熟练，大语言模型可能会调整仿真天气为有雾状况。相反，如果驾驶员经验较少，大语言模型可以在车辆智能体开始训练之前帮助用户适应环境。

**3）大语言模型增强的RLHF。**在RLHF循环中，"偏好"并不像是简单的是与否的答案。大语言模型可以将物理和生理数据转换为偏好格式，然后将其整合到目标函数中。例如，如果驾驶员在特定动作期间心率显著增加，大语言模型可以将这种生理反应解释为对该动作的负面偏好。同样，如果传感器数据显示车辆操控平稳自信，这可以被转换为正面偏好。

03 实验硬件设置

在这个多智能体大语言模型增强RLHF系统中，使用的传感器可以分为两大类：车辆传感器和生理传感器。

车辆传感器主要来自CARLA模拟器和罗技硬件，包括加速度、旋转（陀螺仪）、速度、制动、转向、油门和倒车等数据，采样频率约为60赫兹。这些传感器负责捕获自动驾驶车辆的动态状态和控制输入信息。

生理传感器由Empatica提供，用于测量多种生理信号，具体包括：血容量脉搏、心率、心跳间隔、皮电活动、手腕加速度以及体温。

此外，在视线追踪方面，系统采用了Adhawk传感器，以125赫兹的采样率追踪屏幕上的坐标点，用于捕捉人类智能体的视觉焦点和注意力。除了显示器外，系统还配备了VR头显来创建沉浸式环境。同时，在仿真室中还安装了树莓派摄像头，用于观察人类对仿真的反应。

这种多模态数据的整合对于优化自动驾驶模型至关重要，它提供了全面的反馈来使模型的性能与人类偏好保持一致，确保在仿真环境中的交互更加真实和安全。

04 实验实现

本研究的初步实现展示了大语言模型与车辆仿真系统的集成，主要使用GPT-4接口。大语言模型智能体能够模仿人类驾驶行为，特别是在与前方车辆交互时表现出色（如图3所示）。它还能帮助车辆智能体处理各种情况，比如避免碰撞（如图4所示）。此外，大语言模型智能体还能通过指导人类用户如何有效导航和使用仿真系统来提供帮助（如图5所示）。

研究团队计划在位于纽约市哈莱姆区和新泽西州新布伦瑞克的真实城市测试平台上实施实验。从这些地点收集的真实数据将用于测试算法的稳健性。此外，研究人员可以将真实道路数据导入到CARLA系统中作为交叉验证方法。图6展示了一个将新布伦瑞克的真实道路数据导入CARLA系统的示例。

05 结论和未来工作

在这项研究中，作者提出了一个创新的框架，将RLHF和大语言模型相结合来优化自动驾驶模型。研究团队在RLHF框架内定义了人类偏好，并基于这一概念构建了一个从仿真到现实的系统。该方法通过多模态传感器数据，在多智能体环境中训练车辆智能体，使其能够学习人类行为。大语言模型智能体通过模仿人类行为，能够衍生出多个人类智能体，并促进仿真中车辆智能体与道路上其他智能体之间的交互。在模型优化过程中，大语言模型智能体还负责解释人类数据，通过RLHF来增强模型。该系统同时整合了物理和仿真传感器，初步实现展示了大语言模型在框架中的多种应用场景。这项初步工作为实验建立了基础设施，并讨论了框架的理论可行性。

然而，在研究的下一阶段还有许多工作要做。首先，GPT-4接口存在速率限制，研究团队可能需要为这项研究探索不同的接口。用于自动驾驶的机器学习模型需要在不同类型的多模态模型中进行评估，以证明方法的稳健性。研究团队将引入更多真实数据来提高方法的稳健性，并计划招募具有不同背景和不同驾驶技能水平的受试者进行人类评估。拥有良好驾驶技能的个体和经验较少的人在研究中呈现出不同的挑战。研究团队计划就不同背景水平如何影响RLHF自动驾驶框架提供全面的评估。

最终，研究团队希望通过这项研究，能够最终提出一个安全的驾驶模型，帮助自动驾驶车辆在真实道路上行驶，为整个社会的道路安全做出贡献。