端到端自动驾驶综述

综述文章链接

End-to-end Autonomous Driving: Challenges and Frontiers https://github.com/OpenDriveLab/End-to-end-Autonomous-Driving

摘要

本文涵盖了端到端自动驾驶的动机、路线图、方法、挑战和未来趋势。我们深入研究了几个关键挑战，包括多模态、可解释性、偶然混淆、鲁棒性和世界模型等。此外，我们讨论了基础模型和视觉预训练的最新进展，以及如何在端到端驾驶框架内结合这些技术。

介绍

I.管道和方法 。我们将端到端自动驾驶定义为基于学习的算法框架，具有原始传感器输入和规划/控制输出。我们将调查的 250+ 篇论文分为模仿学习 (IL) 和强化学习 (RL)。II. 基准 。我们将流行的基准分别分为闭环和开环评估。我们涵盖了闭环模拟的各个方面以及该问题开环评估的局限性。III.挑战 。这是我们工作的主要部分。我们从广泛的主题中列出了关键挑战，并广泛分析了这些问题至关重要的原因。我们还评论了这些挑战的有希望的解决方法。四。未来的趋势 。我们讨论了端到端自动驾驶如何从基础模型的快速发展、视觉预训练等中受益。

①pipeline：图 1 (a)-(b) 说明了经典公式和端到端公式之间的差异。传统方法将每个组件的输出（例如边界框和车辆轨迹）直接馈送到后续单元（虚线箭头）。相比之下，端到端范式跨组件（灰色实线箭头）传播特征表示。优化通过反向传播（红色箭头）最小化损失。在此过程中，任务是联合优化的。

②方法：端到端的方法可以大致分为模仿学习和强化学习、深度学习模块化端到端

③基准：闭环（CARLA）和开环（nuScenes，waymo）评估的数据集和基准

④挑战：见目录

⑤未来趋势：见目录

动机

经典管道的特点 ：①可解释性、可验证性和易于调试方面是有益的。②模块之间的优化目标不同，规划追求驾驶安全和舒适度，感知检测追求平均精度（mAP），整个系统可能无法与统一的目标对齐。③每个模块的错误可能会复合并导致驾驶系统的信息丢失。④多任务、多模型部署可能会增加计算负担。
端到端的优点 ：(a)简单地将感知、预测和规划结合到一个可以联合训练的单一模型中。(b) 整个系统，包括其中间表示，都针对最终任务进行了优化。(c) 共享主干提高了计算效率。(d) 数据驱动的优化有可能通过简单地扩大数据来提供改进系统。
端到端自动驾驶路线图

我们按时间顺序呈现关键里程碑，将类似作品分组在同一主题下。代表性作品或第一部作品以粗体显示，并配有插图，而同一主题的其他文学作品的日期可能会有所不同。我们还显示了CARLA排行榜[13]（DS，从0到100不等）和最近的nuPlan挑战[14]（得分从0到1不等）中每年排名第一的选手的得分。

方法

模仿学习

定义：模仿学习是一种机器学习方法，通过学习模拟专家或人类行为来训练模型。它通常使用已经收集好的数据，这些数据展示了如何在给定的任务中执行特定行为。模仿学习试图让模型学习这些行为，并在类似的环境中复制它们。
优点：
- 训练过程通常更简单和更直接，因为它直接学习从输入到输出的映射。
- 在训练数据充足的情况下，可以达到较高的性能。
缺点：
- 它依赖于高质量的示例数据，而收集这些数据可能是昂贵或困难的。
- 对于训练数据中未出现的新情况，模仿学习可能不具备很好的泛化能力。

Behavior Cloning (行为克隆)：

定义：Behavior Cloning是一种简单的模仿学习方法，它通过直接学习从观测到行动的映射来模仿专家的行为。具体而言，它使用一组由专家生成的观测-行动对来训练一个监督学习模型，如神经网络。当模型接收一个新的观测时，它生成一个行动，试图模仿专家在类似情况下的行为。
使用场景：Behavior Cloning通常用于那些可以通过直接模仿来解决的任务

Inverse Optimal Control (逆向最优控制)：

定义：Inverse Optimal Control（也称为Apprenticeship Learning或Inverse Reinforcement Learning）是一种更复杂的模仿学习技术。它不仅试图模仿专家的行为，还试图理解背后的目标或优化标准。具体而言，它通过观察专家的行为来推断出一个奖励函数，该奖励函数能够解释专家的行为是如何优化的。然后，使用这个奖励函数来训练一个智能体，使其能够在新的情况下产生类似的行为。
使用场景：Inverse Optimal Control适用于那些仅仅模仿行为是不够的任务，需要理解背后的目标或原因，例如在复杂环境中的机器人导航。

强化学习

定义：强化学习是一种机器学习范式，其中智能体（agent）通过与环境交互来学习如何实现目标。智能体在执行任务时接收奖励或惩罚，它试图学习一种策略，以最大化在一系列行为中获得的奖励。
优点：
- 强化学习能够在没有初始训练数据的情况下学习，仅通过试错来学习。
- 它可以适应环境的变化，并具有在新情境下泛化的能力。
缺点：
- 训练过程通常需要大量的时间和计算资源。
- 设计适当的奖励函数可能是一个挑战。

与模仿学习的区别：

模仿学习侧重于学习模拟已知行为，通常依赖于预先收集的数据。而强化学习是通过与环境的交互并接收奖励或惩罚来学习行为。
模仿学习通常更简单、更快，但可能不适应新的情境。而强化学习可以适应和学习新的情境，但训练过程通常更复杂且需要更多的资源。

深度学习模块化端到端
UniAD 这篇论文主要使用了深度学习技术来实现自动驾驶通用算法框架。UniAD 集成了感知、预测和规划等关键任务，并将这些任务整合到一个基于 Transformer 的端到端网络框架中。它通过深度学习允许各个子任务共享特征，并且可以优化每个子任务以执行安全的规划。这个框架是业界首个将全栈关键任务整合到一个深度神经网络中的自动驾驶模型++(1)(2)(3)++ 。

UniAD 的论文并没有使用强化学习和模仿学习。强化学习和模仿学习通常用于智能体在环境中进行探索和学习行为策略，而 UniAD 更加聚焦于通过深度学习整合和优化自动驾驶的各个关键组成部分。这种方法允许系统在感知、预测和规划等方面达到更高的准确性和效率。

基准

模拟器在线或闭环评估

模拟器有助于快速原型设计和测试，实现思想的快速迭代，并提供对广泛场景的低成本访问。此外，模拟器还提供了可靠、准确地测量性能的工具。然而，它们的主要缺点是，在模拟环境中获得的结果不一定适用于现实世界。常用为CARLA。

离线或开环评估

开环评估的优点是它不需要模拟器，因此易于实现和真实的交通和传感器数据。最流行的数据集包括nuScenes[121]、Argoverse[122, 123]、Waymo[124]和nuPlan[14]。所有这些数据集都包含大量来自不同难度的现实驾驶环境的带注释的轨迹。

不考虑实际测试分布：开环评估不衡量系统在部署过程中遇到的实际测试分布的性能。在测试期间，驾驶系统可能会偏离专家的驾驶路径，而开环评估无法验证系统从这种偏差中恢复的能力。
对多模态场景的评估不恰当：开环评估通常依赖于与人类驾驶行为的一致性，但在多模态场景中，这并不是一个合适的性能指标。例如，在合并到转向车道的情况下，立即合并或稍后合并都是有效的选项，但开环评估会惩罚数据中没有观察到的选项。
依赖未来观察的预测轨迹：系统预测的轨迹可能依赖于将来才可用的观察结果，例如，在红绿灯还是绿色的情况下停车，但可能很快变红。在单一真实轨迹下评估此类情况是不合理的。
不提供闭环行为的确凿证据：由于上述缺点，开环评估结果不能提供闭环情况下驾驶行为改进的确凿证据。
需要大量数据：开环评估需要大量的轨迹数据集，这可能是资源密集型的。

挑战

人类语言作为输入

人类使用视觉感知和内在知识（例如交通规则和所需路线）驾驶汽车，这些路线共同形成因果行为。在与自动驾驶相关的一些领域，如机器人和室内导航，将自然语言作为细粒度指令来控制视觉运动代理已经取得了显著的进展。

如CLIP-MC[159]和LM Nav[160]利用CLIP[161]，这得益于大规模的视觉语言预训练，从指令中提取语言知识，从图像中提取视觉特征。它们展示了预训练模型的优势，并为解决多模态模型的复杂导航任务提供了一个有吸引力的原型。

尽管使用CLIP进行特征提取的尝试取得了成功，但GPT-3[162]等大型语言模型或ChatGPT[163164165]等指导性语言模型在自动驾驶领域的应用仍不清楚。现代LLM提供了更多处理复杂语言指令的机会。然而，考虑到它们的推理时间长且不稳定，确定道路应用的交互模式也至关重要。此外，当前的语言引导导航工作验证了它们在模拟或特定机器人实施例中的有效性，并且缺少包括有意义的语言提示的大规模基准。
World Model and Model-based RL

World Model和Model-based RL (模型驱动的强化学习) 是指在强化学习中，利用对环境的建模来进行预测和决策的方法。在端到端的自动驾驶系统中，这是至关重要的，因为为了采取安全的操作，模型需要能够对未来进行合理的预测。

World Model（世界模型）: World Model是一种显式表示环境的模型，通常包括转换动态和奖励函数。这允许智能体以较低的成本与学习到的世界模型进行交互，而不是与实际环境进行交互。这在自动驾驶中特别有用，因为3D模拟器（如CARLA）相对较慢。由于驾驶环境高度复杂和动态，建模是一项具有挑战性的任务。
Model-based RL（模型驱动的强化学习）: 传统的深度强化学习通常受到高样本复杂度的挑战。Model-based RL通过允许智能体与学习到的世界模型进行交互来提高样本效率，而不是与实际环境进行交互。

总的来说，世界模型学习或模型驱动的强化学习对于端到端的自动驾驶是一个新兴且有前景的方向，因为它大大减少了强化学习的样本复杂性，并且理解世界对驾驶有帮助。然而，由于驾驶环境高度复杂和动态，仍然需要进一步的研究来确定需要建模什么以及如何有效地建模世界。
多任务学习

端到端自动驾驶的多任务学习已证明其在提高性能和提供自动驾驶模型可解释性方面的有效性。然而，辅助任务的最佳组合及其损失的适当加权以实现最佳性能仍有待探索。此外，构建具有多种类型的对齐和高质量注释的大规模数据集是一项重大挑战。
知识蒸馏

尽管在设计更健壮的专家和将知识从教师传递给不同层次的学生方面已经投入了大量的努力，但师生范式仍然存在效率低下的问题。正如之前所有的研究所示，视觉运动网络与其特权代理相比表现出很大的性能差距。例如，特权代理可以访问交通灯的真实状态，交通灯是图像中的小物体，对提取相应的特征提出了挑战。这可能会导致学生产生因果混淆，如第4.7节所述。因此，如何从机器学习中的一般蒸馏方法中汲取更多的灵感，将差距最小化，是值得探索的。
可解释性

可解释性在自动驾驶中起着至关重要的作用[191]。它使工程师和研究人员能够更好地测试、调试和改进系统，从社会角度提供性能保证，增加用户信任，促进公众接受。然而，在端到端自动驾驶模型(通常被称为黑盒)中实现可解释性是具有挑战性的。

注意可视化 :注意机制通常提供一定程度的可解释性。尽管习得的注意图可以提供一些关于模型焦点的直接线索，但它们的可靠性和实用性仍然有限。
可解释的任务 ：如语义分割、深度估计、目标检测、运动预测等引入可解释性。
成本学习 :如第2.1.2节所述，基于成本学习的方法与传统的模块化自动驾驶系统有一些相似之处，因此具有一定程度的可解释性。
语言的可解释性 :由于可解释性的一个方面是帮助人类理解系统，自然语言是实现这一目的的合适选择。进一步将语言与自动驾驶模型相结合，有望实现更高的可解释性和性能
不确定性建模:不确定性是解释模型输出可靠性的一种定量方法。由于规划结果并不总是准确或最佳的，因此设计师和用户必须识别不确定的情况以进行改进或必要的干预。

因果混淆

Causal Confusion是一种现象，当机器学习模型在训练过程中过分依赖数据中的某些模式或关系，而忽视了真正的因果关系时，就会出现这种问题。在自动驾驶中，这个问题是因为驾驶任务具有时间平滑性，即过去的运动通常是可靠的未来动作的预测因素。然而，使用多帧训练的方法可能过分依赖这个快捷方式，并在部署过程中遭受灾难性的失败。

鲁棒性

长尾分布

长尾分布问题的一个重要方面是数据集不平衡，其中少数类占多数，而许多其他类只有有限数量的样本，如图8 (a)所示。这对模型泛化到各种环境提出了很大的挑战。有多种方法可以通过数据处理来解决这个问题，包括过采样[216,217,218,219,220]，欠采样[221,222,223]和数据增强[224,225,226]。此外，基于权重的方法[227,228,229,230,231,232,233]也常用于缓解数据集不平衡问题。

一般来说，有效地生成覆盖长尾分布的现实安全关键场景仍然是一个重大挑战。虽然许多工作集中在模拟器中的对抗场景，但更好地利用现实世界数据进行关键场景挖掘和潜在的模拟适应也是必不可少的。此外，在这些长尾分布式安全关键场景下，系统、严谨、全面、现实的测试框架对于评估端到端自动驾驶方法至关重要。

领域适应(Domain adaptation)

领域自适应（DA）是一种迁移学习，其中目标任务与源任务相同，但领域不同。在这里，我们讨论的场景是，标签可用于源域，而目标域没有标签或标签数量有限。如图6所示，如图8（c）所示，自动驾驶任务的领域自适应包括几种情况[238]：

模拟到真实：用于训练的模拟器和用于部署的真实世界之间的巨大差距。
地理到地理：不同的地理位置，不同的环境外观。
天气对天气：由雨、雾和雪等天气条件引起的传感器输入变化。
昼夜：传感器输入的照明变化。
传感器对传感器：传感器特性的可能差异，例如分辨率和相对位置。

目前，通过源-目标图像映射或域不变特征学习进行模拟-真实自适应是端到端自动驾驶的重点。其他领域适应情况，如地理到地理或天气到天气的适应，是通过训练数据集的多样性和规模来处理的。由于激光雷达已经成为一种流行的驾驶输入模式，鉴于目前的工作主要集中在基于图像的自适应，还必须设计出适合激光雷达特征的特定自适应技术。此外，由于当前的方法只关注图像中的视觉差距，因此应注意交通代理的行为以及模拟器与现实世界之间的交通规则差距。通过NeRF[113、246]等技术将真实世界的数据纳入模拟是另一个有前景的方向。

未来趋势

零样本/少样本学习

自动驾驶模型最终不可避免地会遇到超出训练数据分布范围的真实场景。这就提出了一个问题，即我们是否能够成功地将模型调整到一个看不见的目标领域，在这个领域中，有限的或没有标记的数据可用。将此任务形式化为端到端驱动领域，并结合零样本/少样本学习，是实现这一目标的关键步骤。
模块化端到端规划

模块化端到端规划框架优化了多个模块，同时优先考虑下游规划任务，这具有可解释性的优点，如第4.6节所示。这在最近的文献[2,247]和某些行业解决方案(Tesla, Wayve等)中提倡这一点，涉及类似的想法。在设计这些可微感知模块时，损失函数的选择出现了几个问题，例如 3D 边界框用于目标检测的必要性，占用网格是否足以检测一般障碍物，或者选择BEV分割比车道拓扑在静态场景感知方面的优势。
数据工程

大规模、高质量数据对自动驾驶的重要性再怎么强调都不为过。建立一个带有自动标注管道的数据工程[248]可以极大地促进数据和模型的迭代开发。自动驾驶的数据工程，尤其是模块化的端到端规划系统，需要借助大型感知模型自动简化标注高质量感知标签的过程。它还应该支持挖掘hard/corner案例、场景生成和编辑，以促进3.1节中讨论的数据驱动评估，并促进数据的多样性和模型的泛化能力(4.8节)。数据工程将使自动驾驶模型不断改进。
基础模型

语言[164,165,249,250]和视觉[248,251,252,253]的大型基础模型的最新进展对社会的各个方面都产生了重大影响。大规模数据和模型能力的利用释放了人工智能在高级推理任务中的巨大潜力。文本提到了基于LLM的微调（finetuning）和提示学习（prompt learning）等技术，以及用于自监督重构和对比配对的优化，都可以应用于端到端的自动驾驶领域。然而，作者认为，直接将LLM应用于自动驾驶可能在两者的不同目标之间存在不匹配。自动驾驶智能体的输出通常需要稳定且准确的测量，而语言模型中的生成序列输出则旨在像人类一样行为，而不考虑其准确性。

为了开发一个大型的自动驾驶模型，作者提出了一种可行的解决方案，即训练一个视频预测器，可以预测环境的长期预测，无论是在2D还是3D中。为了在下游任务（如规划）上表现良好，这个大型模型需要优化的目标应该足够复杂，超出帧级别的感知。
V2X

遮挡和超出感知范围的障碍是现代计算机视觉技术的两个基本挑战，当人类驾驶员需要对物体做出快速反应时，这甚至会给他们带来很大的困难。车对车（V2V）、车对基础设施（V2I）和车对万物（V2X）系统为解决这一关键提供了很有前途的解决方案，其中来自不同观点的信息补充了自我盲点。见证了多智能体场景的信息传输机制的进步[257,255,259,260,261]，这些系统可以提供一种在自动驾驶汽车中实现高级决策智能的解决方案。