论文阅读: 面向Planning的端到端智驾Planning-oriented Autonomous Driving

背景

当代自动驾驶系统多采用序列化的模块化的任务处理方式，比如感知、预测、规划等。为了处理多样的任务、达到高水平智能，当代智驾一般会让独立的模型去处理不同的task；又或者用具有不同任务头的单独的模型去处理不同的任务。但是这些方法会累积错误，且任务间的协同不足。

作者认为应该设计一个更优的、可理解的、面向最终目标的框架。基于这个面向Planning的思想，他们提出了 Unified Autonomous Driving (UniAD)方案，一种新的自动驾驶框架。这个方案从全局视角出发，让智驾的各个模块特征提取可以互相补充，各个任务之间可以通过统一的查询接口通信。在此基础上，UniAD享有灵活的中间状态的表征，且可以灵活的交换各个子模块的知识、特征，以服务于最终的Planning。

作者团队用这个方案实现的智驾系统去跑nuScenes的基准测试，结果在所有方面都远远优于之前最优水平的智驾系统。

不同设计方案的对比

多数的业内解决方案是部署不同的模型解决不同的任务，如上图中a
具有不同任务头的多任务-单模型学习范式，共享同一个主干输入，如上图中b
端到端的设计范式，统一感知、预测等。如上图中c
- 直接面向Planner优化的统一模型 c1
- 分任务处理的序列化模型 c2
- 面相Planner的多任务协作模型 c3

UniAD实现方法

完全遵循面向Planning的哲学
研究感知、预测模块的效果，从感知、预测等到最终的规划联合优化
可以通过查询接口链接每一个模型节点，查询需要的信息
地图上的空间占用信息，仅用于视觉目的
最终，一个基于Attention的Planner模型，在获取先前任务的知识成果的基础上，规划自车路线

Tracker、Map、Prediction、Motion、Occupancy、Planning，各模块都有更详细一些的设计及实现的介绍，感兴趣的可以查阅下原文。这里选择性的介绍下Planning模块的详细设计。

Planning模块实现

没有高精地图及预定义导航的规划模块，通常需要一个高水平抽象的命令，去指示车的运动方向。基于此，作者把原生的导航信号（左转、右转、前行）转换成了可学习的嵌入命令。自车向Motion模块的query可以获取自车的多种可能的意图，我们再加上嵌入命令组成一个"plan query"，提供查询接口。再把BEV特征加入进去，使得模型可以意识到周围环境，然后让模型解码出未来的路线规划T。

为了避免碰撞，采用牛顿的推理方法优化所规划的路线，得到T*。公式如下：

训练过程

从经验上看，两阶段训练的效果更稳定。

联合训练感知模块，如tracking，mapping，耗时6个时间段。
端到端训练感知、预测、规模所有模块，耗时20个时间段。

实验结果

使用nuScenes数据集做实验，在三个方面验证了我们设计的有效性：

各方的实验结果揭示了多任务协作的优势、及其对Planning的效果
各任务的模型对比现有设计的模型效果
对特定模块的设计空间进行的实验验证（消融）（ablations on the design space for specific modules）

多模型联合训练实验对比

最优结果标为黑体、次优结果标下划线
第一行(ID-0)是多任务学习模型，仅做对比用
观察第10-12行
- 预测比感知离规划更近，所以作者首先加入了两个类型的预测任务到框架里：Motion、Occupancy的预测
- 对比原生的端到端训练Planning模型(Exp.10, Fig. 1(c.1))，只有当两者协作时，planning L2 and collision rate指标最好。
- 所以，可以得出结论：为了更安全的规划目的，这两个预测任务是必要的
观察第7-9行
- 展示了两个预测任务的协作效果，当两者紧密结合的时候，两者效果都显著提升了
- 疑问：为何没有单独Motion预测的实验？
观察第4-6行
- tracking、mapping模块协作，让预测效果获得显著的提升(-9.7% minADE, -12.9% minFDE, -2.3 MR(%))
观察第1-3行
- 合并训练感知模块的子任务，与分开训练各模块的效果类似
观察第0、12行
- 相比于原生的多任务学习范式，planning-oriented设计在所有基础指标里都有显著的提升 (-15.2% minADE, -
  17.0% minFDE, -3.2 MR(%)), +4.9 IoU-f.(%)., +5.9 VPQ f.(%), -0.15m avg.L2, -0.51 avg.Col.(%))

各模型也都有更详细的实验结果对比，全部都是领先的或者有竞争力的。这里我们仅选择性的挑选Occupancy prediction模型结果展示。对更多单独模型对比效果感兴趣可以进一步查阅原文。

Occupancy prediction模型效果对比

在对规划更关键的近距离区域，UniAD方案有显著的提升。
"n." 和 "f." 表示近区域 (30×30m) 和远区域 (50×50m) 评估
† 代表使用了强化训练。

总结

本文讨论了智驾算法系统级别的设计，提出了UniAD方案，一个面向最终Planning的设计。对于感知、预测模块下子任务的必要性进行了详细的分析。为了联合各个任务，采用一个基于查询的设计去链接所有子模块。得益于环境中各个客体交互更丰富的展现，广泛的实验表明本方法在所有方面都具有优越性。

局限与未来研究方向

此方案工作量大，算力需求大，尤其是训练输入里加上短期历史数据。
是否值得加入更多任务模块（如深度知觉、行为预测），以及如何嵌入，也值得探索。