自动驾驶---基于深度学习模型的轨迹预测

1 背景

自动驾驶任务中，轨迹预测一直以来是一个难题。

在复杂交通场景中，即使驾驶员最终意图确定，但决策过程中其他车辆的动态行驶路径的即时变化会导致自车路径呈现多模态属性，即车辆的未来轨迹有多种可能性。对车辆的多模态轨迹进行预测，并保证预测的准确性与多样性，是当前自动驾驶领域关注的热点内容。

之前的博客《自动驾驶---LSTM模型用于轨迹预测》为读者朋友介绍了长短时记忆网络用于轨迹预测，但该方法只能输入车辆历史轨迹信息，而没有车辆所处的环境信息，因此效果是不如基于深度学习模型的预测。

反过来思考，如果将其它动态车辆的多模预测模型，应用于自车，其实也就是目前的planner大模型。

2 轨迹预测问题描述

类比人类驾驶时通过观察周围交通参与者来预测其未来可能的行为，为进一步提高安全性，在自动驾驶研究中关键的技术之一是像人类驾驶员一样可以在高动态的复杂多变的场景中预测周围环境的未来状态，其未来状态可以由未来轨迹表示，即多模态轨迹预测任务。多模态轨迹预测旨在为处于异构复杂高动态环境中的目标车辆生成多条可能的轨迹，由于不确定性的存在，目标车辆即使在相同场景下也有可能表现不同，这也是多模态轨迹预测面临的挑战。

模型输入与输出

轨迹预测任务可以被表示为在某个场景中，给定一段预测时间范围、智能体的历史轨迹及环境信息，预测其在未来一段时间范围的轨迹。模型的输入一般为历史轨迹，其由目标车辆的物理状态及环境车辆的物理状态（）组成，其中车辆物理状态由速度、加速度、转向角以及当前环境信息组成。通常情况下，假设目标车辆周围有个交通参与者（如周边车辆、自行车、行人）。

其中，表示时间范围为t的历史轨迹，，其中表示当前车辆的坐标，表示当前目标车辆的状态。

在轨迹预测任务中，模型的输出大多为未来个时间步的预测轨迹：

轨迹预测主要研究问题

轨迹预测主要的挑战来自环境的不确定性、生成轨迹的多模态性以及模型的可解释性。

（1）多模态问题

在轨迹预测过程中，周围交通参与者的未来行为难以预测，其未来轨迹是多模态的（如下图所示），因此实际预测的未来轨迹不是唯一的，即在相同历史轨迹条件下，车辆的未来轨迹具有多种可能性。因此预测模块需要对不确定性进行建模，并预测其他车辆多条可能的轨迹。多模态轨迹预测就是预测模型根据每个未来轨迹设置相应的置信度，并为每个交通参与者生成多条未来轨迹。

（2）可解释性问题

基于深度学习的研究通常最终获得"黑盒"深度学习模型，导致模型太复杂且无法被人类理解或排除故障。特别是在医疗诊断、规划、控制问题的研究中，所提出的模型需要与其输出建立一定程度的信任关系，而信任关系的概念取决于人类对模型或机器工作的可见性，即深度神经网络应该为其输出人类可以理解的理由，从而使人类洞悉其内部工作原理，这种模型被称为可解释模型。可解释性 AI 系统的目的是通过提供解释使其行为更容易被人类理解。

3 数据集及评估指标

数据集

车辆轨迹在交通流分析、驾驶行为分析、决策模型设计、训练、测试以及路径规划方面都有很重要的作用，因此选择合适的数据集对于模型性能的提升至关重要。早期NGSIM数据集中交通参与者只有高速路场景下的车辆，数据内容只有历史轨迹，将此类数据集作为各轨迹预测算法模型的输入显然是不全面的，环境复杂度低导致早期轨迹预测方法难以生成多模态的预测轨迹。后期出现的数据集中添加了环境信息更丰富的高清地图（HD map）、多种交通参与者（行人、自行车）及场景（路口、环岛等），使近期的模型在复杂高动态、不确定性高的场景中有较好的预测精度及泛化性。本小节将介绍目前轨迹预测任务中常用的数据集，并列出了使用这些数据集的经典算法（见表1）。

评估指标

车辆轨迹预测方法通常采用以下评估指标，读者可以对比《自动驾驶---Parking端到端架构》模型评价的指标，本质模型的评价指标应有相同的地方，即使是不同的功能。

（1）平均位移误差（Average displacement error，ADE）：预测轨迹与实际轨迹之间的平均欧氏（L2）距离；

（2）最终位移误差（Final displacement error，FDE）：最终预测轨迹与实际轨迹之间的L2距离；

（3）丢失率（Miss rate，MR）：基于L2距离，最终预测轨迹与真实轨迹偏差 2.0m的数量的比率；

（4）均方根误差（Root mean squared error，RMSE）：预测误差平方平均值的平方根。RMSE对较大的预测误差敏感，是常用的轨迹预测指标之一；

（5）负对数似然（Negative log likelihood，NLL）：对于建模的轨迹分布f(Y)；

（6）预测范围（Prediction horizon）：指模型可以预测的未来时间步长。通常预测时间步越长，预测的精度越低。为了满足后续规划和控制，预测的时间步不宜太短，一般模型将预测范围为5s或10s的预测轨迹作为输入，并且各模块内时间步应保持一致；

（7）计算时间（Computation time）：由于轨迹预测模型复杂度高，因此需要大量的计算资源。为达到更高的自动驾驶水平，每个模块的计算速度必须快，以此减少延迟，因此计算时间对于模型能否实现实车部署很重要；

（8）可驱动区域顺应性（Drivable area compli‐ ance，DAC）：将可驾驶区域内未来轨迹的数量与所有可能的轨迹数量的比率作为评估所提出解决方案的可行性的指标。

4 多模态轨迹预测方法

与处理空间-时间问题的 CNN、RNN 方法不同，基于注意力机制的方法是受到人类在处理大量信息时能够快速聚焦于高价值因素的认知系统的启发所提出的方法。本小节将介绍近年来基于 Transformer 框架的可随场景变化的自适应调整的多模态方法。实现多模态预测的另一个挑战在于如何用有限的训练样本覆盖给定场景中所有可能的结果。多智能体轨迹预测需要在两个关键维度建模。

（1）时间维度：将历史信息对智能体未来状态的影响进行建模

在时间维度层面，现有基于经典深度学习的模型CNN，RNN无法建模长时间序列，会导致时间信息丢失问题，Transformer 模型可以通过将位置编码、时间编码的形式保存长历史轨迹的信息。

（2）社会维度：对每个智能体之间的交互关系进行建模

在社会维度层面，Transformer 模型可以通过注意力机制建模人-车、车-车、车-环境之间的交互关系，通过分配权重的方式选择影响力最大的交互，以此为基础，Transformer 可扩展到多智能体交互环境中。

将轨迹预测难点问题分类，并对相应问题的解决办法进行介绍，见表2。现有基于概率的方法和基于建议的启发式的方法虽然可以通过添加规则的方式输出概率分布或通过添加具有强约束的锚点，实现多模态轨迹预测。但是基于概率的方法过度依赖先验分布和损失函数，容易出现优化不稳定或模式崩溃的现象；基于建议的启发式方法过度依赖于锚点质量，不能保证生成多模态情况。基于Transformer 的方法可以避免在设计先验分布和损失函数的过程中的大量人工工作，同时可以更好地捕捉到轨迹预测的多模态性质，实现多模态轨迹预测。

针对多模态轨迹预测目前具有的挑战性问题，基于Transformer轨迹预测在Argoverse数据集的平均位移误差和最终位移误差性能指标上取得了最优水平。基于Transformer的模型处理交互问题，特别是与其他交通参与者、障碍物交互效果相比，CNN 与RNN方法有明显的提升，Transformer可以解决长历史轨迹信息丢失问题，同时依靠注意力机制捕获车辆之间交互信息。除此之外，基于自注意力机制的 Transformer 方法有较好的可解释性，研究人员可以根据模型输出结果更好地判断可改进的参数。

然而，Transformer 模型虽然在自然语言处理及视觉领域均取得了非常显著的成果，但是在自动驾驶轨迹预测方向的研究还较少。目前还无法确定 Transformer 算法能否应用到更加复杂多变的环境中。在现实环境中，感知模块在真实驾驶环境存在局限性，如果有其他交通参与者被遮挡，或者出现缺失/过时/不准确的道路基础设施信息等情况，无法获得实验阶段输入的理想数据，会导致预测轨迹出现偏差。同时如何进一步提升可解释性也是基于 Transformer 模型面临的主要问题之一，现有方法中对预测轨迹的置信度难以解释，导致模型可解释性低。这些问题也是未来使用 Transformer 做多模态轨迹预测可继续深入的方向。此外，现有方法对于多模态的研究还不充分，相信在未来的发展中，基于 Transformer 的多模态轨迹预测方法会更加完善。

5 总结

现阶段基于深度学习的多模态轨迹预测方法的整体框架已经成型，都是由编码器+交互+解码器组成，通过CNN、RNN、GNN等神经网络提取空间交互信息及地图信息，训练后的模型在复杂场景及长时间范围内具有较好的性能，并可以生成与车辆机动性以及场景一致的多模态轨迹。但是基于深度学习的方法需要大量的实验数据。数据方面，目前针对轨迹预测任务的数据集内容越来越丰富，场景复杂度越来越高，数据集的发展提高了轨迹预测算法的性能。

文章只是简单阐述了大模型在轨迹预测方向的应用，更偏向综述类，读者可以对基于模型的多模预测作一个大致了解。但是随着技术的发展，目前预测-决策-规划模型一体化的趋势愈加明显，甚至已经量产，这也是自动驾驶技术进化的魅力。了解大模型也是未来自动驾驶工程师的必修课之一。

6 参考

中科院自动化所：《Deep learning-based multimodal trajectory prediction methods for autonomous driving: state of the art and perspectives》