Don’t Shake the Wheel: 端到端自动驾驶中的动量感知规划（MomAD）

在端到端自动驾驶领域，多模态规划易受单帧感知局限，存在时间不一致、遮挡敏感等问题。北京交通大学与地平线机器人等团队提出 MomAD 框架，引入轨迹与感知动量，通过 TTM 模块（豪斯多夫距离选轨迹）、MPI 模块（融合历史查询）及鲁棒去噪，结合 Turning-nuScenes 数据集与 TPC 指标，显著提升规划稳定性，降低碰撞率。

原文链接: https://arxiv.org/pdf/2503.03125

代码链接：https://github.com/adept-thu/MomAD

沐小含持续分享前沿算法论文，欢迎关注...

一、引言

1.1 研究背景

自动驾驶技术已从传统的模块化手动设计流水线，向更集成化的端到端范式转变。传统模块化方法将检测、跟踪、映射、运动预测和规划等任务孤立处理，而端到端框架强调任务的无缝融合，通过以规划为核心，引导上游感知模块的信息流转，从而在动态驾驶环境中提升系统的鲁棒性和可靠性。

高质量的端到端规划依赖于对自车未来轨迹的精准预测，这需要同时理解静态环境（如地图元素）和动态因素（如周围智能体的交互行为）。现有方法主要分为两类：

确定性规划（图 1 (a)）：如 UniAD、VAD 等，通过单一轨迹预测输出结果，缺乏行为多样性，在复杂场景下存在安全风险；
多模态轨迹规划（图 1 (b)）：如 VADv2、SparseDrive 等，通过概率建模生成多个候选轨迹，虽能覆盖更多可能场景，但依赖单帧感知的 "一次性" 预测，易受遮挡和关键视觉线索丢失的影响，且缺乏时间一致性，导致连续轨迹连贯性差，引发车辆控制不稳定、方向突变和振荡等问题。

1.2 核心挑战

temporal inconsistency（时间不一致性）：连续帧预测的轨迹缺乏连贯性，导致车辆控制振荡；
vulnerability to occlusions（遮挡敏感性）：单帧感知无法捕捉完整环境信息，易因遮挡导致轨迹预测偏差；
noise sensitivity（噪声敏感性）：动态环境和检测误差带来的噪声会降低规划精度；
lack of dedicated evaluation metrics（评估指标缺失）：现有指标难以量化轨迹规划的时间稳定性。

1.3 研究贡献

论文提出动量感知驾驶（MomAD）框架，核心贡献包括：

动量规划范式：首次将 "动量" 概念引入端到端自动驾驶，通过轨迹动量和感知动量解决时间不一致性问题；
双核心模块设计：提出拓扑轨迹匹配（TTM）和动量规划交互器（MPI），分别保障轨迹连贯性和增强长时域环境感知；
鲁棒性增强机制：在训练阶段引入鲁棒实例去噪模块，提升模型对环境噪声和检测误差的抵抗能力；
专用数据集与指标：构建 Turning-nuScenes 数据集（聚焦转弯场景），并提出轨迹预测一致性（TPC）指标，填补复杂场景下时间稳定性评估的空白；
全面性能验证：在 nuScenes、Turning-nuScenes 和 Bench2Drive 数据集上验证，显著降低碰撞率并提升轨迹一致性。

图 1 三种规划方法的对比：(a) 确定性规划缺乏多样性；(b) 多模态规划存在时间不一致性；(c) MomAD 的动量规划通过历史信息引导实现稳定连贯的轨迹。

二、相关工作

2.1 端到端自动驾驶

端到端方法直接从原始传感器数据生成规划轨迹或驾驶指令，无需手动特征提取，已成为研究热点。早期方法如 UniAD 通过融合多任务信息提升规划性能，VAD 采用矢量化场景表示增强安全性，但均为确定性规划，无法应对轨迹多样性需求；后续 VADv2、SparseDrive 引入多模态轨迹预测，通过概率建模覆盖更多场景，但忽略了 "一次性" 预测带来的时间不一致性问题。

2.2 时间一致性优化

现有方法仅关注时间维度上的实例特征一致性（如目标跟踪的身份保持），完全未涉及规划层面的时间连贯性优化。MomAD 首次针对这一空白，通过历史轨迹和感知信息的融合，系统性解决多模态规划中的时间不一致性问题。

三、方法详解（MomAD 框架）

MomAD 的整体架构如图 2 所示，分为稀疏感知模块和动量感知规划模块两部分，核心流程为：多视图图像编码→稀疏场景表示（含去噪）→动量规划（TTM+MPI）→轨迹生成。

图 2 MomAD 架构：首先将多视图图像编码为特征图，通过鲁棒实例去噪模块学习稀疏场景表示，最后通过 TTM 和 MPI 模块执行动量规划，完成端到端自动驾驶的规划任务。

3.1 稀疏感知模块

基于 SparseDrive 的稀疏场景表示方案，该模块通过采样锚框和折线周围的关键点，编码多视图图像特征，生成时间步 t 时道路智能体和地图元素的实例特征，并通过检测 / 跟踪和在线映射模块实现精准预测。为增强鲁棒性，模块中引入鲁棒实例去噪（Robust Instance Denoising via Perturbation） 机制：

训练阶段：对实例特征施加受控的高斯噪声扰动；
去噪网络：采用轻量级编码器 - 解码器 Transformer 块学习去噪，使模型能区分关键特征和冗余噪声；
核心作用：降低感知噪声对下游规划的影响，提升模型在遮挡、临时障碍和检测错误场景下的稳定性。

3.2 动量感知规划模块

规划模块基于实例特征，通过概率建模 生成 K 条初始候选轨迹，构成多模态轨迹集合。论文中明确 K 的设置为 "6×3"：针对 "左转、右转、直行"3 种基础驾驶指令，每种指令对应 6 条差异化轨迹（覆盖不同速度、路径偏移量等参数），确保初始候选轨迹能覆盖当前场景下的合理驾驶行为可能性。

该模块是 MomAD 的核心，通过轨迹动量和感知动量的融合，实现稳定连贯的规划，包含两个关键子模块：

3.2.1 拓扑轨迹匹配（TTM）

初始生成的多模态候选轨迹仅依赖当前帧感知信息，可能存在与历史轨迹脱节的问题（如前一帧预测直行、当前帧突然生成左转轨迹）。TTM 模块通过历史轨迹对齐，从候选池中筛选出 "兼具合理性与连贯性" 的轨迹，避免时间不一致性。具体操作分为两步：

轨迹坐标统一：由于历史轨迹和当前轨迹在不同时刻的自车坐标系中生成，需转换到统一坐标系（t-1 时刻的自车坐标系）：

其中和分别为 t-1 时刻的旋转矩阵和平移矩阵。
轨迹距离度量****与筛选 ：采用豪斯多夫距离（Hausdorff Distance）而非欧氏距离，以捕捉轨迹的全局对齐性（欧氏距离仅关注逐点 proximity，对局部变化敏感）。豪斯多夫距离定义为：

其中和分别为候选轨迹和历史轨迹的路点，该距离能量化两条轨迹的最坏情况对齐偏差。选择豪斯多夫距离最小的候选轨迹，确保与历史轨迹的连贯性。

3.2.2 动量规划交互器（MPI）

TTM 筛选后的轨迹仍可能受当前帧感知局限（如遮挡导致部分环境信息缺失），MPI 模块通过融合历史规划信息，对其进行优化并再生更优的多模态轨迹。

目标：弥补 TTM 仅依赖当前感知的局限性，通过融合历史规划信息，增强长时域环境感知和轨迹预测能力。MPI 的核心是长时域查询混合器（Long-horizon Query Mixer），流程如图 3 所示：

图 3 MPI 通过交叉注意力机制融合当前选中的规划查询与历史规划查询，扩展静态和动态感知范围，提升长时域轨迹生成质量并降低碰撞风险。

历史查询编码 ：将 t-1 时刻的多模态规划查询与其对应的规划分数通过元素级交互和 LSTM 处理，模拟时间演化：

其中为 sigmoid 函数，为元素级乘积，为编码后的历史查询。
交叉注意力融合 ：将 TTM 选中的当前规划查询作为查询（Query），编码后的历史查询作为键（Key）和值（Value），通过交叉注意力机制融合长时域时空上下文，生成增强查询：
轨迹生成 ：增强查询与实例特征、自车锚点位置信息融合，输入规划头（PlanHead）生成优化后的多模态轨迹：

并根据分数选择最优轨迹。

3.3 训练细节

MomAD 的训练分为两阶段：

阶段 1：单独训练稀疏感知模块（3D 目标检测、多目标跟踪、在线映射），学习稀疏场景表示，损失函数为（为检测损失，为映射损失）；
阶段 2：联合训练感知、运动预测和规划模块（不冻结感知模块权重），训练 10 个 epoch，批量大小 48，学习率 3×10⁻⁴，损失函数为（为运动预测和规划损失）。

损失函数细节：

检测损失：Focal Loss（分类）+ L1 Loss（边界框回归）；
映射损失：与 VAD 一致，Focal Loss（分类）+ L1 Loss（回归）；
运动与规划损失：平均位移误差（ADE）+ Focal Loss（分类）+ L1 Loss（回归 + 自车状态预测）。

四、实验与结果

4.1 实验设置

4.1.1 数据集

nuScenes：1000 个驾驶场景，700 个训练集、150 个验证集，涵盖 360° 摄像头图像、LiDAR 和雷达点云；
Turning-nuScenes：从 nuScenes 验证集中筛选的转弯场景子集，含 17 个场景、680 个样本，用于评估时间一致性；
Bench2Drive：CARLA Leaderboard 2.0 下的闭环评估协议，含 44 个交互场景（切入、超车、绕行）和 220 条路线，评估闭环性能。

4.1.2 评估指标

传统指标：L2 位移误差（L2）、碰撞率（Collision Rate）；
新指标：轨迹预测一致性（TPC），量化当前预测轨迹与历史轨迹的差异，定义为：

其中为验证集 GT 轨迹总数，为轨迹重叠时间的掩码，TPC 值越小表示一致性越好。

4.1.3 基线方法

确定性规划：UniAD、VAD；
多模态规划：SparseDrive（SOTA）、VADmmt（VAD 多模态变体）。

4.2 核心结果分析

4.2.1 nuScenes 数据集结果（开环）

表 1 展示了 MomAD 与基线方法在 nuScenes 验证集上的性能对比：

关键结论：

MomAD 在平均 L2 误差（0.60m）和碰撞率（0.09%）上与 SOTA 方法相当；
TPC 指标显著提升：1s/2s/3s 分别达到 0.30m/0.53m/0.78m，平均 0.54m，较 SparseDrive（0.80m）降低 32.5%，证明时间一致性优势；
FPS 为 7.8，虽略低于 SparseDrive（9.0），但在可接受范围内。

4.2.2 Turning-nuScenes 数据集结果

表 2 展示了转弯场景下的性能对比（转弯场景对时间一致性要求更高）：

关键结论：

MomAD 在所有指标上全面超越 SparseDrive，平均 L2 误差降低 11.6%，平均碰撞率降低 20%；
TPC 平均降低 0.16m（20.3%），证明在转弯等复杂场景下仍能保持良好的时间一致性。

4.2.3 长时域轨迹预测结果（4-6s）

表 3 展示了 nuScenes 和 Turning-nuScenes 上 6s 长时域预测的性能：

关键结论：

随着预测时长增加，MomAD 的性能优势更显著：6s 时 Turning-nuScenes 的 L2 误差降低 25.3%，TPC 降低 33.4%，碰撞率降低 10.1%；
证明动量规划能有效缓解长时域预测中的时间不一致性问题。

4.2.4 Bench2Drive 闭环结果

表 4 展示了闭环评估的性能（开环指标：平均 L2；闭环指标：DS（驾驶分数）、SR（成功率）、Effi（效率）、Comf（舒适度））：

关键结论：

MomAD 的闭环成功率较 VADmmt 提升 16.3%，较 SparseDrive 提升 8.4%；
舒适度（轨迹平滑度）较 VADmmt 提升 7.2%，较 SparseDrive 提升 5.3%，证明其实际驾驶中的稳定性优势。

4.2.5 感知与运动预测结果

表 5 展示了 MomAD 在感知任务（3D 目标检测、多目标跟踪、在线映射）和运动预测任务上的性能：

关键结论：

感知任务：MomAD 在 3D 检测 mAP（42.3%）、跟踪 AMOTA（55.9%）、映射 mAP（55.9%）上均优于 SparseDrive，证明去噪模块提升了感知鲁棒性；
运动预测：mADE=0.61m，mFDE=0.98m，EPA=0.499，优于基线方法，证明感知动量能增强对智能体意图的理解。

4.3 消融实验

4.3.1 鲁棒实例去噪模块（ED）的影响

表 6 展示了不同噪声因子（NS）下 ED 模块的作用：

当 NS=0.1 时，检测 mAP=42.3%，规划 TPC=0.54m，碰撞率 = 0.09%，性能最优；
证明适量的噪声扰动能增强模型鲁棒性，过量噪声（NS=0.3）会导致性能下降。

4.3.2 动量规划（MP）模块的影响

表 7 展示了历史帧数量（t=1：无历史，t=2：1 帧历史，t=3：2 帧历史）对 Turning-nuScenes 的影响：

t=2 时性能最优：平均 L2=0.76m，碰撞率 = 0.32%，TPC=0.63m；
t=3 时性能略有下降，可能是因为过多历史帧引入了冗余信息；
证明引入 1 帧历史信息即可显著提升时间一致性。

4.3.3 MPI 子模块的影响

表 8 展示了 MPI 中不同组件（QM：长时域查询混合器，Add：直接相加，TP：轨迹预测器）的作用：

仅使用 Add 操作时，L2 降低 0.04m，碰撞率降低 0.04%，TPC 降低 0.12m；
结合 QM 后性能最优，证明交叉注意力融合历史查询的有效性。

4.4 可视化结果

图 4 展示了多帧轨迹预测的可视化对比（红色：GT，黄色 / 蓝色：MomAD 预测，其他颜色：基线方法预测）：

图 4 转弯场景下的多帧可视化：MomAD 的预测轨迹（黄 / 蓝）更贴近 GT（红），且帧间连贯性更好，TPC 值更低；基线方法（UniAD、VAD、SparseDrive）存在轨迹突变或偏离 GT 的情况。

关键观察：

MomAD 的预测轨迹更平滑，与 GT 的偏差更小；
帧间轨迹无明显突变，避免了车辆振荡，提升驾驶舒适度和安全性。

五、结论与未来工作

5.1 结论

MomAD 框架通过引入轨迹动量和感知动量，解决了端到端自动驾驶中多模态规划的时间不一致性、遮挡敏感性和噪声敏感性问题：

TTM 模块通过豪斯多夫距离保障轨迹连贯性；
MPI 模块通过历史查询融合增强长时域感知；
鲁棒实例去噪模块提升模型对环境噪声的抵抗能力；
Turning-nuScenes 数据集和 TPC 指标填补了复杂场景下时间一致性评估的空白；
实验证明，MomAD 在开环、闭环、长时域预测中均优于 SOTA 方法，尤其在转弯等复杂场景下性能显著。

5.2 未来工作

当前 MomAD 仍存在轨迹多样性不足的问题（受限于传统的 teacher-forcing 轨迹回归导致的模式崩溃），未来将探索：

结合扩散模型（Diffusion Models）增强轨迹多样性；
采用推测解码（Speculative Decoding）平衡多样性与效率；
扩展到更复杂的交互场景（如多车协同、极端天气）。

六、核心亮点总结

动量规划范式：首次将物理中的 "动量" 概念引入自动驾驶规划，通过历史信息引导当前决策，从根本上解决时间不一致性；
工程实用性强：基于稀疏感知框架，FPS 达 7.8，满足实时性要求，且闭环性能优异，适用于实际驾驶场景；
评估体系完善：构建专用数据集和指标，为时间一致性评估提供标准；
模块设计优雅：TTM 和 MPI 模块结构简洁，可灵活嵌入现有端到端框架，具有良好的扩展性。

MomAD 的提出为端到端自动驾驶的稳定性优化提供了新的思路，其动量感知机制和鲁棒性设计对后续研究具有重要参考价值。