
在端到端自动驾驶领域,多模态规划易受单帧感知局限,存在时间不一致、遮挡敏感等问题。北京交通大学与地平线机器人等团队提出 MomAD 框架,引入轨迹与感知动量,通过 TTM 模块(豪斯多夫距离选轨迹)、MPI 模块(融合历史查询)及鲁棒去噪,结合 Turning-nuScenes 数据集与 TPC 指标,显著提升规划稳定性,降低碰撞率。
原文链接: https://arxiv.org/pdf/2503.03125
代码链接:https://github.com/adept-thu/MomAD
沐小含持续分享前沿算法论文,欢迎关注...
一、引言
1.1 研究背景
自动驾驶技术已从传统的模块化手动设计流水线,向更集成化的端到端范式转变。传统模块化方法将检测、跟踪、映射、运动预测和规划等任务孤立处理,而端到端框架强调任务的无缝融合,通过以规划为核心,引导上游感知模块的信息流转,从而在动态驾驶环境中提升系统的鲁棒性和可靠性。
高质量的端到端规划依赖于对自车未来轨迹的精准预测,这需要同时理解静态环境(如地图元素)和动态因素(如周围智能体的交互行为)。现有方法主要分为两类:
- 确定性规划(图 1 (a)):如 UniAD、VAD 等,通过单一轨迹预测输出结果,缺乏行为多样性,在复杂场景下存在安全风险;
- 多模态轨迹规划(图 1 (b)):如 VADv2、SparseDrive 等,通过概率建模生成多个候选轨迹,虽能覆盖更多可能场景,但依赖单帧感知的 "一次性" 预测,易受遮挡和关键视觉线索丢失的影响,且缺乏时间一致性,导致连续轨迹连贯性差,引发车辆控制不稳定、方向突变和振荡等问题。
1.2 核心挑战
- temporal inconsistency(时间不一致性):连续帧预测的轨迹缺乏连贯性,导致车辆控制振荡;
- vulnerability to occlusions(遮挡敏感性):单帧感知无法捕捉完整环境信息,易因遮挡导致轨迹预测偏差;
- noise sensitivity(噪声敏感性):动态环境和检测误差带来的噪声会降低规划精度;
- lack of dedicated evaluation metrics(评估指标缺失):现有指标难以量化轨迹规划的时间稳定性。
1.3 研究贡献
论文提出动量感知驾驶(MomAD)框架,核心贡献包括:
- 动量规划范式:首次将 "动量" 概念引入端到端自动驾驶,通过轨迹动量和感知动量解决时间不一致性问题;
- 双核心模块设计:提出拓扑轨迹匹配(TTM)和动量规划交互器(MPI),分别保障轨迹连贯性和增强长时域环境感知;
- 鲁棒性增强机制:在训练阶段引入鲁棒实例去噪模块,提升模型对环境噪声和检测误差的抵抗能力;
- 专用数据集与指标:构建 Turning-nuScenes 数据集(聚焦转弯场景),并提出轨迹预测一致性(TPC)指标,填补复杂场景下时间稳定性评估的空白;
- 全面性能验证:在 nuScenes、Turning-nuScenes 和 Bench2Drive 数据集上验证,显著降低碰撞率并提升轨迹一致性。

图 1 三种规划方法的对比:(a) 确定性规划缺乏多样性;(b) 多模态规划存在时间不一致性;(c) MomAD 的动量规划通过历史信息引导实现稳定连贯的轨迹。
二、相关工作
2.1 端到端自动驾驶
端到端方法直接从原始传感器数据生成规划轨迹或驾驶指令,无需手动特征提取,已成为研究热点。早期方法如 UniAD 通过融合多任务信息提升规划性能,VAD 采用矢量化场景表示增强安全性,但均为确定性规划,无法应对轨迹多样性需求;后续 VADv2、SparseDrive 引入多模态轨迹预测,通过概率建模覆盖更多场景,但忽略了 "一次性" 预测带来的时间不一致性问题。
2.2 时间一致性优化
现有方法仅关注时间维度上的实例特征一致性(如目标跟踪的身份保持),完全未涉及规划层面的时间连贯性优化。MomAD 首次针对这一空白,通过历史轨迹和感知信息的融合,系统性解决多模态规划中的时间不一致性问题。
三、方法详解(MomAD 框架)
MomAD 的整体架构如图 2 所示,分为稀疏感知模块和动量感知规划模块两部分,核心流程为:多视图图像编码→稀疏场景表示(含去噪)→动量规划(TTM+MPI)→轨迹生成。

图 2 MomAD 架构:首先将多视图图像编码为特征图,通过鲁棒实例去噪模块学习稀疏场景表示,最后通过 TTM 和 MPI 模块执行动量规划,完成端到端自动驾驶的规划任务。
3.1 稀疏感知模块
基于 SparseDrive 的稀疏场景表示方案,该模块通过采样锚框和折线周围的关键点,编码多视图图像特征,生成时间步 t 时道路智能体和地图元素的实例特征,并通过检测 / 跟踪和在线映射模块实现精准预测。为增强鲁棒性,模块中引入鲁棒实例去噪(Robust Instance Denoising via Perturbation) 机制:
- 训练阶段:对实例特征施加受控的高斯噪声扰动;
- 去噪网络:采用轻量级编码器 - 解码器 Transformer 块学习去噪,使模型能区分关键特征和冗余噪声;
- 核心作用:降低感知噪声对下游规划的影响,提升模型在遮挡、临时障碍和检测错误场景下的稳定性。
3.2 动量感知规划模块
规划模块基于实例特征,通过概率建模 生成 K 条初始候选轨迹,构成多模态轨迹集合
。论文中明确 K 的设置为 "6×3":针对 "左转、右转、直行"3 种基础驾驶指令,每种指令对应 6 条差异化轨迹(覆盖不同速度、路径偏移量等参数),确保初始候选轨迹能覆盖当前场景下的合理驾驶行为可能性。
该模块是 MomAD 的核心,通过轨迹动量和感知动量的融合,实现稳定连贯的规划,包含两个关键子模块:
3.2.1 拓扑轨迹匹配(TTM)
初始生成的多模态候选轨迹仅依赖当前帧感知信息,可能存在与历史轨迹脱节的问题(如前一帧预测直行、当前帧突然生成左转轨迹)。TTM 模块通过历史轨迹对齐,从候选池中筛选出 "兼具合理性与连贯性" 的轨迹,避免时间不一致性。具体操作分为两步:
-
轨迹坐标统一:由于历史轨迹和当前轨迹在不同时刻的自车坐标系中生成,需转换到统一坐标系(t-1 时刻的自车坐标系):

其中
和
分别为 t-1 时刻的旋转矩阵和平移矩阵。
-
轨迹距离度量****与筛选 :采用豪斯多夫距离(Hausdorff Distance)而非欧氏距离,以捕捉轨迹的全局对齐性(欧氏距离仅关注逐点 proximity,对局部变化敏感)。豪斯多夫距离定义为:

其中
和
分别为候选轨迹和历史轨迹的路点,该距离能量化两条轨迹的最坏情况对齐偏差。选择豪斯多夫距离最小的候选轨迹
,确保与历史轨迹的连贯性。
3.2.2 动量规划交互器(MPI)
TTM 筛选后的轨迹仍可能受当前帧感知局限(如遮挡导致部分环境信息缺失),MPI 模块通过融合历史规划信息,对其进行优化并再生更优的多模态轨迹。
目标:弥补 TTM 仅依赖当前感知的局限性,通过融合历史规划信息,增强长时域环境感知和轨迹预测能力。MPI 的核心是长时域查询混合器(Long-horizon Query Mixer),流程如图 3 所示:

图 3 MPI 通过交叉注意力机制融合当前选中的规划查询与历史规划查询,扩展静态和动态感知范围,提升长时域轨迹生成质量并降低碰撞风险。
-
历史查询编码 :将 t-1 时刻的多模态规划查询
与其对应的规划分数
通过元素级交互和 LSTM 处理,模拟时间演化:

其中
为 sigmoid 函数,
为元素级乘积,
为编码后的历史查询。
-
交叉注意力融合 :将 TTM 选中的当前规划查询
作为查询(Query),编码后的历史查询
作为键(Key)和值(Value),通过交叉注意力机制融合长时域时空上下文,生成增强查询
:

-
轨迹生成 :增强查询与实例特征、自车锚点位置信息融合,输入规划头(PlanHead)生成优化后的多模态轨迹
:

并根据分数选择最优轨迹
。
3.3 训练细节
MomAD 的训练分为两阶段:
- 阶段 1:单独训练稀疏感知模块(3D 目标检测、多目标跟踪、在线映射),学习稀疏场景表示,损失函数为
(
为检测损失,
为映射损失);
- 阶段 2:联合训练感知、运动预测和规划模块(不冻结感知模块权重),训练 10 个 epoch,批量大小 48,学习率 3×10⁻⁴,损失函数为
(
为运动预测和规划损失)。
损失函数细节:
- 检测损失:Focal Loss(分类)+ L1 Loss(边界框回归);
- 映射损失:与 VAD 一致,Focal Loss(分类)+ L1 Loss(回归);
- 运动与规划损失:平均位移误差(ADE)+ Focal Loss(分类)+ L1 Loss(回归 + 自车状态预测)。
四、实验与结果
4.1 实验设置
4.1.1 数据集
- nuScenes:1000 个驾驶场景,700 个训练集、150 个验证集,涵盖 360° 摄像头图像、LiDAR 和雷达点云;
- Turning-nuScenes:从 nuScenes 验证集中筛选的转弯场景子集,含 17 个场景、680 个样本,用于评估时间一致性;
- Bench2Drive:CARLA Leaderboard 2.0 下的闭环评估协议,含 44 个交互场景(切入、超车、绕行)和 220 条路线,评估闭环性能。
4.1.2 评估指标
-
传统指标:L2 位移误差(L2)、碰撞率(Collision Rate);
-
新指标:轨迹预测一致性(TPC),量化当前预测轨迹与历史轨迹的差异,定义为:

其中为验证集 GT 轨迹总数,
为轨迹重叠时间的掩码,TPC 值越小表示一致性越好。
4.1.3 基线方法
- 确定性规划:UniAD、VAD;
- 多模态规划:SparseDrive(SOTA)、VADmmt(VAD 多模态变体)。
4.2 核心结果分析
4.2.1 nuScenes 数据集结果(开环)
表 1 展示了 MomAD 与基线方法在 nuScenes 验证集上的性能对比:

关键结论:
- MomAD 在平均 L2 误差(0.60m)和碰撞率(0.09%)上与 SOTA 方法相当;
- TPC 指标显著提升:1s/2s/3s 分别达到 0.30m/0.53m/0.78m,平均 0.54m,较 SparseDrive(0.80m)降低 32.5%,证明时间一致性优势;
- FPS 为 7.8,虽略低于 SparseDrive(9.0),但在可接受范围内。
4.2.2 Turning-nuScenes 数据集结果
表 2 展示了转弯场景下的性能对比(转弯场景对时间一致性要求更高):

关键结论:
- MomAD 在所有指标上全面超越 SparseDrive,平均 L2 误差降低 11.6%,平均碰撞率降低 20%;
- TPC 平均降低 0.16m(20.3%),证明在转弯等复杂场景下仍能保持良好的时间一致性。
4.2.3 长时域轨迹预测结果(4-6s)
表 3 展示了 nuScenes 和 Turning-nuScenes 上 6s 长时域预测的性能:

关键结论:
- 随着预测时长增加,MomAD 的性能优势更显著:6s 时 Turning-nuScenes 的 L2 误差降低 25.3%,TPC 降低 33.4%,碰撞率降低 10.1%;
- 证明动量规划能有效缓解长时域预测中的时间不一致性问题。
4.2.4 Bench2Drive 闭环结果
表 4 展示了闭环评估的性能(开环指标:平均 L2;闭环指标:DS(驾驶分数)、SR(成功率)、Effi(效率)、Comf(舒适度)):

关键结论:
- MomAD 的闭环成功率较 VADmmt 提升 16.3%,较 SparseDrive 提升 8.4%;
- 舒适度(轨迹平滑度)较 VADmmt 提升 7.2%,较 SparseDrive 提升 5.3%,证明其实际驾驶中的稳定性优势。
4.2.5 感知与运动预测结果
表 5 展示了 MomAD 在感知任务(3D 目标检测、多目标跟踪、在线映射)和运动预测任务上的性能:

关键结论:
- 感知任务:MomAD 在 3D 检测 mAP(42.3%)、跟踪 AMOTA(55.9%)、映射 mAP(55.9%)上均优于 SparseDrive,证明去噪模块提升了感知鲁棒性;
- 运动预测:mADE=0.61m,mFDE=0.98m,EPA=0.499,优于基线方法,证明感知动量能增强对智能体意图的理解。
4.3 消融实验
4.3.1 鲁棒实例去噪模块(ED)的影响
表 6 展示了不同噪声因子(NS)下 ED 模块的作用:

- 当 NS=0.1 时,检测 mAP=42.3%,规划 TPC=0.54m,碰撞率 = 0.09%,性能最优;
- 证明适量的噪声扰动能增强模型鲁棒性,过量噪声(NS=0.3)会导致性能下降。
4.3.2 动量规划(MP)模块的影响
表 7 展示了历史帧数量(t=1:无历史,t=2:1 帧历史,t=3:2 帧历史)对 Turning-nuScenes 的影响:

- t=2 时性能最优:平均 L2=0.76m,碰撞率 = 0.32%,TPC=0.63m;
- t=3 时性能略有下降,可能是因为过多历史帧引入了冗余信息;
- 证明引入 1 帧历史信息即可显著提升时间一致性。
4.3.3 MPI 子模块的影响
表 8 展示了 MPI 中不同组件(QM:长时域查询混合器,Add:直接相加,TP:轨迹预测器)的作用:

- 仅使用 Add 操作时,L2 降低 0.04m,碰撞率降低 0.04%,TPC 降低 0.12m;
- 结合 QM 后性能最优,证明交叉注意力融合历史查询的有效性。
4.4 可视化结果
图 4 展示了多帧轨迹预测的可视化对比(红色:GT,黄色 / 蓝色:MomAD 预测,其他颜色:基线方法预测):

图 4 转弯场景下的多帧可视化:MomAD 的预测轨迹(黄 / 蓝)更贴近 GT(红),且帧间连贯性更好,TPC 值更低;基线方法(UniAD、VAD、SparseDrive)存在轨迹突变或偏离 GT 的情况。
关键观察:
- MomAD 的预测轨迹更平滑,与 GT 的偏差更小;
- 帧间轨迹无明显突变,避免了车辆振荡,提升驾驶舒适度和安全性。
五、结论与未来工作
5.1 结论
MomAD 框架通过引入轨迹动量和感知动量,解决了端到端自动驾驶中多模态规划的时间不一致性、遮挡敏感性和噪声敏感性问题:
- TTM 模块通过豪斯多夫距离保障轨迹连贯性;
- MPI 模块通过历史查询融合增强长时域感知;
- 鲁棒实例去噪模块提升模型对环境噪声的抵抗能力;
- Turning-nuScenes 数据集和 TPC 指标填补了复杂场景下时间一致性评估的空白;
- 实验证明,MomAD 在开环、闭环、长时域预测中均优于 SOTA 方法,尤其在转弯等复杂场景下性能显著。
5.2 未来工作
当前 MomAD 仍存在轨迹多样性不足的问题(受限于传统的 teacher-forcing 轨迹回归导致的模式崩溃),未来将探索:
- 结合扩散模型(Diffusion Models)增强轨迹多样性;
- 采用推测解码(Speculative Decoding)平衡多样性与效率;
- 扩展到更复杂的交互场景(如多车协同、极端天气)。
六、核心亮点总结
- 动量规划范式:首次将物理中的 "动量" 概念引入自动驾驶规划,通过历史信息引导当前决策,从根本上解决时间不一致性;
- 工程实用性强:基于稀疏感知框架,FPS 达 7.8,满足实时性要求,且闭环性能优异,适用于实际驾驶场景;
- 评估体系完善:构建专用数据集和指标,为时间一致性评估提供标准;
- 模块设计优雅:TTM 和 MPI 模块结构简洁,可灵活嵌入现有端到端框架,具有良好的扩展性。
MomAD 的提出为端到端自动驾驶的稳定性优化提供了新的思路,其动量感知机制和鲁棒性设计对后续研究具有重要参考价值。