Don’t Shake the Wheel: 端到端自动驾驶中的动量感知规划(MomAD)

在端到端自动驾驶领域,多模态规划易受单帧感知局限,存在时间不一致、遮挡敏感等问题。北京交通大学与地平线机器人等团队提出 MomAD 框架,引入轨迹与感知动量,通过 TTM 模块(豪斯多夫距离选轨迹)、MPI 模块(融合历史查询)及鲁棒去噪,结合 Turning-nuScenes 数据集与 TPC 指标,显著提升规划稳定性,降低碰撞率。

原文链接: https://arxiv.org/pdf/2503.03125

代码链接:https://github.com/adept-thu/MomAD

沐小含持续分享前沿算法论文,欢迎关注...

一、引言

1.1 研究背景

自动驾驶技术已从传统的模块化手动设计流水线,向更集成化的端到端范式转变。传统模块化方法将检测、跟踪、映射、运动预测和规划等任务孤立处理,而端到端框架强调任务的无缝融合,通过以规划为核心,引导上游感知模块的信息流转,从而在动态驾驶环境中提升系统的鲁棒性和可靠性。

高质量的端到端规划依赖于对自车未来轨迹的精准预测,这需要同时理解静态环境(如地图元素)和动态因素(如周围智能体的交互行为)。现有方法主要分为两类:

  • 确定性规划(图 1 (a)):如 UniAD、VAD 等,通过单一轨迹预测输出结果,缺乏行为多样性,在复杂场景下存在安全风险;
  • 多模态轨迹规划(图 1 (b)):如 VADv2、SparseDrive 等,通过概率建模生成多个候选轨迹,虽能覆盖更多可能场景,但依赖单帧感知的 "一次性" 预测,易受遮挡和关键视觉线索丢失的影响,且缺乏时间一致性,导致连续轨迹连贯性差,引发车辆控制不稳定、方向突变和振荡等问题。

1.2 核心挑战

  • temporal inconsistency(时间不一致性):连续帧预测的轨迹缺乏连贯性,导致车辆控制振荡;
  • vulnerability to occlusions(遮挡敏感性):单帧感知无法捕捉完整环境信息,易因遮挡导致轨迹预测偏差;
  • noise sensitivity(噪声敏感性):动态环境和检测误差带来的噪声会降低规划精度;
  • lack of dedicated evaluation metrics(评估指标缺失):现有指标难以量化轨迹规划的时间稳定性。

1.3 研究贡献

论文提出动量感知驾驶(MomAD)框架,核心贡献包括:

  1. 动量规划范式:首次将 "动量" 概念引入端到端自动驾驶,通过轨迹动量和感知动量解决时间不一致性问题;
  2. 双核心模块设计:提出拓扑轨迹匹配(TTM)和动量规划交互器(MPI),分别保障轨迹连贯性和增强长时域环境感知;
  3. 鲁棒性增强机制:在训练阶段引入鲁棒实例去噪模块,提升模型对环境噪声和检测误差的抵抗能力;
  4. 专用数据集与指标:构建 Turning-nuScenes 数据集(聚焦转弯场景),并提出轨迹预测一致性(TPC)指标,填补复杂场景下时间稳定性评估的空白;
  5. 全面性能验证:在 nuScenes、Turning-nuScenes 和 Bench2Drive 数据集上验证,显著降低碰撞率并提升轨迹一致性。

图 1 三种规划方法的对比:(a) 确定性规划缺乏多样性;(b) 多模态规划存在时间不一致性;(c) MomAD 的动量规划通过历史信息引导实现稳定连贯的轨迹。

二、相关工作

2.1 端到端自动驾驶

端到端方法直接从原始传感器数据生成规划轨迹或驾驶指令,无需手动特征提取,已成为研究热点。早期方法如 UniAD 通过融合多任务信息提升规划性能,VAD 采用矢量化场景表示增强安全性,但均为确定性规划,无法应对轨迹多样性需求;后续 VADv2、SparseDrive 引入多模态轨迹预测,通过概率建模覆盖更多场景,但忽略了 "一次性" 预测带来的时间不一致性问题。

2.2 时间一致性优化

现有方法仅关注时间维度上的实例特征一致性(如目标跟踪的身份保持),完全未涉及规划层面的时间连贯性优化。MomAD 首次针对这一空白,通过历史轨迹和感知信息的融合,系统性解决多模态规划中的时间不一致性问题。

三、方法详解(MomAD 框架)

MomAD 的整体架构如图 2 所示,分为稀疏感知模块和动量感知规划模块两部分,核心流程为:多视图图像编码→稀疏场景表示(含去噪)→动量规划(TTM+MPI)→轨迹生成。

图 2 MomAD 架构:首先将多视图图像编码为特征图,通过鲁棒实例去噪模块学习稀疏场景表示,最后通过 TTM 和 MPI 模块执行动量规划,完成端到端自动驾驶的规划任务。

3.1 稀疏感知模块

基于 SparseDrive 的稀疏场景表示方案,该模块通过采样锚框和折线周围的关键点,编码多视图图像特征,生成时间步 t 时道路智能体和地图元素的实例特征,并通过检测 / 跟踪和在线映射模块实现精准预测。为增强鲁棒性,模块中引入鲁棒实例去噪(Robust Instance Denoising via Perturbation) 机制:

  • 训练阶段:对实例特征施加受控的高斯噪声扰动;
  • 去噪网络:采用轻量级编码器 - 解码器 Transformer 块学习去噪,使模型能区分关键特征和冗余噪声;
  • 核心作用:降低感知噪声对下游规划的影响,提升模型在遮挡、临时障碍和检测错误场景下的稳定性。

3.2 动量感知规划模块

规划模块基于实例特征,通过概率建模 生成 K 条初始候选轨迹,构成多模态轨迹集合。论文中明确 K 的设置为 "6×3":针对 "左转、右转、直行"3 种基础驾驶指令,每种指令对应 6 条差异化轨迹(覆盖不同速度、路径偏移量等参数),确保初始候选轨迹能覆盖当前场景下的合理驾驶行为可能性。

该模块是 MomAD 的核心,通过轨迹动量和感知动量的融合,实现稳定连贯的规划,包含两个关键子模块:

3.2.1 拓扑轨迹匹配(TTM)

初始生成的多模态候选轨迹仅依赖当前帧感知信息,可能存在与历史轨迹脱节的问题(如前一帧预测直行、当前帧突然生成左转轨迹)。TTM 模块通过历史轨迹对齐,从候选池中筛选出 "兼具合理性与连贯性" 的轨迹,避免时间不一致性。具体操作分为两步:

  1. 轨迹坐标统一:由于历史轨迹和当前轨迹在不同时刻的自车坐标系中生成,需转换到统一坐标系(t-1 时刻的自车坐标系):

    其中分别为 t-1 时刻的旋转矩阵和平移矩阵。

  2. 轨迹距离度量****与筛选 :采用豪斯多夫距离(Hausdorff Distance)而非欧氏距离,以捕捉轨迹的全局对齐性(欧氏距离仅关注逐点 proximity,对局部变化敏感)。豪斯多夫距离定义为:

    其中分别为候选轨迹和历史轨迹的路点,该距离能量化两条轨迹的最坏情况对齐偏差。选择豪斯多夫距离最小的候选轨迹,确保与历史轨迹的连贯性。

3.2.2 动量规划交互器(MPI)

TTM 筛选后的轨迹仍可能受当前帧感知局限(如遮挡导致部分环境信息缺失),MPI 模块通过融合历史规划信息,对其进行优化并再生更优的多模态轨迹。

目标:弥补 TTM 仅依赖当前感知的局限性,通过融合历史规划信息,增强长时域环境感知和轨迹预测能力。MPI 的核心是长时域查询混合器(Long-horizon Query Mixer),流程如图 3 所示:

图 3 MPI 通过交叉注意力机制融合当前选中的规划查询与历史规划查询,扩展静态和动态感知范围,提升长时域轨迹生成质量并降低碰撞风险。

  1. 历史查询编码 :将 t-1 时刻的多模态规划查询与其对应的规划分数通过元素级交互和 LSTM 处理,模拟时间演化:

    其中为 sigmoid 函数,为元素级乘积,为编码后的历史查询。

  2. 交叉注意力融合 :将 TTM 选中的当前规划查询作为查询(Query),编码后的历史查询作为键(Key)和值(Value),通过交叉注意力机制融合长时域时空上下文,生成增强查询

  3. 轨迹生成 :增强查询与实例特征、自车锚点位置信息融合,输入规划头(PlanHead)生成优化后的多模态轨迹

    并根据分数选择最优轨迹

3.3 训练细节

MomAD 的训练分为两阶段:

  • 阶段 1:单独训练稀疏感知模块(3D 目标检测、多目标跟踪、在线映射),学习稀疏场景表示,损失函数为为检测损失,为映射损失);
  • 阶段 2:联合训练感知、运动预测和规划模块(不冻结感知模块权重),训练 10 个 epoch,批量大小 48,学习率 3×10⁻⁴,损失函数为为运动预测和规划损失)。

损失函数细节:

  • 检测损失:Focal Loss(分类)+ L1 Loss(边界框回归);
  • 映射损失:与 VAD 一致,Focal Loss(分类)+ L1 Loss(回归);
  • 运动与规划损失:平均位移误差(ADE)+ Focal Loss(分类)+ L1 Loss(回归 + 自车状态预测)。

四、实验与结果

4.1 实验设置

4.1.1 数据集
  • nuScenes:1000 个驾驶场景,700 个训练集、150 个验证集,涵盖 360° 摄像头图像、LiDAR 和雷达点云;
  • Turning-nuScenes:从 nuScenes 验证集中筛选的转弯场景子集,含 17 个场景、680 个样本,用于评估时间一致性;
  • Bench2Drive:CARLA Leaderboard 2.0 下的闭环评估协议,含 44 个交互场景(切入、超车、绕行)和 220 条路线,评估闭环性能。
4.1.2 评估指标
  • 传统指标:L2 位移误差(L2)、碰撞率(Collision Rate);

  • 新指标:轨迹预测一致性(TPC),量化当前预测轨迹与历史轨迹的差异,定义为:


    其中为验证集 GT 轨迹总数,为轨迹重叠时间的掩码,TPC 值越小表示一致性越好。

4.1.3 基线方法
  • 确定性规划:UniAD、VAD;
  • 多模态规划:SparseDrive(SOTA)、VADmmt(VAD 多模态变体)。

4.2 核心结果分析

4.2.1 nuScenes 数据集结果(开环)

表 1 展示了 MomAD 与基线方法在 nuScenes 验证集上的性能对比:

关键结论:

  • MomAD 在平均 L2 误差(0.60m)和碰撞率(0.09%)上与 SOTA 方法相当;
  • TPC 指标显著提升:1s/2s/3s 分别达到 0.30m/0.53m/0.78m,平均 0.54m,较 SparseDrive(0.80m)降低 32.5%,证明时间一致性优势;
  • FPS 为 7.8,虽略低于 SparseDrive(9.0),但在可接受范围内。
4.2.2 Turning-nuScenes 数据集结果

表 2 展示了转弯场景下的性能对比(转弯场景对时间一致性要求更高):

关键结论:

  • MomAD 在所有指标上全面超越 SparseDrive,平均 L2 误差降低 11.6%,平均碰撞率降低 20%;
  • TPC 平均降低 0.16m(20.3%),证明在转弯等复杂场景下仍能保持良好的时间一致性。
4.2.3 长时域轨迹预测结果(4-6s)

表 3 展示了 nuScenes 和 Turning-nuScenes 上 6s 长时域预测的性能:

关键结论:

  • 随着预测时长增加,MomAD 的性能优势更显著:6s 时 Turning-nuScenes 的 L2 误差降低 25.3%,TPC 降低 33.4%,碰撞率降低 10.1%;
  • 证明动量规划能有效缓解长时域预测中的时间不一致性问题。
4.2.4 Bench2Drive 闭环结果

表 4 展示了闭环评估的性能(开环指标:平均 L2;闭环指标:DS(驾驶分数)、SR(成功率)、Effi(效率)、Comf(舒适度)):

关键结论:

  • MomAD 的闭环成功率较 VADmmt 提升 16.3%,较 SparseDrive 提升 8.4%;
  • 舒适度(轨迹平滑度)较 VADmmt 提升 7.2%,较 SparseDrive 提升 5.3%,证明其实际驾驶中的稳定性优势。
4.2.5 感知与运动预测结果

表 5 展示了 MomAD 在感知任务(3D 目标检测、多目标跟踪、在线映射)和运动预测任务上的性能:

关键结论:

  • 感知任务:MomAD 在 3D 检测 mAP(42.3%)、跟踪 AMOTA(55.9%)、映射 mAP(55.9%)上均优于 SparseDrive,证明去噪模块提升了感知鲁棒性;
  • 运动预测:mADE=0.61m,mFDE=0.98m,EPA=0.499,优于基线方法,证明感知动量能增强对智能体意图的理解。

4.3 消融实验

4.3.1 鲁棒实例去噪模块(ED)的影响

表 6 展示了不同噪声因子(NS)下 ED 模块的作用:

  • 当 NS=0.1 时,检测 mAP=42.3%,规划 TPC=0.54m,碰撞率 = 0.09%,性能最优;
  • 证明适量的噪声扰动能增强模型鲁棒性,过量噪声(NS=0.3)会导致性能下降。
4.3.2 动量规划(MP)模块的影响

表 7 展示了历史帧数量(t=1:无历史,t=2:1 帧历史,t=3:2 帧历史)对 Turning-nuScenes 的影响:

  • t=2 时性能最优:平均 L2=0.76m,碰撞率 = 0.32%,TPC=0.63m;
  • t=3 时性能略有下降,可能是因为过多历史帧引入了冗余信息;
  • 证明引入 1 帧历史信息即可显著提升时间一致性。
4.3.3 MPI 子模块的影响

表 8 展示了 MPI 中不同组件(QM:长时域查询混合器,Add:直接相加,TP:轨迹预测器)的作用:

  • 仅使用 Add 操作时,L2 降低 0.04m,碰撞率降低 0.04%,TPC 降低 0.12m;
  • 结合 QM 后性能最优,证明交叉注意力融合历史查询的有效性。

4.4 可视化结果

图 4 展示了多帧轨迹预测的可视化对比(红色:GT,黄色 / 蓝色:MomAD 预测,其他颜色:基线方法预测):

图 4 转弯场景下的多帧可视化:MomAD 的预测轨迹(黄 / 蓝)更贴近 GT(红),且帧间连贯性更好,TPC 值更低;基线方法(UniAD、VAD、SparseDrive)存在轨迹突变或偏离 GT 的情况。

关键观察:

  • MomAD 的预测轨迹更平滑,与 GT 的偏差更小;
  • 帧间轨迹无明显突变,避免了车辆振荡,提升驾驶舒适度和安全性。

五、结论与未来工作

5.1 结论

MomAD 框架通过引入轨迹动量和感知动量,解决了端到端自动驾驶中多模态规划的时间不一致性、遮挡敏感性和噪声敏感性问题:

  1. TTM 模块通过豪斯多夫距离保障轨迹连贯性;
  2. MPI 模块通过历史查询融合增强长时域感知;
  3. 鲁棒实例去噪模块提升模型对环境噪声的抵抗能力;
  4. Turning-nuScenes 数据集和 TPC 指标填补了复杂场景下时间一致性评估的空白;
  5. 实验证明,MomAD 在开环、闭环、长时域预测中均优于 SOTA 方法,尤其在转弯等复杂场景下性能显著。

5.2 未来工作

当前 MomAD 仍存在轨迹多样性不足的问题(受限于传统的 teacher-forcing 轨迹回归导致的模式崩溃),未来将探索:

  1. 结合扩散模型(Diffusion Models)增强轨迹多样性;
  2. 采用推测解码(Speculative Decoding)平衡多样性与效率;
  3. 扩展到更复杂的交互场景(如多车协同、极端天气)。

六、核心亮点总结

  1. 动量规划范式:首次将物理中的 "动量" 概念引入自动驾驶规划,通过历史信息引导当前决策,从根本上解决时间不一致性;
  2. 工程实用性强:基于稀疏感知框架,FPS 达 7.8,满足实时性要求,且闭环性能优异,适用于实际驾驶场景;
  3. 评估体系完善:构建专用数据集和指标,为时间一致性评估提供标准;
  4. 模块设计优雅:TTM 和 MPI 模块结构简洁,可灵活嵌入现有端到端框架,具有良好的扩展性。

MomAD 的提出为端到端自动驾驶的稳定性优化提供了新的思路,其动量感知机制和鲁棒性设计对后续研究具有重要参考价值。

相关推荐
懂AI的老郑43 分钟前
自动驾驶之眼:动态目标理解的关键突破
人工智能
大模型服务器厂商44 分钟前
挥手示意车辆先行,自动驾驶为何常 “不知所措”? Alpamayo-R1给出新解法
人工智能·机器学习·自动驾驶
古城小栈1 小时前
AI驱动的手机自动化开源项目技术解析
人工智能·智能手机·自动化
北京耐用通信1 小时前
传感器“断联”拖垮产线?耐达讯自动化网关让Ethernet IP转CCLink秒通!
人工智能·科技·物联网·网络协议·自动化
学术小白人1 小时前
【落幕通知】2025年能源互联网与电气工程国际学术会议(EIEE 2025)在大连圆满闭幕
大数据·人工智能·机器人·能源·信号处理·rdlink研发家
学术小白人1 小时前
EI会议!早鸟优惠!2026年能源与基础设施人工智能国际会议(AIEI 2026)
人工智能·区块链·能源·艺术·工程·rdlink研发家
物流可信数据空间1 小时前
专家解读 | 提升数据流通安全治理能力 促进数据流通开发利用【可信数据空间】
大数据·人工智能·安全
Salt_07281 小时前
DAY 21 推断聚类后簇的类型
人工智能·机器学习·聚类
DisonTangor1 小时前
Step-Audio-R1 首个成功实现测试时计算扩展的音频语言模型
人工智能·语言模型·开源·aigc·音视频