自动驾驶---不依赖地图的大模型轨迹预测

1 前言

早期传统自动驾驶方案通常依赖高精地图(HD Map)提供道路结构、车道线、交通规则等信息,可参考博客《自动驾驶---方案从有图迈进无图》,本质上还是存在问题:

  • 数据依赖性高:地图构建成本昂贵,且跨区域泛化能力受限。
  • 动态场景局限性:地图无法实时反映临时障碍物或施工区域。
  • 计算复杂度:地图的复杂拓扑结构需要额外编码模块处理。

在之前的博客中,笔者分别介绍过华为《自动驾驶---行泊一体(车位到车位功能)》ADS3.0智驾方案中,**RCR网络(Road Cognition & Reasoning,道路拓扑推理网络):**结合普通导航地图来与现实进行匹配和印证,再实时通过传感器来拓补绘制一幅可用的行车地图。通过RCR网络便摆脱了高精地图,实现绝大多数场景下的无图就能开。

小米智驾同样也有一套系统《自动驾驶---小米汽车智驾进展》,道路大模型:小米道路大模型,实时生成道路拓扑,效果媲美高精地图,实现全国都能用的城市领航。

小米和华为类似,都是通过模型来建立车道信息,尽量不高度依赖高精地图。

介绍完地图信息,再来看轨迹预测。最近介绍的博客《自动驾驶---LSTM模型用于轨迹预测》,仅依赖于动态车辆的历史轨迹,有其局限性,以及《自动驾驶---基于深度学习模型的轨迹预测》中介绍通过深度学习模型进行轨迹预测,基于此轨迹预测的深度学习模型,后期是可以用于自车轨迹生成的端到端大模型。

目前特斯拉的端到端大模型的输入应该是包括地图数据的,但国内量产端到端大模型的公司目前做到这一点的几乎没有。

2 轨迹预测

目前,很多公司的端到端整体方案如下所示,地图信息作为模型的输入(以特斯拉为代表),或者干脆就不包括(国内的模块化大模型)。

MFTP(Map-Free Trajectory Prediction),这是一种无需地图的轨迹预测方法(如下图所示),它在训练期间通过知识蒸馏从高清地图中获益,而在推理期间则不需要高清地图。论文中提出了一种新颖的层次编码器,有效地提取时空智能体特征,并将它们聚合成多个轨迹查询。此外,引入了一个迭代解码器,顺序解码轨迹查询以生成最终预测。在Argoverse数据集下的无地图设置中,该方法实现了最先进的性能。

2.1 方法论

(1)知识蒸馏

前段时间也是Deepseek带火了知识蒸馏这一概念。知识蒸馏(Knowledge Distillation) 其实是一种机器学习技术,旨在将复杂模型(通常称为"教师模型")的知识迁移到更简单、更高效的模型("学生模型")中,从而实现模型压缩、性能提升或部署优化。其核心思想是让学生模型模仿教师模型的输出或中间特征,而不仅仅依赖原始训练数据的标签。

  • 知识蒸馏的大概过程:
    • 训练教师模型:在目标任务上训练一个高性能的大模型。
    • 生成软标签:用教师模型对训练数据推理,得到概率分布(软标签)。
    • 训练学生模型 :学生模型同时拟合硬标签(原始标签)和软标签(教师输出),损失函数通常为: ,其中 衡量学生与教师输出的差异, 为权重系数。
  • 套用到 MFTP(Map-Free Trajectory Prediction)中的大概过程如下:
    • 教师模型:使用高精地图的轨迹预测模型。
    • 学生模型:无地图的轨迹预测模型。
    • 蒸馏内容:将教师模型对地图拓扑的理解(如车道连接、交通规则)迁移到学生模型中,使其隐式学习道路结构约束,而无需显式地图输入。

(2)MFTP架构

  • 整体框架:MFTP包括一个预训练的基于地图的教师网络和一个无需地图的学生网络。教师网络利用高清地图和其它智能体的历史轨迹作为输入,而学生网络则不依赖地图信息。

  • 层次编码器 :提出了一种新颖的层次编码器,用于提取智能体的多层次时空特征,并将它们聚合成多个轨迹查询。

    • **输入表示:**在采用向量表示的情况下,智能体的历史轨迹和地图折线被表示为二维或三维空间中的一组点。我们没有使用智能体轨迹和地图点的绝对位置,而是选择相对运动向量作为输入。

    • **上下文建模:**轨迹预测本质上是一项序列性且涉及交互的任务,在其中,一个智能体过去的行为以及周围环境都起着至关重要的作用。为了提取智能体的时空特征,我们按顺序对地图与地图之间、智能体与地图之间以及智能体与智能体之间的交互进行建模。首先,我们利用中提出的带有注意力机制的地图与地图注意力模块,对地图结构和车道交互进行建模,将其视为地图先验知识,随后再接入一个前馈神经网络(FFN)。

    • **分层特征聚合与融合:**利用特征聚合(FA)模块对智能体的时空特征进行聚合,以生成多个轨迹查询。这些查询起到了桥梁的作用,连接着编码器和解码器,并且代表着潜在的多模态未来轨迹。

  • 迭代解码器:使用迭代解码器顺序解码轨迹queries,以生成最终的预测。

整体的框架如下图所示,多模态融合轨迹预测(MFTP)有一个基于地图的预训练教师模型和一个无地图的学生模型。除了与地图相关的模块之外,学生模型与教师模型具有相同的架构。在编码器中,通过特征聚合(FA)模块在进行智能体间的时间和空间注意力计算后,分层的智能体特征会被逐步提取出来,然后这些特征被融合,形成 K 个轨迹查询,对应着 K 条多模态的未来轨迹。在教师网络中,智能体在编码器阶段通过智能体 - 地图注意力模块学习地图先验知识,并在解码器阶段通过查询 - 地图注意力模块学习相关知识。通过对中间特征进行知识蒸馏,我们将地图先验知识融入到无地图的学生网络中。

2.2 验证

关于轨迹预测具体的评测指标在之前的博客中多次介绍过,这里就不赘述了。通过数据对比,MFTP方法在某些方面还是存在优势的。

  • 数据集和评估:在Argoverse数据集上进行了广泛的实验,证明了MFTP在无需地图的情况下实现了最先进的性能。
  • 定量结果:与现有的无需地图的方法相比,MFTP在所有指标上均优于其他非蒸馏的无需地图方法,并在应用知识蒸馏后进一步提高了性能。

在 Argoverse 验证集上的定性结果。(a)展示了无地图模型在交叉路口场景中的性能表现,该场景存在各种驾驶行为(例如,直行、左转、大角度左转以及从左至右的右转),且该模型未利用地图先验知识。(b)表明,在知识蒸馏(KD)的帮助下,无地图模型能够预测出与真实轨迹更为接近的未来轨迹。(a)和(b)使用相同的图例。建议以彩色模式并放大查看效果最佳。

3 总结

本篇博客通过一篇论文的介绍以及笔者自身的理解来看,MFTP为自动驾驶轨迹预测领域提供了一种新的视角,即在不依赖高清地图的情况下,通过知识蒸馏和层次编码来实现有效的轨迹预测,避免在整个模型中带入"比较重"的地图模块。

在未来模型压缩和轻量化中,这种方法有望在自动驾驶技术的发展中发挥重要作用,并为未来相关研究提供了新的思路。

4 参考文献

《Map-Free Trajectory Prediction with Map Distillation and Hierarchical Encoding》

相关推荐
CIO_Alliance几秒前
(企业AI化转型)选对iPaaS系统集成厂家是制造业数字化转型的生死线
大数据·数据库·人工智能·企业数字化转型·ipaas·系统集成
生成论实验室2 分钟前
六十四卦态势操作系统技术白皮书
人工智能·语言模型·系统架构·机器人·自动驾驶·agi·安全架构
qcx233 分钟前
【AI Daily 2026-06-05】 AI 方向的基础设施化,能力从模型层下沉到工具链和工作流
人工智能·ai·llm·agent·agi
一次旅行5 分钟前
AI领域每日资讯报告 | 2026年6月15日
人工智能
workflower13 分钟前
互联网与大数据环境下制造服务模式
人工智能·自然语言处理·数据挖掘·自动驾驶·动态规划·制造
WangN215 分钟前
【通识】RSL-RL快速上手
人工智能·python·机器学习·机器人
lijgvnns16 分钟前
散户做股票研究与复盘,主流AI工具的场景化使用指南
大数据·人工智能·数据挖掘
weixin_4462608517 分钟前
学习协调偏好用于多目标多智能体强化学习
人工智能·多智能体
财经资讯数据_灵砚智能18 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月15日
大数据·人工智能·python·信息可视化·自然语言处理
云和数据.ChenGuang20 分钟前
人工智能机器学习的偏置项 剖析
人工智能·深度学习·机器学习·数据挖掘