如何用Gemini“上车”自动驾驶?通过视觉问答完成自动驾驶任务

本推文介绍了一篇来自Waymo(谷歌旗下自动驾驶公司)的自动驾驶前沿研究论文《EMMA: End-to-End Multimodal Model for Autonomous Driving》。该论文发表于《Transactions on Machine Learning Research》,简称为TMLR。该期刊是机器学习顶刊《Journal of Machine Learning Research》的兄弟期刊。该研究针对传统模块化架构的接口僵化以及传统端到端模型的泛化能力不足问题,提出了一种基于多模态大语言模型(Multimodal Large Language Model,MLLM)的端到端方法。EMMA将MLLM作为自动驾驶系统的决策引擎,将所有驾驶任务重塑为视觉问答问题,在统一的语言空间内处理,以最大化利用MLLM的预训练知识。实验表明,EMMA在多个数据集上取得了SOTA性能,且多任务联合训练显著提升了其在运动规划、3D物体检测及道路图估计等方面的综合性能。

推文作者为许东舟,审校为龚裕涛。

论文链接:https://openreview.net/forum?id=kH3t5lmOU8

期刊介绍

《Transactions on Machine Learning Research》是机器学习顶刊《Journal of Machine Learning Research》的兄弟期刊。该期刊追求超快的发表速度,力争9周内给出论文的录用结果。期刊编委会提出了很多新颖的发展策略。例如,对录用的论文进行分类,将论文分为Outstanding、Featured、Expert、Reproducibility、Journal to Conference等类型,以便读者能够快速识别出论文的特性。其中Outstanding代表论文达到杰出论文水准,Featured代表论文为高质量论文,Expert代表论文的作者至少有一个为高水平审稿专家,Reproducibility代表论文复现并改进了已有工作,Journal to Conference代表论文的水准适合推荐到NeurIPS/ICLR/ICML等顶会发表。同时,该期刊对审稿人的审稿速度和能力有非常高的要求。要求审稿人收到稿件后立即审稿,不得延误。对于审稿的质量会进行积分,对于优秀的审稿人会标记为审稿专家。对审稿专家发表在该期刊的论文会标记为Expert,予以推荐和展示。专家级别的审稿人会被推荐成为各相关顶级会议的专家。

期刊网址: https://jmlr.org/tmlr/index.html

一、研究背景

目前常用的自动驾驶实现方式包含如下几种。

**1. 传统的模块化自动驾驶系统:**便于单个模块的调试和优化,但由于模块间通信有限,面临着可扩展性方面的挑战,模块之间的接口可能难以适应新的环境。

**2. 端到端的自动驾驶系统:**能够直接学习从传感器数据生成驾驶动作,消除了模块间对符号接口的需求,允许从原始传感器输入对驾驶目标进行联合优化。但这些系统通常是为特定驾驶任务而设计,并在有限的数据集上进行训练,阻碍了在罕见或新场景中的泛化能力。

**3. 端到端的MLLM自动驾驶系统:**MLLM的出现为自动驾驶人工智能提供了一种新范式,有望解决以上挑战。这是因为MLLM作为通用基础模型,在两个关键领域表现出色。一方面,在巨大规模的数据集上进行训练,能提供超越普通驾驶日志中的"世界知识"。另一方面,通过思维链(Chain-of-Thought, CoT)推理等技术展示了卓越的推理能力。

二、方法

图1 EMMA概览图

文中重点介绍了基于Gemini的EMMA版本,该模型经过训练可以处理交错的文本和视觉输入以生成文本输出。EMMA通过一个统一的自回归公式来建模所有任务:O = G(T, V)。其中G代表Gemini模型,负责处理文本和视觉输入,生成文本输出O;所有的传感器数据(图像或视频)被表示为V;所有的路由指令、历史驾驶上下文和任务特定提示都被转化为语言提示T。包括运动规划的轨迹点、3D框的位置和大小都以文本O的形式输出。

如图1所示,自动驾驶任务映射到基于Gemini的EMMA公式中。它接收3个输入:

1)来自导航路由器的高级指令;

2)自车的历史状态;

3)环视摄像头视频。

模型随后预测用于运动规划的自车未来轨迹,这些轨迹将被转换为车辆驾驶控制信号。在此基础上,EMMA进一步引入了CoT推理机制,模型在预测轨迹之前,能够先解释其决策依据,包括场景描述、关键对象识别和元决策等,在提升模型性能的同时,提供了更强的可解释性。

图2 EMMA通用模型示意图

作为一个全面的自动驾驶系统,EMMA的关键优势在于其通用模型的定位。如图2所示,从任务提示(左侧)开始,EMMA 生成相应的文本预测(中右侧),然后可以将其解码为目标输出格式,进行可视化并叠加到输入图像上(右侧)。EMMA 通用模型具有高度的多功能性,涵盖端到端运动规划、物体检测、道路图估计和场景理解问答。

这种通用训练带来了显著的性能提升,实验表明,在多个任务上联合训练的通用模型,性能始终强于在单个任务上训练的每个专用模型。这凸显了通用方法的优势:增强的知识迁移、改进的泛化能力和更高的效率。

三、实验

文中实验主要基于Gemini 1.0 Nano-1,并提供了基于PaLI变体的EMMA附加结果。数据集包括3个公共数据集:nuScenes、WOMD)和WOD,还有3个大型内部数据集,用于端到端运动规划、3D 检测和道路图估计(详见表1)。

表1 主要训练数据集规模总结

3.1 端到端运动规划:SOTA级性能表现

在自动驾驶最核心的运动规划任务上,EMMA 展现了出了卓越的性能。实验在 nuScenes和WOMD两个公共基准以及大规模的内部数据集上进行。

表2 内部规划基准上的端到端运动规划实验。CoT表示配备了思维链推理。EMMA+在不同的预测时限内取得了最佳质量。EMMA (PaLI)和EMMA++ (PaLI)表示使用PaLI-X作为基础模型,默认的EMMA和EMMA+使用Gemini作为基础模型。

如表2所示,在相同数据集上使用Gemini预训练权重进行训练时,EMMA优于最先进的运动预测模型MotionLM。当使用大规模内部数据集进行预训练时,EMMA+优于MotionLM和Wayformer。配备CoT的EMMA+ (w/CoT)在5秒预测时限上,与先前的最先进模型相比,显著提高了13.5%。

3 采样轨迹数量的消融 实验

研究在WOMD上进行消融实验,验证了采样策略的有效性(见图3)。随着采样轨迹数量1增加到24,规划误差(ADE@5s)呈现稳步下降趋势。这一结果验证了在复杂交互场景下,通过多轨迹采样来捕捉潜在驾驶行为分布对于提升规划安全性的必要性。

表3 nuScenes上的端到端运动规划实验。EMMA (random init) 表示模型为随机初始化;EMMA 表示模型是从Gemini初始化;EMMA+表示在大规模内部数据上进行预训练。

如表3所示,在nuScenes数据集的自监督设置下,EMMA超过了所有的主流方法;相较于BEV-Planner,EMMA的规划误差(平均L2 距离)显著降低了 17.1%,即便面对依赖大量人工标注的OmniDrive仍取得了12.1%的优势。

4 思维链推理组件的消融 实验

表4展示了在应用于端到端规划的CoT推理的实验结果。研究中通过消融实验对不同组件的贡献进行了分析。结果表明,揭示驾驶元决策和关键对象识别都能提升模型性能,分别达到3.0%和1.5%。当各个组件结合在一起时,能够取得更加可观的收益,端到端规划质量提升高达6.7%。

3.2 感知与场景理解能力:纯视觉挑战专家模型

除了核心的运动规划,EMMA在感知和高阶推理任务上也展现出了惊人的潜力。研究团队在WOD数据集上对模型的感知能力进行了评估。在纯摄像头3D检测任务中,EMMA+展现了强大的竞争力。

4 在WOD上使用标准LET匹配的纯摄像头3D物体检测实验

如图4所示,模型在标准的纵向误差容忍(LET)匹配下,其性能显著优于BEVFormer等传统的SOTA方法。特别是在相同的召回率下,EMMA+的车辆检测精确率(Precision)相对提升了16.3%,而在相同精确率下的召回率提升了5.5%。

图5 道路图估计的消融实验

EMMA摒弃了复杂的地图生成网络,创造性地将车道线预测视为文本生成任务。为了精准描绘复杂的路网拓扑,研究团队进行了一系列消融实验以确定最佳设计原则。图5展示了道路图估计的消融实验,对每种配置进行了消融,并测量对性能的相应影响。结果表明,基于车道曲率和长度的动态采样(最左侧)是最重要的因素,导致车道级精确率和召回率发生高达70% - 90%的显著变化。相比之下,使模型与类似语言的表示对齐(即语义标点符号,最右侧)的影响则较为温和,对任何指标的精确率和召回率贡献都不到10%。

图6 场景理解任务上的训练策略消融实验

图6总结了对用于临时阻塞检测的场景理解任务的研究。实验对比了不同训练策略的效果,结果显示若将该任务与道路图估计进行联合训练或预训练,模型在长尾场景下的判断准确率会有质的飞跃。并且随着预训练时间的增加,模型的判断质量显著提升。

3.3 通用模型能力:多任务联合训练的协同效应

表5 通用模型联合训练实验

文中通过对多个任务进行联合训练,并分析了它们的协同效应,如表5所示。实验结果表明,当端到端规划、3D 物体检测和道路图估计三个任务进行联合训练产生了显著的改进,通用模型的表现相比专门的单任务模型最高提升了5.5%。

这种提升主要归因于不同任务之间的互补性。例如,当模型能更准确地识别车辆位置时,对道路图的估计往往也变得更加容易;同样,高质量的驾驶决策依赖于对周围代理交互的深刻理解,而3D 物体检测恰好增强了这一核心能力。这表明驾驶任务发挥了突出且具有影响力的作用,是整体性能改进的关键贡献者。

3.4 可视化

图7将视觉示例按场景类型分组,每行包含一个带有模型预测的场景:端到端规划轨迹(左)、3D 物体检测(中)和道路图估计(右),各子图的具体信息如下:

(1)示例(a)-(d)展示了EMMA如何安全地与道路上罕见、未见过的物体或动物互动。

(2)示例(e)-(f)展示了EMMA如何在施工区域中导航。

(3)示例(g)-(j)展示了EMMA在带有交通灯或交通指挥员的交叉口遵循交通规则。示例(k)-(l)强调了EMMA尊重如摩托车骑手这样的弱势道路使用者。

图7 EMMA 预测可视化,每行包含一个模型的预测场景:端到端规划(左)、3D 物体检测(中)和道路图估计(右)

四、总结与展望

本文提出了一个由Gemini驱动的端到端多模态大模型EMMA。它将Gemini 作为自动驾驶系统的决策引擎,并把自动驾驶任务重塑为视觉问答问题,所有输出都以文本表示,以在统一的语言空间中处理,从而最大限度利用Gemini在预训练中获得的世界知识以及配备CoT的推理能力。实证结果表明,EMMA在多个公共、内部基准测试和任务上取得了最佳性能,包括端到端规划、3D物体检测、道路图估计和场景理解。此外,经联合训练的EMMA可以预测多个任务,同时获得超越单独训练模型的性能。然而,EMMA也面临着实际部署方面的挑战:(1) 由于无法融合摄像头与LiDAR或雷达输入,导致3D空间推理受限;(2) 需要逼真且计算成本高昂的传感器模拟来支持其闭环评估;(3) 相对于传统模型,计算需求增加。研究者计划在未来的工作中更好地理解和解决这些挑战。

相关推荐
free-elcmacom2 小时前
深度学习<2>从“看单帧”到“懂故事”:视频模型的帧链推理,藏着机器读懂时间的秘密
人工智能·python·深度学习·音视频
wxdlfkj2 小时前
从算法溯源到硬件极限:解决微小球面小角度拟合与中心定位的技术路径
人工智能·算法·机器学习
高洁012 小时前
基于Tensorflow库的RNN模型预测实战
人工智能·python·算法·机器学习·django
博一波2 小时前
自动驾驶记录仪数据提取标准流程(DoIP/UDS)
自动驾驶·doip·dssad
鲨莎分不晴2 小时前
从 10 到 1000:大规模多智能体的可扩展性 (Mean Field & GNN)
人工智能·学习
小龙报2 小时前
【初阶数据结构】从 “数组升级” 到工程实现:动态顺序表实现框架的硬核拆解指南
c语言·数据结构·c++·算法·机器学习·信息与通信·visual studio
may_一一2 小时前
cv(opencv-python)手动安装
人工智能·opencv·计算机视觉
安徽正LU o561-6o623o72 小时前
露-鼠兔解剖台 鼠兔二用解剖台 无干扰恒温加热鼠台 无干扰恒温加热兔台
人工智能
工藤学编程2 小时前
零基础学AI大模型之RunnableBranch
人工智能