1.前言
2025年被称为"VLA上车元年",以视觉语言动作模型(Vision-Language-Action Model, VLA)为核心的技术范式正在重塑智能驾驶行业。VLA不仅融合了视觉语言模型(VLM)的感知能力和端到端模型的决策能力,更引入了"思维链"技术,实现了全局上下文理解与类人推理能力,革命性技术的落地将推动智能驾驶从"功能时代"迈向"体验时代",并可能在未来两年内改写智能驾驶市场的竞争格局。2025年的智能驾驶:VLA上车元年
视觉语言动作模型(VLA)由 DeepMind 在 2023 年首次提出,应用于机器人领域,通过视觉与语言输入生成物理世界可执行的动作。VLA 模型被视为视觉语言模型(VLM)与端到端(End-to-End, E2E)技术的结合体,核心特性:
- 多模态感知与决策:能够基于视觉与语言信息进行实时感知,通过"思维链"技术构建类人逻辑,推理复杂场景下的最优驾驶决策。
- 全局上下文理解:能够理解长达数十秒的全局路况信息,这对于施工工区、潮汐车道等复杂场景尤为重要。
- 系统透明性与可解释性:推理过程全程可求导,能够通过车载显示向用户解释驾驶逻辑,增强用户信任感。
随着城区NOA(Navigate on Autopilot)的普及,用户对智能驾驶体验的需求从"能用"转向"好用"。传统VLM或端到端方案虽然在感知与决策方面有了显著提升,但在复杂路况下仍存在局限:
- 短视化问题:现有系统通常只能应对7秒内的路况推理,而在突发情况(如交通指挥手势)中表现不足。
- 缺乏解释能力:用户对"为什么这么开"的需求未被充分满足,导致体验层面信任不足。
- 决策全局性不足:面对动态复杂场景,传统方案难以统筹多重变量并实现安全优化。
2. 技术分析
谷歌在2024年11月份发表了一篇文章EMMA:面向自动驾驶的端到端多模态模型(EMMA: End-to-End Multimodal Model for Autonomous Driving),是比较典型的自动驾驶VLA模型,我们接下来分析其技术路线和模型设计。
论文地址:[2410.23262] EMMA: End-to-End Multimodal Model for Autonomous Driving
代码地址:https://github.com/taco-group/OpenEMMA/tree/main(第三方复现,谷歌未开源)
复现论文地址:https://arxiv.org/pdf/2412.15208
2.1 摘要
目前大语言模型较为成熟,因此无论是VLM或者VLA模型都是以大语言模型为基础的。MLLMs 拥有两大优势:一是训练数据来自大规模互联网,拥有广泛的"世界知识";二是具备强大的推理能力(如 CoT chain-of-thought),这是现有驾驶模型难以具备的。EMMA 基于多模态大语言模型构建,能够直接将原始摄像头传感器数据映射为多种驾驶相关输出,包括规划轨迹、感知目标以及道路图结构等。为了最大程度利用预训练大语言模型的"世界知识",EMMA 将所有非传感器输入(例如导航指令和自车状态)以及输出(如未来轨迹和三维坐标)统一表示为自然语言文本。通过将驾驶任务转化为视觉问答(VQA)问题,EMMA 能够在保留 Gemini 原有能力的基础上进行端到端的多任务驾驶决策。微调后,EMMA 能够生成未来轨迹、目标检测结果、道路结构等输出,并展现出可解释性和多任务能力。

从上图可以看出,EMMA的输入包括:
-
高层指令(Router Command):例如 "左转"、"直行" 等导航目的。
-
自车历史状态(Ego Vehicle History):以BEV格式的历史轨迹点表示。
-
环视摄像头图像(Surround-view Camera Videos):多视角图像输入。
输出包括:
- 未来自车轨迹(Ego Trajectory Prediction):用于运动规划,可转为实际控制命令。
- 推理解释(Rationale Text):模型在做决策前生成的逻辑解释,包括场景描述、关键对象、对象行为和驾驶决策。
- 其他模块能力:3D目标检测、道路图估计、场景问答(如"前方是否临时封闭?")
模型的输入输出除了图像外,全部以自然语言文本格式生成,输入图像是单帧多摄像头组合,EMMA 没有使用相机的外参(extrinsics)或内参(intrinsics),也没有构建BEV特征图,而是通过大模型对上下文建模能力间接学习到的。这里感觉不太合适,因为不同的摄像头参数、车辆参数会导致图像不一致,简单点可以将摄像头的内外参作为prompt输入给模型,论文中的一些prompt参考形式如下:
这是来自前视摄像头的图像。该摄像头的参数如下:
- 内参矩阵 fx=1000, fy=1000, cx=640, cy=360;
- 相对于车辆坐标的位置为 (1.2m, 0.0m, 1.5m),方向为无旋转。
请根据该图像判断当前场景。
自车在过去3帧的状态为:
时刻-3:位置 (0.00, 0.00),速度 0.0 m/s,加速度 0.0 m/s²
时刻-2:位置 (1.50, 0.00),速度 5.0 m/s,加速度 1.0 m/s²
时刻-1:位置 (3.00, 0.10),速度 6.0 m/s,加速度 1.0 m/s²
导航提示:
- 当前处于城市快速路段,限速为100 km/h;
- 前方约300米有一个匝道口,将并入主路,请保持当前车速;
- 并线后继续直行,约1公里后准备右转下高速。
2.2 技术架构
EMMA 是建立在 Gemini 大模型之上,论文中提到使用的是Gemini 1.0 Nano-1(未开源),模型大小为1.8B左右。如果项复现论文,可以尝试前面提到的OpenEMMA中使用的开源模型,如LLaVA-1.6-Mistral-7B、LLaMA-3.2-11B-Vision、Qwen2-VL-7B等。这些模型采用相似的范式:首先是将图像进行编码,如CNN、ViT、CLIP-ViT(使用最为广泛,CLIP在大量图文对上训练),然后将图像编码特征通过MLP或者Q-Former映射到语言模型空间中的token,论文中采用了简单的MLP进行映射,然后结合图像特征token和文本token输入到LLM模型,LLM模型最终以文本的形式输出各个任务的结果,其数学公式可以表达为:
O = G(T, V)
其中:
G:Gemini 模型
T:自然语言提示(prompts)
V:图像或视频
O:自然语言输出
其结果输出均为文本,参考格式如下。在训练过程中,需要提供3D目标以及拓扑参数作为真值。另外,作为推理的R1-R4也是通过自动化方法构建标签。例如R1中场景描述可以通过数据记录log提取,R2通过感知模型获取,R3、R4通过记录的未来行驶轨迹对车辆行为进行描述,如前方车辆减速停止,前方红绿灯自车停车等待。
车辆 (12.50, -1.20, 1.10, 长4.2, 宽1.8, 高1.6, 朝向0.3rad)
行人 (9.20, 3.10, 0.0, 长0.8, 宽0.6, 高1.7, 朝向0.0)
将 T 个未来轨迹点 (xt, yt) 转成浮点文本:
未来轨迹为:
(3.00, 0.15), (5.80, 0.35), (8.50, 0.50), ...
R1 场景描述(天气、道路类型、交通)
R2 关键物体(带坐标)
R3 物体行为(静止、移动方向等)
R4 驾驶决策(保持低速、刹车等)
R1: 天气晴朗,道路为双向两车道,有人行道。
R2: 行人 [9.2, 3.1],车辆 [12.5, -1.2]
R3: 行人正准备过马路,车辆正在加速前行
R4: 我应该减速观察,准备停车
2.3 实验结果
实验1:预测未来 ego 轨迹
- WOMD 上,EMMA 与 MotionLM、Wayformer 相当,在前 5s 内表现更优(ADE 1~5s)
- nuScenes 上,EMMA 在 self-supervised 方法中表现最好,甚至超过部分 supervised 方法(比如 DriveVLM-Dual)
实验2:Chain-of-Thought 推理与数据扩
CoT 推理结构包括:
- R1: 场景描述
- R2: 关键目标位置
- R3: 目标行为描述
- R4: Meta driving decision
结果:
CoT 总体提升:+6.7%
R3(meta decision)+3.0%,R2(critical objects)+1.5%
R1 对性能中性,但提升了可解释性
实验3:感知任务实验(3D 目标检测、地图估计、场景理解)
感知任务:
3D Object Detection:在 WOD 上,与 BEVFormer、MV-FCOS3D++ 对比
Road Graph Estimation:预测 BEV 中的 lane graph polyline
Scene Understanding:识别是否有临时路障(如施工区、障碍物)
3D 检测结果(LET-Metric):
EMMA+ 相比 BEVFormer:
车辆 precision 提升 16.3%
pedestrian recall 与 MV-FCOS3D++ 持平
Road Graph:
动态采样、ego 对齐、shuffle target、加 padding、加分隔符等设计都显著提高性能
动态采样最重要:提升 40%~90% 精度
Scene understanding:
单任务 fine-tune 表现优于人类 baseline
2.4 结论
EMMA 在 nuScenes 数据集上的运动规划任务中实现了当前先进的性能,在 Waymo Open Motion Dataset(WOMD)上也取得了有竞争力的结果。同时,EMMA 在 Waymo Open Dataset(WOD)中也展现出较强的相机主导的 3D 目标检测能力。同时还发现,将 EMMA 共同训练在规划轨迹、目标检测和道路图任务上,可以在所有这三个领域带来性能提升,凸显了其作为通用模型在自动驾驶应用中的潜力。然而,EMMA 也存在一些局限性:它仅能处理少量图像帧、未集成准确的 3D 传感器如激光雷达或雷达,且计算开销较大。