密西根大学新作——LightEMMA：自动驾驶中轻量级端到端多模态模型

****导读

目前将自动驾驶与视觉语言模型（VLMs**）结合的研究越来越火热，VLMs已经证明了其对自动驾驶的重要作用。本文引入了一种用于自动驾驶的轻量级端到端多模态模型LightEMMA，它能够集成和评估当前的商业和开源模型，以研究VLMs在驾驶任务中的作用和局限性，从而推进VLMs在自动驾驶中的进一步发展。******

©️【深蓝AI】编译

本文由paper一作------Zhijie Qiao授权【深蓝AI】编译发布！

论文题目： LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving

论文作者： Zhijie Qiao, Haowei Li, Zhong Cao, Henry X. Liu

论文地址： https://arxiv.org/pdf/2505.00284

代码地址： https://github.com/michigan-traffic-lab/LightEMMA

1.摘要

视觉语言模型（VLMs）已经证明了其对于端到端自动驾驶的巨大潜力。然而，充分利用VLMs安全且可靠的车辆控制能力仍然是一项开放的研究挑战。为了系统性地研究VLMs在驾驶任务中的作用和局限性，本文引入了LightEMMA，这是一种用于自动驾驶的轻量级端到端多模态模型。LightEMMA提供了一种统一的、基于VLM的自动驾驶框架，可以轻松集成和评估不断发展的最先进商业和开源模型。本文使用各种VLMs来构建12个自动驾驶智能体，并且评估其在nuScenes预测任务上的性能，综合地评估了推理时间、计算成本和预测准确性等指标。实验示例表明，尽管VLMs具有强大的场景解释能力，但是其在自动驾驶任务中的实际表现仍然不容乐观，突出了进一步改进的必要性。

2.介绍

近年来，自动驾驶汽车（AV）取得了巨大的进步，其提高了安全性、舒适性和可靠性。传统方法依赖于模块化设计、基于规则的系统和预定义的启发式方法。尽管这种结构化方法确保了可解释且可预测的行为，但是它限制了解释复杂场景和做出灵活、类人决策的能力。

最近的一种方法是基于学习的端到端自动驾驶方法，它将原始传感器输入以及高精地图和环境上下文直接映射到驾驶轨迹。与模块化流程不同，端到端模型旨在从数据中学习统一的表示，从而实现更全面、更高效的驾驶决策。然而，它们通常是可解释性有限的黑盒，在关键场景中会引发安全问题，并且它们需要大量、多样化的数据，使其容易受到数据不平衡和稀有性问题的影响。

一种有望解决这些挑战的新兴方法是视觉语言模型（VLMs）的发展。VLMs在包含文本、图像和视频的数据集上进行训练，它展现出强大的推理能力。最近的研究着重于基于VLMs的端到端自动驾驶系统。然而，现有的研究主要突出了VLMs在驾驶环境中的场景理解能力，而没有充分评估其优势和局限性。此外，许多应用涉及商用车部署，而没有可获取的源代码或者详细的实现，这限制了它们在更广泛的研究和协作中的可用性。

受到EMMA和开源实现工作OpenEMMA中最新进展的启发，本文引入了LightEMMA，这是一种轻量级的端到端多模态框架，用于自动驾驶。LightEMMA采用零样本方法，并且充分利用现有VLMs的能力。本文的主要贡献如下：

1）本文为端到端自动驾驶规划任务提供了一个开源的基线流程，旨在与最新的VLMs无缝集成，从而实现快速原型开发，同时最大限度地减少计算开销和传输开销；

2）本文使用nuScenes预测任务的150个测试场景对12个最先进的商业和开源VLMs进行全面评估。本文分析强调了当前基于VLM的驾驶策略的实际优势和局限性，并且详细讨论了其能力和未来改进的潜在方向。

3.方法

LightEMMA架构的概览如图1所示。下面概述了其简要的工作流程，并且在后续章节中提供详细说明。

图1｜LightEMMA架构

对于每个推理周期，当前的前视相机图像和历史车辆驾驶数据被输入到VLM中。为了提高可解释性并且促进结构化推理，本文采用了一种思维链（CoT）提示策略，其最后阶段显式地输出一系列预测的控制行为。这些行为被数值积分以生成预测的轨迹，随后将其与真值进行比较。所有的VLMs均采用一致的提示和评估过程进行统一评估，无需针对特定模型进行调整。

3.1 VLM选择

本文从开源和商业模型中选择最先进的VLMs，涵盖6种模型类型，总共12种模型。对于每种模型类型，本文评估两个变体：基础版本和高级版本。所有使用的模型都是支持文本和图像输入的最新开源版本。该设置允许在不同模型之间以及同一模型类内的变体之间进行全面的性能比较。所选择的模型为：GPT-4o、GPT-4.1、Gemini-2.0-Flash、Gemini-2.5-Pro、Claude-3.5-Sonnet、Claude-3.7-Sonnet、DeepSeek-VL2-16B、DeepSeek-VL2-28B、LLaMA-3.2-11B-Vision-Instruct、LLaMA-3.2-90B-Vision-Instruct、Qwen2.5-VL-7B-Instruct和Qwen2.5-VL-72B-Instruct。

对于商业模型，本文通过付费API访问它们。该方法通过消除管理本地硬件、软件更新和可扩展性的需求来简化部署，因为这些任务是由供应商直接处理的。

对于开源模型，本文从HuggingFace下载，并且使用H100 GPU在本地部署。大多数模型仅需要一个H100 GPU，尽管更大的模型可能需要更多GPU。本文在表格1中给出了所需的最少GPU数量。为了促进多GPU部署，本文利用PyTorch的自动设备映射来实现高效的GPU利用率。

表格1｜模型效率和计算成本的比较

3.2 相机输入

当将前视相机图像输入VLM时，本文不使用任何视觉编码器（例如CLIP），也不应用预处理技术来修改图像。本文研究结果表明，VLM能够有效地描述场景，并且直接从原始视觉输入中准确识别目标，这证明了其在处理视觉数据方面的鲁棒性。

根据该设计方法，本文还选择仅使用当前驾驶场景图像作为输入，而不是像先前研究那样连接多个过去的图像帧。初步实验表明，加入额外的帧不会获得明显的性能提升。相反，该模型倾向于在多个图像帧中冗余地提取相同的特征，而没有捕获有意义的时空动态。此外，加入更多的图像帧会导致处理时间和计算成本大致呈线性增加，而没有明显的性能优势。

VideoBERT和Video-MAE等模型通过专门的时间编码来支持视频输入，而不是简单地将视频作为图像帧序列。此类模型固有地采用不同的架构，并且可能捕获更丰富的时间信息。然而，探索这些专门面向视频的模型超出了本文目前的研究范围。

3.3 驾驶历史输入

本项工作使用速度和曲率来表示车辆行为，这是一种可解释的格式，其中速度捕获纵向运动，曲率描述横向运动。本文采用这种表示来代替显式的轨迹点，因为VLMs往往难以有效地推理涉及隐式物理约束的坐标。

3.4 VLM提示

本文采用简单的CoT方法来引导VLM的场景理解和行为生成，其中每个阶段的输出都与额外的提示一起集成到后续阶段：

1）场景描述 ：VLM接收一帧图像作为输入，并且提示其解释整个场景，包括车道标记、交通信号灯、车辆、行人活动和其他相关目标；

2）高级驾驶意图 ：生成的场景描述与自车的历史驾驶行为相结合，使VLM能够在当前场景上下文中解释过去的行为，并且预测下一高级驾驶行为；

3）低级驾驶命令 ：场景描述和生成的高级命令用于提示VLM，以指定格式输出低级驾驶行为的结构化列表，例如[（v1，c1），（v2，c2），（v3，c3），（v4，c4），（v5，c5），（v6，c6）]，而无需额外的文本或者解释。

3.5 工作流程示例

本节使用图1所示的图像，演示了工作流程示例和来自CoT过程的结果。响应和轨迹由Claude-3.7-Sonnet生成。

场景描述 ：图像展示了一个城市街道场景，该场景中正在进行道路建设或者维护工作；一名警察站在道路中间指挥交通；可以看到几辆施工车辆，包括一辆黑色卡车和其它工作车辆停在道路左侧；在有警察在场和车道限制的情况下，这个施工区域的交通似乎得到了控制。

高级意图 ：给定当前正在施工和一名警察在道路中间指挥交通的场景，自车应该大幅度减速，为可能的停车做准备，在接下来的3秒内将速度降至3-4m/s左右。车辆应继续沿着车道行驶，同时准备在警察的指挥下完全停车。

低级命令 ：[（6.0，-0.001），（5.0，-0.001），（4.0，0.0），（3.5，0.0）]。

4.实验

本文使用所提出的方法和模型，评估了在nuScenes预测任务中的性能，该任务包含150个测试场景的总共3908帧。评估着重于两个方面：模型的计算效率及其轨迹预测的准确性。

4.1 推理时间

表格1汇总了推理时间，显示了每个图像帧的平均处理时间。Gemini-2.0-Flash以每帧4.5秒的速度实现了最快推理，而LLaMA-3.2-90b的推理速度最慢，每帧为40.8秒。Qwen-2.5-72B和Gemini-2.5-Pro也表现出相对较慢的性能，每帧需要30秒以上。其余模型通常以每帧10秒的速度运行，基础版本通常比高级版本运行更快。

值得注意的是，即使是最快的模型Gemini-2.0-Flash，其处理时间也明显低于实时更新的频率。为了真正有效地进行实际部署，这些模型需要以一到两个数量级更快的速度运行。此外，基于API的商业模型依赖于稳定的网络连接，这在行驶车辆上可能是不可靠的。相反，本地部署面临着计算能力有限和能耗的限制，这进一步限制了它们的实用性。

4.2 输入和输出Tokens

本文使用每个模型提供的官方指令来计算每帧输入和输出tokens的平均数量。如表格1所示，输入tokens的数量明显高于输出tokens，通常约为6000个输入tokens，而输出tokens约为300个。这符合预期，因为输入包括图像数据，而输出仅是文本。

然而，也存在一些例外。LLaMA模型给出每帧只有大约1000个输入tokens。经过进一步研究，发现官方的LLaMA token计数方法不包括图像tokens，只计算文本。

此外，Gemini-2.5-Pro的token计数在输入和输出token计算中明显包含错误，因为它们与可比较模型的结果之间存在显著偏差。值得注意的是，使用相同的token计数方式计算的Gemini-2.0-Flash生成了一致且合理的结果，这表明Gemini-2.5-Pro存在需要解决的问题。

4.3 价格

本节仅适用于商业APIs。为了确保准确的衡量，根据输入和输出token的使用，将计费历史与官方定价表进行交叉引用。为清楚起见，表格1中显示的所有结果均以美分/帧为单位。

Gemini-2.0-Flash是最便宜的，价格仅为0.07，因此其价格可以忽略不计。GPT-4o和GPT-4.1的价格接近，约为1.3。Claude-3.7-Sonnet比Claude-3.5-Sonnet价格贵得多，尤其比GPT模型也贵很多。由于Gemini-2.5-Pro 的token计算不准确，因此很难做出准确估计。

4.4 响应错误

在最终的模型输出阶段，本文观察到各种响应格式错误。尽管提示VLM严格返回格式为[（v1，c1），（v2，c2），（v3，c3），（v4，c4），（v5，c5），（v6，c6）]的输出，而没有额外的文本，但是偶尔会遇到偏差，例如缺少括号或者逗号、额外的解释或者标点符号以及不正确的列表长度。

如表格2所示，Qwen-2.5-72B的错误率最高，其错误率为62.9%，而其基础版本Qwen-2-5-7B没有产生错误。GPT-4.1的错误率为28.9%，而GPT-4o的错误率较低，为7.8%。其余模型均运行可靠，它们的错误率为零或者低于1%。

表格2｜在nuScenes预测任务中的性能比较

本文认为，在所有模型的提示和工作流程相同的情况下，这些随机失效反映了固有的模型局限性，而不是框架中存在系统缺陷。虽然许多格式错误可以通过后处理、额外的提示或者其它增强技术来减少，但是本文的目标是评估而不是优化单个模型的性能。因此，本文保持一致的实验设计，并且在不进行修改的情况下给出观测到的错误率。

4.5 预测准确性

预测准确性遵循nuScenes预测任务中采用的标准评估方法，以1s、2s和3s的间隔给出L2损失及其平均值。由于存在响应错误，每个模型都会对原始帧的不同子集进行预测。为了确保公平比较，如果任何一个模型无法为某帧生成有效的预测，就将该帧排除在所有模型的评估之外。由于Qwen-2.5-72B和GPT-4.1表现出特别高的失败率，本文将这两个模型完全排除在分析之外，以保留足够大的帧集合。

表格2汇总了L2损失结果。为了简化并且便于比较，本文的分析主要着重于平均L2损失（单位为米）；总体而言，GPT-4o实现了最佳的性能，其L2损失为1.07米，紧随其后的是Claude-3.5-Sonnet和Claude-3.7-Sonnet，其结果略逊一筹。Gemini模型的表现相对较差；值得注意的是，Gemini-2.5-Pro的性能明显不如Gemini-2.0-Flash。总体而言，开源模型的表现不如商业模型，其中两个DeepSeek模型的性能最差。

4.6 L2损失基线

尽管L2损失提供了一种评估模型预测性能的简单方法，但是它可能无法完全捕获驾驶场景的复杂性。为了缓解这个问题，本文引入了一个简单而有效的基线：保持最新的AV行为在接下来的三秒内不变。然后，通过计算相对于真值的L2损失来评估这些恒定行为生成的轨迹。

本文的结果表明，该基线实现了1.10米的平均L2损失，与GPT-4o（1.07米）和Claude 3.7-Sonnet（1.09米）的最佳VLM结果非常接近，并且明显优于许多其它模型。这一比较突出了零样本VLM方法在轨迹规划任务中的当前局限性，这表明现有模型可能难以充分应对驾驶特定的复杂性。因此，这强调了需要有针对性的进行增强，例如专门为驾驶上下文来设计VLM架构或者使用领域特定的驾驶数据集对模型进行微调。

5.案例

本节讨论了图2所示的六个具有代表性的场景。由于可用帧的数量较多，因此从中精心挑选了一些示例来说明典型行为。每幅图都将VLMs预测的轨迹与真值轨迹进行比较。

图2｜LightEMMA nuScenes预测任务示例

5.1 案例1：历史行为的轨迹偏差

图2.1展示了一个场景，其中真值轨迹为直线行驶，但是预测的轨迹为右转，它未能识别出右侧的障碍物。发生这种情况是因为自动驾驶汽车刚刚在该帧之前的交叉路口完成右转。因此，历史行为反映了右转的倾向。然而，VLMs很难仅根据当前的前视图像识别更新的道路状况。

5.2 案例2：视觉线索的上下文不足

图2.2展示了另一种所有模型都一直失败的情况。在这种案例中，真值轨迹为左转，但是所有模型都错误地预测为继续直行。尽管这种场景本身就具有挑战性（人行道上没有显式的左转标志或者专用的交通信号灯），但是仍然存在隐式的指示。例如，自动驾驶汽车占据最左侧的车道，而右侧相邻车道上的车辆则继续直行。为了可靠地克服这个问题，模型可以结合额外的上下文信息，例如显式的导航指示来清楚地指明交叉路口处左转。

5.3 案例3&4：对停车信号的不同响应

图2.3显示了一个突出VLM响应差异显著的场景。在这种案例中，自动驾驶汽车在红色交通信号灯控制的交叉路口处逐渐接近前方停止的车辆。真值轨迹显示，自动驾驶汽车平稳地逐渐减速，直到完全停在前方车辆后面。然而，VLM预测结果分为两类（紧急停车和快速通行），其中没有一类结果符合真值行为。

图2.4中观测到类似的情况。在该场景中，自动驾驶汽车接近有红色交通信号灯的交叉路口，行人正在穿越人行道。VLM预测要么预测突然紧急刹停（尽管前方有足够的距离），要么完全忽略行人和交通信号灯，预测自动驾驶汽车将保持速度通过路口。

5.4 案例5：对启动信号的不同响应

图2.5描绘了一个场景，其中自动驾驶汽车最初是静止的，在交通信号灯控制的交叉路口等待。当交通信号灯从红色变为绿色时，真值行为为自动驾驶汽车迅速启动加速并且平稳地通过交叉路口。具有较低L2损失的模型复现了这种行为，准确地将绿色信号灯识别为继续前进的指示，从而预测出适当的加速轨迹。相反，具有较高L2损失的模型保持车辆静止，未能建立绿色信号灯与相应加速行为之间的重要联系。

5.5 案例6：冲突的视觉线索和模型响应

最后一个示例如图2.6所示，其展示了一个有趣的场景，其中即使是具有较低L2损失的模型也表现出不同的行为。与图2.5中的情况类似，交通信号灯刚刚从红色转变为绿色。一组模型观察到绿灯并且预测立即加速，而忽略了前方车辆。相反，另一组模型准确地识别出冲突的线索（尽管有绿色信号，但是前方存在车辆），因此自动驾驶汽车必须保持静止。

此外，VLM的这种不同响应揭示了其在应用于自动驾驶任务时决策过程中固有的不稳定性。这种不一致性可能直接导致危险情况的发生，例如意外加速或者碰撞风险，这突出了建立鲁棒安全机制或者防护的必要性。

6.总结

本项工作引入了LightEMMA，这是一种轻量级的端到端自动驾驶框架，专门为与最先进的视觉语言模型集成而设计。本文使用了思维链提示策略，表明VLMs有时能够准确地解释复杂的驾驶场景并且生成智能的响应。值得注意的是，LightEMMA主要用作可访问的基线，而不是优化特定VLMs的性能。

nuScenes预测任务的系统性评估考虑了计算效率、硬件要求和API成本等多个维度。使用L2损失作为指标的定量分析强调了当前VLM预测的局限性，并且突出了仅依赖这一指标的不足。定性分析进一步确定了常见的缺点，包括过度依赖历史轨迹数据、有限的空间感知和被动的决策。因此，未来研究应该着重于开发驾驶特定的模型或者利用领域特定的数据集来微调现有的VLMs。