OpenDriveVLA：基于大型VLA模型的端到端自动驾驶（2025 CVPR）

pdf 原文链接：https://arxiv.org/pdf/2503.23463

参考：https://zhuanlan.zhihu.com/p/1891045161313761057

OpenDriveVLA 的核心框架是一个端到端的视觉-语言-行动（VLA）模型，它通过统一的多模态表示，把 3D 环境感知、自车状态和语言指令结合起来，直接生成驾驶动作（提出了一种分层视觉语言对齐过程，将2D和3D结构化视觉token投影到统一的语义空间中**）。其关键在于分层视觉语言对齐与自回归的轨迹规划，使模型既能理解场景，又能执行驾驶计划。** arXiv.org 知乎专栏

🧩 框架核心组成

1. 视觉感知层（Vision Encoder）

作用：处理 2D 图像和 3D 点云，提取场景特征。
原理：使用 BEV（Bird's Eye View）编码器和 Backbone 网络，将视觉输入转化为结构化 token。
技术：3D vision pre-training + hierarchical matching（实例、场景、地图 caption）。

2. 语言理解层（Textual Encoder）

作用：将驾驶指令、场景描述转化为语言 token。
原理：基于 LLM tokenizer，把自然语言嵌入到统一语义空间。
技术：EnvQFormer、MapQFormer、TrackQFormer 等模块实现跨模态对齐。

3. 融合与对齐层（Cross-Modality Alignment）

作用：弥合视觉表征与语言嵌入的模态差距。
原理：通过 Visual Projector 将视觉特征投影到语言空间，实现多模态融合。
公式表示 ：
- - (V)：视觉特征
  - (L)：语言特征
  - (Z)：统一语义表示

4. 行动生成层（Driving Action Model）

作用：根据融合后的语义表示生成驾驶轨迹。
原理：自回归建模车辆与环境的交互，输出未来轨迹。
公式表示 ：
- - (Z)：融合特征
  - (S)：自车状态
  - (A)：规划的驾驶动作（轨迹、控制指令）

5. 可解释性模块（Driving QA / Text Head）

作用：除了动作，还能输出场景解释或回答驾驶相关问题。
原理：利用语言生成能力，提供"为什么这样开"的解释。
价值：提升模型的透明度和安全性。

📊 框架逻辑总结

模块	输入	输出	作用
Vision Encoder	图像、点云	2D/3D特征	环境感知
Textual Encoder	指令文本	语言token	理解命令
Cross-Modality Alignment	视觉+语言	统一语义表示	多模态融合
Driving Action Model	融合特征+自车状态	轨迹/动作	规划与控制
QA/Explanation	融合特征	文本解释	可解释性

🚗 关键贡献

统一的视觉-语言-行动框架：打破传统模块化流水线。
分层视觉语言对齐：解决 2D/3D 表征与语言嵌入的差距。
自回归轨迹规划：建模车辆与环境的动态交互。
双任务能力：既能做轨迹规划，又能做驾驶问答。

OpenDriveVLA是一种端到端的视觉语言动作模型，它以多模态输入为条件生成可靠的驾驶轨迹；

引入了一种分层视觉语言特征对齐模块，将结构化的2D和3D视觉token投影到统一的语义embedding空间中，以促进语言引导的轨迹生成；
设计了一种车辆 - 环境 - 自车交互过程，以捕捉自车、动态车辆和静态地图元素之间的交互，显著提高了复杂交通场景中运动预测的准确性和轨迹的可靠性；
在nuScenes数据集上进行的大量实验表明，OpenDriveVLA在开环规划和与驾驶相关的问答任务中均取得了最先进的成果，始终优于先前基于LLM的方法和端到端自动驾驶方法。

总结来说，OpenDriveVLA 的创新点在于用大模型的语义推理能力增强端到端驾驶，使车辆既能"看懂场景"，又能"听懂指令"，并直接"做出动作"，同时保留一定的解释能力。

当前的VLMs主要针对静态2D图像-语言任务进行优化，在动态3D驾驶环境中的空间推理性能较差。

OpenDriveVLA方法

OpenDriveVLA的整体架构如图1所示，其多阶段训练过程在图3中进一步详细说明。OpenDriveVLA从一个预训练的视觉编码器开始，该编码器从多视图图像中提取token化的环境表示。然后，这些视觉token通过跨模态学习对齐到文本域。对齐之后，OpenDriveVLA进行驾驶指令调整，接着进行车辆 - 环境 - 自车交互建模。最后，OpenDriveVLA进行端到端训练，以在对齐的视觉语言token和驾驶指令的指导下预测自车的未来轨迹。

1）3D视觉环境感知

最近基于视觉语言模型的自动驾驶方法通常依赖于2D视觉编码器，其中视觉token的选择和注意力通过语言监督间接引导，通常以问答任务的形式。虽然这种设计在开放域视觉语言应用中有效，但它缺乏明确的3D空间定位和结构化的目标级注意力，这可能会在安全关键的驾驶场景中导致严重的幻觉。为了缓解这个问题，OpenDriveVLA采用了以视觉为中心的查询模块，模型首先通过3D视觉任务学习关注与驾驶相关的对象和地图token，确保可靠的视觉token proposal。

给定一组多视图图像，视觉模块首先使用共享的2D骨干网络从每个图像中提取多尺度2D特征 ，表示为 (f2D) 。然后，这些2D特征在不同视图之间进行聚合，并提升到鸟瞰图（BEV）空间，生成BEV特征 。为了获得结构化的环境表示，采用了三个视觉查询模块：全局场景采样器、车辆查询transformer 和地图查询transformer 。每个模块都专注于提取驾驶环境特定语义方面的token。

全局场景采样器从多视图2D特征中编码周围的驾驶场景context，生成场景token 。
车辆查询transformer检测并跟踪场景中的动态车辆，提取以车辆为中心的token ，其中表示检测到的车辆数量。
同时，地图查询transformer提取静态结构信息，如车道边界和可行驶区域，形成地图token 。

通过以视觉为中心的感知任务，包括3D检测、跟踪和分割，视觉编码器生成结构化的环境token，以空间定位的方式捕捉动态车辆行为和静态地图结构。输出的token表示为，作为后续阶段的视觉环境表示。

多尺度 2D 特征： 强调语义和局部细节，帮助语言模型理解"看见了什么"。

来源：直接来自图像 Backbone（如 ResNet、Swin Transformer）。
形式：不同层级的 2D 特征图（低层分辨率高、细节丰富；高层语义强）。
作用：
- 捕捉局部纹理、边缘、颜色等细粒度信息。
- 保留场景的语义层次结构（实例、场景 caption）。
- 在跨模态对齐时，帮助语言模型理解"局部物体"或"细节描述"。
特点：偏向 局部感知，适合物体识别、场景描述。

**BEV 特征：**强调空间结构和几何关系，帮助行动模块决定"怎么走"。

来源：通过 BEV Encoder 将 2D 图像或 3D 点云投影到鸟瞰视角。
形式：空间占用网格或 BEV feature map，表示道路、车道线、障碍物的空间结构。
作用：
- 提供全局空间几何关系（道路拓扑、车道布局）。
- 便于规划与轨迹预测，因为 BEV 特征天然与车辆坐标系对齐。
- 在 VLA 框架中，BEV 特征是 动作生成的核心输入。
特点：偏向 全局结构，适合路径规划、地图级理解。

2）分层视觉语言对齐

3）驾驶指令调整

为了将高级驾驶知识嵌入到OpenDriveVLA中并增强其推理能力，我们在训练过程中引入了一个专门的驾驶指令调整阶段。没有在推理时进行显式的思维链（CoT）推理，因为这会显著增加延迟，而是通过有监督的指令调整将基本的驾驶知识提炼到模型中，以在推理速度和推理效率之间取得平衡。

在调整过程中，使用精心策划的驾驶指令问答数据集 将语言领域的驾驶知识注入到模型中。该数据集涵盖了广泛的与驾驶相关的推理，包括感知理解、运动预测、注意力分配、动作推理和高级决策。通过在这些多样化的驾驶查询上进行训练，OpenDriveVLA学习对驾驶场景进行context理解、遵循命令，并生成在语义和行为上有依据的规划决策。我们将调整数据表示为

，

其中。这里，表示与驾驶相关的问题，编码文本形式的自车状态。给定这种多模态输入，大语言模型以自回归的方式学习生成目标响应。在指令调整过程中，视觉编码器保持冻结状态，而特定于token的投影器和大语言模型设置为可训练。指令预测过程如下：

4）车辆 - 环境 - 自车交互

自动驾驶中可靠的轨迹规划需要对环境进行空间定位的3D表示。除了感知之外，它还必须理解自车与周围车辆之间的动态交互。有效的交互建模对于确保在现实世界驾驶约束下规划的轨迹既可行又无碰撞至关重要。然而，现有的预训练大语言模型缺乏对3D驾驶场景中空间推理的固有归纳偏差，因为它们主要在2D视觉语言和基于文本的数据集上进行训练。为了解决这个限制，引入了一个条件车辆运动预测任务，作为3D车辆 - 环境 - 自车交互建模的代理任务，使模型能够学习空间定位的运动模式。在这个阶段，OpenDriveVLA捕捉多车辆动力学的潜在结构，增强其场景感知轨迹生成能力，并改善在复杂交通场景中的决策。

给定场景和地图token以及自车状态，大语言模型基于投影的视觉嵌入预测每个检测到的车辆的未来运动。车辆的未来运动表示为一系列路标点。预测的轨迹以场景context、地图结构和自车状态为条件，使OpenDriveVLA能够推断出具有交互感知和空间定位的运动序列。第 (i) 个车辆的学习目标公式（轨迹预测的优化目标）为：

含义：最大化轨迹序列的条件概率，即在给定环境和自车状态下，预测最合理的轨迹。这相当于一个 自回归建模：每一步的轨迹预测依赖于前一步结果和环境上下文。
环境表征（）
- 提供道路拓扑、障碍物分布。来源：BEV特征、地图信息。
自车状态（）
- 提供车辆自身的动力学约束。来源：速度、加速度、历史轨迹。
轨迹生成（）
- 在时间序列上逐步生成未来轨迹。方法：自回归预测 + Transformer/LLM。
交互建模
- 车辆与环境、其他交通参与者的动态关系。通过多模态融合（视觉+语言+状态）实现。

这为OpenDriveVLA提供了必要的空间先验，使其能够弥合高级语义推理 与基于物理的运动规划之间的差距。

5）端到端轨迹规划

输入：环境特征 + 自车状态 + 驾驶指令。
建模：把轨迹点当作 token，使用语言模型的自回归方式逐步预测。
输出：轨迹序列（未来几秒的驾驶路径）。

轨迹当作语言序列：OpenDriveVLA 把轨迹点 token 化，像预测句子一样预测路径。
条件概率建模：每一步轨迹依赖于前一步和环境上下文。
统一框架：视觉、语言、状态信息一起作用于轨迹生成。

实验分析

1）训练数据

在nuScenes数据集上开展实验，按照标准将数据划分为训练集和验证集。OpenDriveVLA使用训练集以及对应的问答字幕进行训练，而验证集仅用于性能评估，以此确保能与之前的研究进行公平对比。各阶段的训练数据信息如表1所示。

视觉语言对齐：在进行智能体特征对齐时，我们对实例字幕进行了后处理，这些字幕提供了单个物体的2D视觉描述。为进一步增强空间感知能力，每个物体的字幕都增加了相应的鸟瞰图（BEV）坐标，这样模型就能将物体属性与精确的空间位置关联起来。对于场景token，我们对多视图场景描述进行处理，将其合并为统一的摘要，以描述所有摄像头视角下的驾驶环境。对于地图token，结构化语言描述源自真实标注，将车道分隔线、人行横道和道路边界等地图元素转化为描述性文本。

驾驶指令调整：采用了多个源自nuScenes的面向指令的数据集，将特定的驾驶知识融入OpenDriveVLA。把多个数据集统一为标准化的基于指令的问答格式，其中包括从nuCaption、nuScenesQA和nuX数据集收集的与驾驶相关的问答对。每一个问答对都以结构化的环境视觉token和自车状态为条件，保证了不同数据源之间的一致性。这种多模态指令调整过程使OpenDriveVLA能够有效地将语言理解与环境感知和场景理解相结合，在语言空间中实现感知、推理和行动的衔接。

运动预测和轨迹预测：在自车系统中对智能体运动预测和自车轨迹规划进行了公式化处理，模型直接预测每个实体相对于自车的局部坐标系内的未来位移，用于规划和预测。这种公式化处理以空间一致的方式捕捉了所有实体的运动动态。参照相关研究，自车状态被编码为文本输入，以确保在整个训练过程中模型都能感知自车状态。这两个任务都预测未来3秒的轨迹，采样间隔为0.5秒，每个轨迹产生6个路标点。

2）评估

在nuScenes基准测试的开环规划任务中对OpenDriveVLA进行评估，该模型在ST-P3和UniAD两种设置下接受评估。评估指标包括1秒、2秒和3秒时的L2位移误差，以及预测范围内的平均碰撞率。为了评估OpenDriveVLA的场景理解能力，在驾驶指令调整阶段之后，直接在三个驾驶视觉问答（VQA）数据集（即nuCaption、nuScenesQA和nuX）上评估其性能。VQA评估采用标准的MLG指标，包括BLEU、METEOR、CIDEr、BERT-Score等。

3）实现细节

OpenDriveVLA中的3D视觉感知模块采用以视觉为中心的设计，使用ResNet101骨干网络进行2D特征提取。该感知backbone网络通过3D目标检测、目标跟踪和地图分割的多任务学习进行预训练，得到的BEV特征图空间分辨率为200×200。为构建统一的场景表示，全局场景采样器对每个相机视角应用2D自适应池化，然后将池化后的多视图特征连接成一个全局场景token。智能体和地图token则从各自的查询transformer模块的最后一层提取。每种类型的token随后使用具有GeLU激活函数的单独两层MLP映射到语言空间。这里采用Qwen 2.5-Instruct作为预训练的大语言模型，在训练过程中对其进行全参数调整。模型在4个NVIDIA H100 GPU上进行训练，bs大小为1，大约需要两天完成训练。推理时将解码温度设置为0，以确保生成确定性的轨迹。在第3阶段，冻结2D主干网络。详细的训练配置总结在表1中。

4）主要结果

开环轨迹规划：使用ST-P3和UniAD指标在开环轨迹规划任务中评估OpenDriveVLA，以全面评估其在空间准确性和避撞方面的性能。如表2所示，OpenDriveVLA在两种设置下均取得了最先进的性能。3B和7B版本的OpenDriveVLA在ST-P3指标下的平均L2误差均为0.33米，优于先前的自回归语言模型。在UniAD指标下，OpenDriveVLA-7B也表现出色，平均L2误差为0.66米。这些结果验证了OpenDriveVLA的有效性。值得注意的是，尽管OpenDriveVLA-0.5B的参数数量明显较少，但它也取得了具有竞争力的性能，并且在很大程度上优于先前更大的模型。这凸显了OpenDriveVLA的效率，即使模型规模减小，它也能实现强大的空间和语义推理，使其成为一种有效且可扩展的语言引导规划解决方案。

驾驶问答：在基于nuScenes的三个数据集上对OpenDriveVLA的驾驶VQA任务进行评估，结果如表4和表3所示。OpenDriveVLA在所有三个数据集上均达到了一流的性能，在大多数指标上始终优于先前的语言增强驾驶模型和通用多模态基线模型。在nuCaption数据集上，OpenDriveVLA在所有评估模型中取得了最佳的字幕生成性能，优于通用多模态大语言模型LLaVA1.5和Mini-GPT4，以及特定于自动驾驶的模型LiDAR-LLM。对于nuScenesQA数据集，OpenDriveVLA也表现出色。与直接将BEV特征与语言模型融合的模型（如BEVDet+BUTD）相比，OpenDriveVLA在与物体和状态相关的问题上具有明显优势，这突出了其基于空间的视觉语言对齐的优势。值得注意的是，OpenDriveVLA-0.5B在Nu-X数据集上甚至超过了更大的7B模型，这表明即使使用轻量级大语言模型，它也具有强大的场景理解能力。

5）消融研究

消融研究考察了输入模态对OpenDriveVLA轨迹规划的影响。表5中的结果表明，视觉输入增强了决策过程，而文本高级命令和历史状态信息进一步优化了轨迹生成，这表明了语义意图和时间context的贡献。此外，发现自车状态信息在nuScenes开环规划基准测试中的轨迹预测中起着重要作用，这与先前的研究结果一致。由于数据集的分布不均衡，许多场景涉及保持当前状态，模型倾向于过度依赖自车状态历史，导致预测偏向保守。因此，为了进一步评估OpenDriveVLA的泛化能力和执行指令动作的能力，我们进行了定性研究，以检验它对不同人类命令执行各种动作的能力。

6）定性结果

驾驶指令跟随：图4展示了在交叉路口，OpenDriveVLA-7B在两种不同驾驶指令（"直走"和"右转"，以右转为真实情况）下的轨迹规划。结果表明，OpenDriveVLA能够准确解释驾驶员指令并生成相应的轨迹动作。预测的轨迹既遵循给定的指令，又能感知环境并在context上合理，展示了我们模型在复杂驾驶场景中强大的指令跟随能力和泛化能力。

与先前方法的比较：图5比较了OpenDriveVLA-7B和UniAD的开环规划结果。定性结果表明，OpenDriveVLA生成的轨迹更加稳定和适应性强，因为在窄路场景中，UniAD对右侧停放的车辆往往反应过度。与UniAD相比，OpenDriveVLA有效地保持了轨迹的平滑性和环境感知能力，展示了其在处理复杂驾驶场景方面的改进能力。

7）讨论与局限性

尽管OpenDriveVLA在各项基准测试中表现出色，但仍存在一些局限性。它缺乏明确的思维链推理，而是依赖于驾驶指令调整中的隐含推理，这可能会削弱其在复杂场景中的推理能力。此外，尽管其输入和输出的token有限，但其自回归特性阻碍了在高速驾驶中的实时部署，需要进一步优化。另外，其在开环设置下的评估并未考虑交互式交通环境中的稳健性。