【VLAs篇】02：Impromptu VLA—用于驱动视觉-语言-动作模型的开放权重和开放数据

项目	描述
论文标题	Impromptu VLA：用于驱动视觉-语言-动作模型的开放权重和开放数据 (Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models)
研究问题	自动驾驶的视觉-语言-动作 (VLA) 模型在非结构化角落案例场景中表现不佳，主要原因是缺乏针对性的基准测试。
核心贡献	Impromptu VLA数据集：一个包含超过80,000个精心策划视频剪辑的数据集，从8个开源大规模数据集中超过200万个源剪辑中提炼而成。
数据集特点	- 基于新颖的四种挑战性非结构化类别分类法构建。 - 包含丰富的、面向规划的问答 (Q&A) 标注。 - 包含动作轨迹。
创新点	1. Impromptu VLA数据集本身：填补了非结构化驾驶场景数据的空白。 2. 非结构化场景分类法：系统地定义了四种挑战性类别。 3. 可扩展的数据整理流程：以VLM为中心，用于识别、分类和标注。 4. 实验验证：证明了数据集对提升VLA模型性能的有效性。
关键实验结果	- 使用该数据集训练的VLA模型在既有基准上获得显著性能提升。 - 改善了闭环NeuroNCAP得分和碰撞率。 - 在开环nuScenes轨迹预测中达到接近SOTA的L2准确率。 - Q&A套件可作为有效的诊断工具。
目标应用	推动更鲁棒、适应性更强、能力更强的自动驾驶系统的发展，使其能够应对现实世界操作的复杂性，特别是在非结构化环境中。
局限性	主要依赖Qwen2.5-VL进行标注生成可能引入模型特定偏差，但通过全面人工验证和已证实的效用确认了其价值。

具体实现流程总结

该流程主要描述了 Impromptu VLA 数据集 的构建过程，如图3所示：

输入:

原始数据 (Raw Data): 来自8个大型公共自动驾驶数据集（如Mapillary, ONCE, nuScenes, Waymo等）的超过200万个视频剪辑。
视觉语言模型 (VLM): Qwen2.5-VL 72B，用于场景理解和初步标注。

核心处理流程与逻辑 (Core Processing Flow and Logic):

1. 阶段一：数据收集与场景分类法定义 (Sec 2.2, Figure 3 Steps 1 & 2)
- 数据收集 (Dataset Collection): 聚合来自多个来源的原始视频剪辑。
- 非结构化场景分类法定义 (Taxonomy Definition):
  - 初步探索: 对10%的采样数据进行开放式描述性分析（使用Qwen2.5-VL生成详细文本描述）。
  - 非常规场景识别: 使用另一个VLM分类步骤（基于精心设计的提示，见图6）过滤掉常规驾驶场景，保留"非常规"场景。此提示经过迭代优化以确保与人工判断的高度一致性。
  - 模式聚类与抽象: 对非常规场景描述进行语义级分析和聚类，识别重复模式，最终抽象并确定四个核心非结构化类别：
    1. 道路边界不清晰 (Roads with unclear boundaries)
    2. 临时交通规则变更 (Temporary traffic rule changes)
    3. 非常规动态障碍物 (Unconventional dynamic obstacles)
    4. 挑战性路况 (Challenging road conditions)
1. 阶段二：数据处理与筛选 (Sec 2.3, Figure 3 Steps 3 & 4)
- 频率对齐 (Frequency Alignment): 将所有收集的序列标准化到统一的2Hz帧率。
- 关键剪辑选择 (Keyclip Selection): 按照NAVSIM配置（过去1.5s，未来5s），选择中心关键帧进行标注。
- 稳定性过滤 (Stability Filtering): 将相邻剪辑打包成15秒的"局部过滤包"。只有当场景特征在包内持续出现（例如，不止一次）时，才认为该特征稳定并用于后续标注。最终数据集主要由单独标注的关键剪辑组成。
1. 阶段三：多任务标注生成与验证 (Sec 2.3, Figure 3 Steps 5 & 6)
- 场景分类与结构化信息提取 (Scene Classification & Structured Info Extraction): 使用Qwen2.5-VL 72B和思维链 (CoT) 提示对选定的关键剪辑进行分类（归入四个非结构化类别之一），并提取丰富的结构化信息（场景上下文、道路特征、移动物体等）。
- 多任务标注生成 (Multi-Task Annotation Generation): 基于CoT提取的信息，通过规则和LLM方法为每个关键剪辑生成多种面向规划的Q&A标注，包括：
  1. 场景描述 (Scene Description)
  2. 交通信号检测 (Traffic Signal Detection)
  3. 弱势道路使用者 (VRU) 识别 (Vulnerable Road User Identification) (部分依赖源数据GT)
  4. 运动意图预测 (Motion Intention Prediction)
  5. 元动作规划 (Meta-action Planning)
  6. 规划解释 (Planning Explanation)
  7. 端到端轨迹预测 (End-to-End Trajectory Prediction) (包含过去1.5s状态和未来5s轨迹)
- 全面人工验证 (Comprehensive Human Verification): 所有生成的标注（场景类别和多任务标签）都经过人工审查、接受/拒绝或修正，以确保高保真度。

输出 (Output):

Impromptu VLA数据集: 包含约80,000个经过精心筛选和丰富标注的视频剪辑，专注于四种非结构化驾驶场景。每个剪辑都附带多任务Q&A对和规划轨迹。
数据划分: 数据集按80:20划分为训练集和验证集，并在每个类别内进行分层抽样。

流转逻辑 (Overall Logic):

整个流程是一个从海量原始数据中提炼高质量、针对性强的数据集的过程。它始于对非结构化场景的系统性定义，然后利用大规模VLM的理解能力进行初步筛选和信息提取，再通过多层次的标注生成（结合VLM和规则）丰富数据内容，最后通过严格的人工验证确保数据质量。核心逻辑是利用AI辅助手段（VLM）来扩展数据处理和标注的规模，同时通过人工验证来保证标注的准确性和可靠性，最终产出一个专门用于解决自动驾驶在非结构化场景中挑战的数据集。特殊标记（如<PLANNING>）被用于区分不同任务的输出，以帮助模型学习。

这个流程确保了数据集不仅规模大，而且标注信息丰富、多样，并且紧密围绕着提升自动驾驶系统在复杂非结构化环境下的感知、预测和规划能力。

图1：Impromptu VLA视觉摘要。我们构建了Impromptu VLA数据集，其中包含从8个开源数据集中筛选出的超过8万个剪辑，专注于挑战当前自动驾驶汽车的四种关键类型的非结构化"角落案例"场景。它支持互联的VLA任务，包括场景理解、预测、元规划和轨迹规划。关键实验结果表明，使用Impromptu VLA数据集训练的VLA模型在闭环和开环指标上均取得了显著的性能提升。

文章目录

摘要
[1 引言](#1 引言)
[2 Impromptu VLA数据集：学习在非结构化道路上驾驶](#2 Impromptu VLA数据集：学习在非结构化道路上驾驶)
- [2.1 概述](#2.1 概述)
- [2.3 数据处理和标注](#2.3 数据处理和标注)
- [2.4 数据集统计](#2.4 数据集统计)
[3 实验](#3 实验)
- [3.1 推动现有端到端自动驾驶基准的边界](#3.1 推动现有端到端自动驾驶基准的边界)
- [3.2 Impromptu VLA上VLM能力的诊断评估](#3.2 Impromptu VLA上VLM能力的诊断评估)
[4 相关工作](#4 相关工作)
[5 结论](#5 结论)

摘要

视觉-语言-动作 (VLA) 模型在自动驾驶领域展现出潜力，但在非结构化角落案例场景中表现不佳，这主要是由于缺乏针对性的基准测试。为解决此问题，我们引入了Impromptu VLA。我们的核心贡献是Impromptu VLA数据集：超过80,000个精心策划的视频剪辑，从8个开源大规模数据集中超过200万个源剪辑中提炼而成。该数据集基于我们新颖的四种挑战性非结构化类别分类法构建，并具有丰富的、面向规划的问答注释和动作轨迹。至关重要的是，实验表明，使用我们的数据集训练的VLA模型在既有基准测试上取得了显著的性能提升------改善了闭环NeuroNCAP得分和碰撞率，并在开环nuScenes轨迹预测中达到了接近最先进水平的L2准确率。此外，我们的Q&A套件可作为有效的诊断工具，揭示了VLM在清晰数据上的不足，并跟踪基准测试。

1 引言

自动驾驶取得了显著进展，在导航结构良好的城市中心和高速公路上表现出越来越高的熟练度，这些地方通常有清晰的车道标记和可预测的交通流 $23, 29, 58$ 。然而，无处不在的自动驾驶的最终目标迫使我们超越这些常用途径，转向复杂且往往不可预测的非结构化道路领域。这些非结构化场景------涵盖从乡村小径、动态施工区域到标志模糊或刚从自然灾害中恢复的区域等一切情况------代表了下一个重要的前沿领域。正是在这里，当前的自动驾驶系统常常面临最严峻的考验，而突破对于实现"无处不往"自动驾驶能力的全部潜力至关重要 $74$ 。

成功驾驭这一前沿领域，受到专业数据严重稀缺的深刻阻碍。虽然众多驾驶数据集为当前进展奠定了基础，但它们主要捕捉的是常见的结构化交通状况 $7, 8, 21, 42, 43, 55, 59, 68$ 。这在非结构化环境所带来的巨大多样性和独特挑战方面留下了一个显著的盲点，例如不明确的道路边界、非常规动态障碍物的出现、遵守临时交通规则或处理危险路面。如果没有专门反映这些复杂条件的大规模、精心标注的数据集 $70, 47$ ，训练鲁棒的AI驾驶员并严格评估其在此类场景中的适应性的能力将受到严重限制。

为解决这一数据空白，我们引入了Impromptu VLA数据集，这是一个新的大规模基准测试，专门用于推动非结构化道路上自动驾驶的研究，如图1所示。Impromptu VLA从八个不同公共来源 $7, 8, 21, 42, 43, 55, 59, 68$ 的超过两百万个剪辑的初始池中提炼而来，包含约80,000个精心挑选和验证的剪辑。这些剪辑被分为四种不同类型的挑战性非结构化场景------道路边界不清晰、临时交通规则变化、非常规动态障碍物和挑战性路况------并富含广泛的多任务注释和规划轨迹。该数据集使用先进的流程构建，该流程利用具有思维链推理能力的视觉语言模型 (VLM) $39, 2, 12$ 进行细致入微的理解，然后进行全面的人工验证以确保高质量、可靠的标签。

我们全面的实验评估严格验证了Impromptu VLA数据集的有效性。我们证明，在我们的数据集上微调的VLM在既有的自动驾驶基准测试中表现出显著的性能提升。例如，在具有挑战性的闭环NeuroNCAP $41$ 模拟中 (表2)，我们使用Impromptu VLA增强的3B模型，其平均NeuroNCAP得分从基线的1.77/5.00显著提高到2.15/5.00，而其平均碰撞率则从72.5%大幅降低到65.5%。在用于轨迹预测的开环nuScenes $7$ 评估中，使用我们的数据集进行预训练也显著降低了L2误差；我们使用Impromptu VLA微调的3B模型实现了0.30米的平均L2误差，使其性能几乎与EMMA+ $25$ (0.29米) 等领先的专门方法相当，尽管后者通常受益于大得多的专有训练数据集 $88, 26$ 。此外，在我们数据集自身的各种Q&A验证套件上的评估显示，在这些要求苛刻的非结构化环境中，与感知、预测和规划相关的特定VLM能力方面取得了显著且可量化的增益。

我们的主要贡献总结如下：

Impromptu VLA数据集：一个公开可用、大规模且标注丰富的资源，精心专注于多样化和具有挑战性的非结构化驾驶场景，旨在填补现有数据资源的空白。
一个针对非结构化路况的系统性分类法，以及一个可扩展的、以VLM为中心的数据整理流程，用于其识别、分类和全面的多任务Q&A标注，适用于训练高级VLM。
广泛的实验证据表明，使用Impromptu VLA数据集进行训练能显著提升标准驾驶基准测试的结果，并可作为有效的诊断工具，用于评估和改进VLM在非结构化环境中的能力。

图2：不同驾驶场景数据集的特征比较。 图(a)说明了不同数据集中场景类别的分布以及每个数据集中包含的视频剪辑数量，直接展示了对不同场景类型的侧重以及各数据集的数据规模。图(b)比较了原始数据集中的轨迹分布与我们构建的数据集中的轨迹分布，解释了我们数据集的轨迹多样性。图©展示了来自8个源数据集的不同场景类别的示例。值得注意的是，IDD数据集缺少"挑战性路况"类别的数据。

**表1：数据集信息。**本研究中使用的数据集的关键属性摘要。请注意，Mapillary数据集呈现可变分辨率。对于Mapillary数据集，频率假定为2Hz，因为未明确提供特定的FPS信息。

2 Impromptu VLA数据集：学习在非结构化道路上驾驶

2.1 概述

研究界目前缺乏专门针对非结构化场景的大规模、多样化且精心标注的数据集。为解决这一关键空白，我们引入了Impromptu VLA数据集，这是一个为促进非结构化道路上自动驾驶技术进步而策划的数据集。Impromptu VLA数据集源自八个著名公共数据集 $7, 8, 21, 42, 43, 55, 59, 68$ 中超过200万个剪辑（占用超过10TB存储空间）的初始聚合，经过我们的筛选机制（如图3所示）提炼成一个高度集中的约80,000个剪辑的集合。由此产生的数据集专门捕捉了各种具有挑战性的场景，包括边界不清晰的道路、存在非常规动态障碍物以及具有临时或非标准交通规则的路段（详细统计数据见表1）。

2.2 为非结构化驾驶场景定义分类法 (Defining a Taxonomy for Unstructured Driving Scenarios)

创建Impromptu VLA数据集的一个主要目标是超越对非结构化性的单一模糊看法，并对这些环境提出的具体挑战建立更细致的理解。为此，并为了使数据集专注于真正能测试当前自动驾驶系统的极限，我们初步的工作采用数据驱动的方法来定义一个简洁而全面的非结构化道路场景分类法。

图3：Impromptu VLA数据集的数据处理和标注流程。 该图概述了创建我们数据集的顺序过程，从原始数据收集和场景分类法定义（第2.2节）开始，经过频率对齐和关键剪辑选择，到通过Qwen2.5-VL进行多任务标注生成（包括场景描述、对象/特征分析和打标签），最后以严格的人工验证结束（第2.3节）。

我们定义这些类别的方法始于对收集数据的广泛、无偏见的探索。我们首先通过从聚合和标准化的多源数据集中定期隔采样约10%的剪辑来创建一个代表性子集。然后，利用强大的视觉语言模型Qwen2.5-VL 72B $3$ 的能力，对该子集进行开放式描述性分析。我们没有查询模型以回答预定义标签协议中的问题，而是利用VLM先进的图像理解能力，提示它为每个场景生成详细的文本描述，如附录所示。

随后的阶段涉及一个多阶段、高度自动化的过程，将这些描述提炼成有意义的非结构化挑战类别。首先，为了以编程方式识别和过滤掉常规驾驶场景，我们采用了另一个基于VLM的分类步骤。Qwen2.5-VL生成的每个初始、丰富的场景描述都使用精心设计的提示进行评估，该提示指示VLM充当场景分类器，判断字幕是否属于非常规案例。为确保这种基于VLM的过滤提示的可靠性和有效性，我们对提示进行了迭代优化过程。该过程在一个包含约1000个场景描述的验证子集上进行测试，这些描述也由两名人工标注员独立标记为"常规"或"非常规"。VLM的分类与人工共识进行比较，并迭代调整提示，直到达到高度一致性。

对于从完整集合中选出的非常规场景，我们进行语义级分析以识别重复模式并将语义上相似的非结构化场景分组。这种聚类使得潜在子类别的自下而上涌现成为可能，例如涉及"不清晰的路边"、"临时道路施工"、"路上的动物"或"因雪导致的能见度差"的子类别。通过对这些机器生成的聚类进行迭代优化、合并，以及基于这些组中识别出的主要驾驶复杂性来源进行抽象，我们最终确定了以下四个显著的高级类别。

道路边界不清晰 (Roads with unclear boundaries)：可通行路径模糊或未定义的场景，例如乡村土路、越野小径或标记褪色/缺失的道路。这些场景严重挑战了车道检测和可行驶区域分割等感知任务。
临时交通规则变更 (Temporary traffic rule changes)：标准交通规则因施工区、人工交通指挥员或临时标志而暂时改变的动态情况，要求自动驾驶车辆适应不寻常的指令和道路布局。
非常规动态障碍物 (Unconventional dynamic obstacles)：在典型城市驾驶中不常见的动态行为者或障碍物，需要专门的交互策略。例如大型或不规则移动的车辆、意外位置的弱势道路使用者或动物遭遇，所有这些都会构成突发危险。
挑战性路况 (Challenging road conditions)：包括恶劣路面（如坑洼、泥泞、积雪、结冰）或环境条件（如大雾、大雨、弱光、强光）严重损害能见度或影响车辆动态，使危险感知和安全导航复杂化。

2.3 数据处理和标注

在我们定义了非结构化场景分类法（第2.2节）之后，整理后的数据经历了几个处理和标注阶段，如图3所示。

关键剪辑选择和稳定性过滤 (Keyclip Selection and Stability Filtering)。 所有收集的序列首先被标准化为2 Hz的统一时间速率，以解决来自不同来源的不一致性（表1）。我们将剪辑配置与NAVSIM $14$ 对齐，保留过去1.5秒和未来5秒的数据，并从每个包中选择中心关键剪辑进行标注。为了最大限度地减少来自瞬态关键剪辑级预测的假阳性，我们采用了一种时间稳定性打包机制。具体来说，相邻的剪辑被打包成（如果可能，最多）15秒的"局部过滤包"。剪辑的场景特征（在关键剪辑级别初步识别）只有在该包内持续一定数量的剪辑（例如，多于一次出现）时，才被认为是稳定的并传播到后续的标注阶段。值得注意的是，这些"局部过滤包"仅用于此稳定性检查和选择过程；最终的数据集主要由单独标注的关键剪辑组成。

通过CoT提示进行场景分类和结构化信息提取 (Scene Classification and Structured Information Extraction via CoT prompting)。 选定的关键剪辑使用Qwen2.5-VL 72B $3$ 和思维链 (CoT) 提示 $65$ 进行分类，以提取超越简单字幕的丰富结构化信息。这种分层推理过程分析了整体场景背景（R1：描述）、静态道路特征（R2）、可移动对象（R3），并最终对我们四个非结构化场景类别（第3.2节）之一进行合理的最终分配（R4）。结构化的CoT输出不仅提供了场景类别，还为后续的任务标注提供了丰富的上下文信息。

多任务标注生成 (Multi-Task Annotation Generation)。 利用场景类别和CoT过程中提取的结构化信息，我们进一步用一组多样化的特定任务标注来丰富每个关键剪辑，灵感来自Senna $28$ 等综合标注框架。这种多任务标注是通过基于规则和基于LLM的方法相结合实现的。具体来说，我们为每个选定的关键剪辑生成以下标注。1. 场景描述 (Scene Description) ：通过对VLM进行有针对性的查询，生成捕捉整体环境背景、时间、天气和交通状况的综合描述。2. 交通信号检测 (Traffic Signal Detection) ：通过进一步的VLM查询识别活动交通信号的存在状态和类型。3. 弱势道路使用者 (VRU) 识别 (Vulnerable Road User (VRU) Identification) ：关于VRU的信息，包括其存在、类型（如行人、骑自行车者）以及与自车的距离，均源自地面真实数据。4. 运动意图预测 (Motion Intention Prediction) ：为捕捉动态方面，场景中关键角色的预测运动意图由VLM生成。5. 元动作规划 (Meta-action Planning) ：自车的高级计划（例如，加速左转、保持直行）通常通过以场景上下文为条件的VLM提示来制定。6. 规划解释 (Planning Explanation) ：对自车响应场景的潜在或实际操作进行合理化的文本解释，由VLM生成。7. 端到端轨迹预测 (End-to-End Trajectory Prediction)：通过构建过去的车辆状态和相应的未来目标轨迹（在地面真实数据中），整理数据以支持此任务。

全面人工验证 (Comprehensive Human Verification)。 所有生成的标注------包括主要的非结构化场景类别和后续的多任务标签------都经过了细致的人工验证过程。标注员审查每个关键剪辑及其相关标签，提供二元判断（接受/拒绝）或在必要时进行少量纠正性编辑。这确保了整个数据集的高保真度。为了在进行广泛人工审查之前定量评估VLM对我们定义的非结构化类别的场景分类性能，我们在从nuScenes数据集中间隔采样的200个图像子集上对其进行了评估。将VLM分类与专家人工标签进行比较，对几个类别产生了很强的F1分数：'临时交通规则变更'为0.90，'非常规动态障碍物'为0.81，'挑战性路况'为0.91。'道路边界不清晰'类别在此特定nuScenes子集中发现过于罕见，无法进行有意义的F1分数计算。这些验证结果为我们标注流程中基于VLM的阶段提供了信心。

表2：NeuroNCAP上的结果。 (其中¹表示源自 $81$ ，²表示源自 $40$ ) 每个类别中的最佳分数（不带/带后处理）以粗体显示，次佳分数用下划线标出。NeuroNCAP总分和碰撞率降低方面的改进表明，我们的数据集有助于模型更细致地理解复杂的道路交互，从而制定更鲁棒和更安全的驾驶策略。

2.4 数据集统计

最终的Impromptu VLA数据集包含大量专门为其非结构化道路特征而策划的带标注剪辑。图2展示了从每个源数据集中衍生的这些剪辑的总数，并呈现了这些剪辑在第2.2节中介绍的四个定义的非结构化场景类别中的总体分布。轨迹分布的覆盖范围也在图2中报告。

为了最大化该数据集在训练和评估感知与规划模型方面的效用，为每个剪辑生成的丰富多任务标注（如第2.3节详述）被构造成面向规划的问答 (Q&A) 对。这种格式受到DriveVLM $58$ 或EMMA $25$ 等框架的启发，直接将LLM序列空间内的视觉输入、文本输出和动作轨迹预测关联起来。为了进行标准化评估，整个策划剪辑数据集（跨所有四个非结构化类别）使用80:20的比例划分为训练集和验证集。这种分层是在每个类别内进行的，以确保验证集保持对所有定义的非结构化道路挑战的代表性分布。

3 实验

本节通过研究Impromptu VLA数据集对推进自动驾驶模型的影响，对其进行经验验证。我们试图回答：

(1) 使用我们的数据集进行训练是否能提高视觉语言模型 (VLM) 在现有基准测试（包括闭环和开环）上的性能？

(2) Impromptu VLA数据集在哪些具体方面增强了VLM的性能------感知、预测还是规划？我们的验证集及其详细的面向规划的Q&A，在精确定位这些贡献和评估模型在这些不同任务中的能力方面，作为诊断基准的有效性如何？

3.1 推动现有端到端自动驾驶基准的边界

闭环评估 (Closed-loop evaluation)。 我们选择NeuroNCAP $41$ ，这是一个全面的闭环评估框架，它利用nuScenes数据集来模拟各种具有挑战性的真实世界驾驶场景，从而能够评估自动驾驶车辆在不同条件下的规划和控制系统的安全性和效率。NeuroNCAP评估主要通过碰撞率和NeuroNCAP得分 (NNS) 来量化性能。NNS的计算方式类似于五星评级系统，如下所示：如果没有发生碰撞，则得分为5.0；否则，得分为4.0 * max(0,1 -- v ᵢ/v ᵣ)，其中v ᵢ是实际碰撞速度（自车与碰撞物之间的相对速度大小），v ᵣ是如果未采取规避行动会发生的参考碰撞速度。这意味着如果未能避免碰撞，随着碰撞速度v ᵢ接近或超过参考速度vᵣ，分数会从潜在的4分线性下降到0分。另一方面，碰撞率直接跟踪导致碰撞的场景百分比。这两个指标按交互类型（例如，正面、侧面）分类。

我们的方法涉及对两种不同训练流程的比较研究。这里的基模型是Qwen2.5VL 3B $3$ 。第一个流程，我们在表2中称为"Base+Impromptu+nuScenes "，首先在我们的Impromptu VLA数据集的训练分割上对基础VLM进行微调，然后在这个适应后的模型上进一步对nuScenes训练集进行微调。第二个流程，"Base+nuScenes"，直接在nuScenes训练集上对基础VLM进行微调，而不接触Impromptu VLA。然后，这两个模型都在NeuroNCAP基准上进行评估。

开环评估 (Open-loop Evaluation)。 除了闭环模拟，我们还进行开环评估，以专门评估VLM在受益于我们的Impromptu VLA时的轨迹预测准确性。为此，我们也使用nuScenes数据集 $7$ ，专注于端到端轨迹预测任务。性能主要通过未来1秒、2秒和3秒时间范围内的预测轨迹与地面真实轨迹之间的L2距离（以米为单位）以及平均L2误差来衡量。实验方法与闭环测试中使用的比较方法类似。我们比较了Qwen2.5VL 3B和7B VLM的两种主要训练策略：（1）"Base+nuScenes "，其中基础VLM直接在nuScenes数据集上进行微调；以及（2）"Base+Impromptu+nuScenes"，其中基础VLM首先在我们的Impromptu VLA上进行微调，然后这个适应后的模型再在nuScenes上进行微调。这种比较旨在分离出在我们的数据集上进行预训练对各种场景下轨迹预测任务所带来的益处。结果与几种最先进的方法一起，在表3中详细列出。

如表3所示，在nuScenes基准上的开环轨迹预测结果显示，当模型在我们的Impromptu VLA数据集上进行预训练时，性能有显著提高。在1秒、2秒和3秒的预测范围内，轨迹准确性的提升是一致的。令人印象深刻的是，这种性能提升使我们调整后的3B/7B模型的性能达到了与EMMA+ $25$ （平均L2为0.29米）等领先方法相竞争的水平，尽管EMMA+受益于在Waymo引入的包含数百万场景的更大规模内部数据集上的训练。这突显了Impromptu VLA数据集（80K剪辑）在显著提升轨迹预测能力方面的有效性。

表3：nuScenes数据集上的开环轨迹预测L2误差 (米)。 (其中¹表示源自 $48$ ，²表示源自 $75$ ，³表示源自 $25$ )。每个类别内的最佳结果以粗体显示，次佳结果带下划线。

图4：NeuroNCAP在挑战性场景中的性能。 该图比较了两种模型在三种代表性挑战场景（静态、正面、侧面）中的驾驶行为。对于每个场景，左列显示了在nuScenes上微调的基础模型的行为。右列显示了在我们提出的数据集子集上训练然后也在nuScenes上微调的模型的性能。与基础模型相比，使用我们数据的模型可以通过转向、减速等方式更好地避开车辆。

3.2 Impromptu VLA上VLM能力的诊断评估

为了回答第二个问题------研究Impromptu VLA数据集增强了自动驾驶的哪些具体方面（感知、预测或规划），以及我们的验证集作为诊断基准的效果如何------我们使用其面向规划的Q&A任务进行了一系列评估。这包括比较基础视觉语言模型 (VLM) 与在我们数据集上以面向任务的方式微调的版本的性能。

表4：Impromptu VLA验证集上的定量评估。 我们验证集上各种Q&A任务的性能比较。该表显示了3B和7B Qwen2.5-VL模型的指标，比较了基础版本与在Impromptu VLA上微调的版本（'Ours'）。报告了感知（V.R.U.，T. Light）、预测（Dyn. Obj.）、元规划（M.P.）和规划（L2）的准确率↑。最佳结果以粗体显示。

在Impromptu VLA验证集上的定量评估（如表4总结）清楚地表明，在我们的数据集上进行微调可以转化为自动驾驶所有关键方面的提升，包括感知、预测、规划推理以及规划的轨迹。

4 相关工作

当视觉语言模型遇到自动驾驶 (When Vision Language Models Meet Autonomous Driving)。 视觉语言模型 (VLM) 扩展了大型语言模型 (LLM) 的视觉理解能力 $39, 2, 12, 63, 1, 17, 31, 32, 76, 87, 54, 22, 11, 84, 67, 82, 36, 72, 86, 30, 85, 79, 34$ ，实现了多模态推理。这些模型最近被引入自动驾驶领域，或者作为传统端到端框架 $13, 23, 29, 11, 46, 83$ 的补充，或者作为独立的决策者 $77, 10, 49, 25, 58$ ，因为它们被认为能够将泛化能力迁移到道路场景中 $1, 62, 50, 52, 60, 44, 51$ 。此外，新颖的方法利用协作式LLM智能体进行可编辑场景模拟，为数据生成提供了新的范式 $66$ 。在这条研究路线中，一些方法将结构化的驾驶输入------如感知输出和高清地图------转换为用于规划的语言 $10, 49$ ，而其他方法如DriveGPT4 $77$ 则处理前置摄像头视频以预测控制命令和解释。基于LVLM的规划器也已在CARLA $19, 64$ 等模拟环境中得到验证，大规模预训练（例如ELM $88$ ）也已显示出在改善泛化方面的潜力。最近的工作进一步提出了针对驾驶的Q&A数据和基准测试 $53, 70, 47, 69, 15, 33$ ，以更好地将训练与下游规划任务对齐。

自动驾驶的专业技术和数据集 (Specialized Techniques and Datasets for Autonomous Driving)。 除了VLM范式，重要的研究继续推进自动驾驶系统的各个关键方面，解决感知、模拟、建图和预测中的具体挑战。例如，在逼真模拟领域，Mars $72$ 提供了一个实例感知、模块化且逼真的模拟器，利用神经辐射场，这对于生成和测试复杂场景至关重要。Challenger $78$ 专注于生成物理上合理但现实的对抗性驾驶视频，以对AD系统进行针对激进操作的压力测试，而AVD2 $35$ 引入了一种新颖的框架，用于生成与详细自然语言描述和预防措施相符的事故视频，从而增强了用于训练和分析的事故场景理解。为了增强在具有挑战性的环境条件下的鲁棒性，特别是在夜间，Steps $86$ 探索了联合自监督夜间图像增强和深度估计，这对于改善弱光环境下的视觉感知至关重要。P-MapNet $30$ 通过利用标准清晰度 (SDMap) 和高清晰度 (HDMap) 先验进行更优的地图生成，进一步实现了准确和远距离的环境表示，从而改善了更长距离的态势感知。在来自有限输入的3D场景理解领域，MonoOcc $85$ 深入研究单目语义占据预测，旨在从单摄像头视图重建全面的3D几何和语义。对于鲁棒的运动预测，尤其是在动态多智能体环境中，Int2 $79$ 提出了一个专门针对复杂交叉口交互式轨迹预测的大规模数据集和框架，捕捉了对安全导航至关重要的关键动态。这些有针对性的创新共同为更强大、更可靠的自动驾驶系统铺平了道路。努力还扩展到生成高质量、带标注的训练数据，UniScene $34$ 提出了一个统一的以占据为中心的框架，用于全面的驾驶场景生成。此外，SCP-Diff $20$ 通过引入空间-类别联合先验，显著提高了用于传感器模拟的语义图像合成质量，从而能够创建具有精确语义控制的高度逼真和多样化的虚拟环境。这些有针对性的创新共同为更强大、更可靠的自动驾驶系统铺平了道路。

端到端自动驾驶数据集和基准 (End-to-end Autonomous Driving Datasets and Benchmarks)。 我们将自动驾驶基准分为两类：一类用于大规模模仿学习，另一类用于模拟。第一类包括大规模的真实世界数据集，通常从道路网络收集 $7, 8, 42, 43, 55, 59, 68$ ，这对于开发和评估带标注的感知、预测和规划任务的系统至关重要。在这项工作中，我们选择代表性的模仿学习基准来构建我们的数据集：KITTI $21$ ，一个早期的基准，提供了来自德国的数据。nuScenes $7$ 在此基础上扩展了来自波士顿和新加坡的数据。Waymo开放数据集 $55$ 提供了巨大的规模，收集了来自美国不同地点的数据。Argoverse (v1 & v2) $9, 68$ 也包含来自美国多个城市的数据。nuPlan提供了来自美国和新加坡城市的超过1200小时的驾驶数据。为了实现全球视觉多样性，Mapillary Vistas $43$ 包括来自各大洲的街道级图像。ONCE $42$ 贡献了一个包含100万个LiDAR场景和700万张来自中国的相机图像的大规模数据集。最后，印度驾驶数据集提供了来自印度各地具有挑战性和非结构化驾驶环境的关键数据。 $59, 18$ 第二条线涉及基于模拟的基准，如Bench2Drive $27$ 、NAVSIM $14$ 和NeuroNCAP $41$ ，它们提供闭环评估环境。这些模拟器利用更类似于面向驾驶任务的奖励设计的指标，允许在交互式场景中对决策和控制算法进行系统测试。值得注意的是，我们的数据集构建优先考虑收集和过滤真实的、现实世界中的非结构化场景，而不是引入合成元素或异常 $57, 6, 56, 16, 38, 5, 45, 73$ 。这种对真实数据的承诺确保了Impromptu VLA数据集能够促进基于多样化驾驶条件真实复杂性的VLA模型的发展。

5 结论

本文介绍了Impromptu VLA数据集，这是一个精心策划的基准，包含约80,000个剪辑，具有丰富的多任务问答标注和相应的动作轨迹，专门设计用于解决非结构化环境中自动驾驶关键数据稀缺的问题。我们全面的实验表明，使用Impromptu VLA数据集训练的视觉语言模型取得了显著的性能提升，这体现在NeuroNCAP基准测试中增强的闭环安全性和驾驶得分，以及在nuScenes上改进的开环轨迹预测准确性。此外，对我们数据集验证套件的评估证实了其作为诊断工具的有效性，揭示了在处理多样化和具有挑战性的非结构化道路场景时，模型在感知、预测和规划能力方面的具体进步。因此，Impromptu VLA数据集为开发更鲁棒、适应性更强、能力更强的自动驾驶系统提供了一个宝贵的新资源，为应对现实世界操作的复杂性做好了准备。局限性 (Limitation)。 我们承认，在Impromptu VLA数据集中主要依赖Qwen2.5-VL进行标注生成可能会引入潜在的模型特定偏差；然而，我们相信全面的人工验证以及在非结构化场景中增强视觉语言模型性能的已证实效用，证实了其作为研究资源的重大价值。