文献阅读篇#16：自动驾驶中的视觉语言模型：综述与展望

文章标题：Vision Language Models in Autonomous Driving: A Survey and Outlook

（翻译）自动驾驶中的视觉语言模型：综述与展望

文章发表于一区Top期刊IEEE Transactions on Intelligent Vehicles，DOI 10.1109/TIV.2024.3402136

摘要：

视觉-语言模型（VLM）在自动驾驶（AD）领域的应用由于其出色的性能以及利用大语言模型（LLM）的能力而受到广泛关注。（开门见山）通过整合语言数据，驾驶系统能够深入理解真实世界的环境，从而提高驾驶的安全性和效率。（如何发挥作用）在本工作中，我们对该领域语言模型的进展进行了全面系统的综述，涵盖感知与理解、导航与规划、决策与控制、端到端自动驾驶以及数据生成。我们介绍了主流的VLM任务和常用的评估指标。此外，我们回顾了各个领域的现有研究与应用，并对现有的语言增强自动驾驶数据集进行了详细总结。最后，我们讨论了VLM在自动驾驶中的优势和挑战，并为研究人员提供了当前的研究空白与未来趋势。（总结工作）

**除此之外，作者在GitHub上公开了自己的成果，获得了****400+**Star；

GitHub - ge25nab/Awesome-VLM-AD-ITS: [T-IV] This repository collects research papers of large Vision Language Models in Autonomous driving and Intelligent Transportation System. The repository will be continuously updated to track the latest update.

关键词：

视觉语言模型、大型语言模型、自动驾驶、智能汽车（点题期刊）、条件数据生成、决策制定、语言引导导航、端到端自动驾驶。

一、引言

智能出行在现代文明中非常重要，它推动经济增长，支持城市发展，并增强社会联系。近年来，深度学习和计算能力的快速发展深刻影响了这一领域，提高了其效率和智能水平。具体而言，作为这一进步不可或缺的一部分，自动驾驶发展迅速，并取得了许多重要的技术突破。++（背景：提出深度学习、自动驾驶等关键词）++

自动驾驶旨在使车辆能够独立且智能地行驶。目前的自动驾驶技术，尤其是与感知和预测相关的技术，已经从计算机视觉的进步中受益匪浅。例如，感知模块通常使用卷积神经网络（CNN）或Transformers [1]，处理来自摄像头或激光雷达等传感器的数据，以准确识别和定位周围环境中的目标。然而，尽管在技术上取得了这些进展，当前的自动驾驶解决方案在许多方面仍面临巨大挑战，包括处理复杂和快速动态的环境、解释决策以及遵循人类指令。它们往往无法捕捉细微的细节或理解上下文 ，这可能带来安全隐患，并限制向更先进自动驾驶的进一步发展。++（基于24年的现状与传统感知模型的局限性）++

大型语言模型（LLMs）[2]--[6] 和视觉语言模型（VLMs）[7]--[13] 的出现，为当前自动驾驶的固有局限提供了潜在的解决方案。这些新兴技术融合了语言和视觉数据，预示着未来车辆和系统能够深入理解周围环境和自然语言。这标志着一个智能、高效且可解释的交通新时代。除了提升传统自动驾驶任务，如目标检测或交通预测外，新兴应用领域还包括零样本感知和语言引导导航，如图1所示。鉴于将语言模型应用于自动驾驶和智能系统的研究激增，为科研界提供系统而全面的综述具有重要意义。++（LLMs和VLMs将会带来的改变，本文主旨）++ 然而，现有的综述[12]、[14]--[17] 要么单独聚焦于大型语言模型、视觉语言模型，或自动驾驶。根据我们的了解，目前尚无系统总结和讨论大型视觉语言模型在自动驾驶中应用的综述或评价文章。++（现有综述的局限）++

图1：视觉-语言模型和大型语言模型在传统任务中提供了进展，并为自动驾驶的创新应用铺平了道路。

为此，我们对自动驾驶中视觉-语言模型的现状进行了广泛的综述，重点介绍了研究界近期的技术发展趋势。我们在图2中展示了本文的分类结构。本工作的主要贡献可以总结如下：

图 2：自动驾驶中视觉-语言模型任务和应用的分类概述。本文涵盖了自动驾驶的五个主要方面，即感知与理解、导航与规划、决策与控制、端到端自动驾驶以及数据生成。我们在每个五个维度中用虚线矩形框展示了主要任务和技术。++（一图概括了全文所有关键小标题）++

• 我们对自动驾驶中的大型视觉语言模型进行了全面的综述，并根据VLM类型和应用领域对现有研究进行了分类。

• 我们整合了自动驾驶领域新兴的主流视觉语言任务及相应的常用指标。

• 我们系统地总结和分析了现有的经典以及语言增强的自动驾驶数据集。

• 我们探讨了VLM在自动驾驶中的潜在应用和技术进展。

• 我们深入讨论了该领域的优势、挑战及研究空白。++（我们具体的工作）++

二、背景

本节对相关背景进行了全面概述，深入探讨了这些领域的基础概念：自动驾驶（II-A）、大型语言模型（II-B）和视觉-语言模型（II-C）。++（本章内容概述）++

A. 自动驾驶

汽车工程师学会（SAE）[18] 引入了一种分类系统，用于描述和指导自动驾驶汽车（AV）的发展，该系统将驾驶自动化水平从0级（无自动化）划分到5级（完全自动化）。随着自动化水平的提高，对人类干预的需求减少，而车辆理解周围环境的要求则增加。截至目前，最先进的商业车辆仍处于2级或3级 [19]，提供部分自动化，但仍需要驾驶员监督，要实现5级仍有很长的路要走。++（通过L分级说明现状与局限）++最新研究[20]指出，智能交通系统中的技术，包括V2X协作 感知[21] 和交通流预测[22]--[24]，也是实现完全自动驾驶技术路线图中的关键组成部分。当前主流的自动驾驶系统可以根据流程差异分为两类：++经典模块化范式和端到端方法++。

V2V、V2X 也是智能驾驶的关键技术，在撰写综述的时候可以提及VLM在其中的关键作用，通过检索全文发现，作者只在此处提及了V2X，略显突兀。

模块化自动驾驶。 模块化自动驾驶系统是该领域经典且广泛采用的架构[25]。它将自动驾驶任务分为几个独立的模块：感知、预测、规划和控制。每个模块单独开发，并负责整个系统中的特定功能。++（什么是模块化自动驾驶）++

++感知组件是模块化自动驾驶系统的基础。++ 它利用车载传感器 收集、处理、理解并解释车辆周围环境信息。根据不同的技术路线，感知模块使用一种或多种类型的传感器，如激光雷达、摄像头、雷达或事件摄像头，以提取交通参与者的位置信息、尺寸、速度及其他细节，即车辆、行人、障碍物和车道标记。感知模块 通常涉及计算机视觉中的各种任务和技术，包括数据标注、二维和三维目标检测、语义分割、多目标跟踪、占用预测和传感器融合等。预测模块 建立在来自感知模块的实时环境感知信息基础上，通过分析关注道路使用者的历史轨迹和当前状态，旨在预测其短期和长期的轨迹及行为。这包括预测易受伤害交通参与者（如行人和骑行者）的未来行为，以及其他车辆的驾驶策略。预测模块在通过预测未来交通状况来确保驾驶安全性和稳定性方面起着至关重要的作用。++（传感器、感知模块和预测模块）++

++规划模块++ 负责根据车辆的状态和环境信息生成从当前位置到目标目的地的最优路径。通常，这一过程可以分为全局规划和局部规划 。全局规划 侧重于从起点到目的地的最优路线规划，常用的方法包括A*算法或Dijkstra算法等，它们用于在地图上进行搜索。另一方面，局部规划 则根据车辆的具体当前情况进行实时调整，更加注重即时性和可靠性。常见的局部规划方法包括RPP、RRT、RRT*等。此外，近年来出现了许多基于深度学习的规划器，作为传统方法的强大替代方案。控制模块 负责执行规划模块提供的轨迹和路径。它考虑车辆的固有特性，如车辆动力学模型，以及外部环境条件，并调整一系列控制信号，如加速度和转向，以以稳定和可靠的方式控制车辆。++（全局规划、局部规划和控制模块）++

端到端自动驾驶。 与模块化自动驾驶范式相比，端到端自动驾驶[52]--[55]旨在将各个独立组件整合为一个统一的系统，并以可微方式优化整个系统。它将自动驾驶视为一个学习任务，从传感器获取原始数据输入，并直接输出控制信号 ，以最终规划性能为主要优化目标。端到端自动驾驶的优势在于其简洁明了的架构、更清晰直接的目标、对基于规则设计的依赖性降低，以及随着更多训练资源的增加而提升性能的可扩展性[14]，[56]。++（什么是端到端极其优势）++

然而，模块化和端到端的自动驾驶方案仍然面临诸多严峻挑战，例如泛化能力、可解释性、因果混淆和鲁棒性 。尽管许多研究尝试通过各种方法解决这些问题，但如何构建一个安全、稳定且可解释的自动驾驶系统仍然是一个未解的课题。大型视觉语言模型在场景理解、推理、零样本识别以及良好可解释性方面的卓越优势，为人们克服这些挑战提供了新的解决方案和研究方向。++（模块化和端到端都面临严峻挑战）++

B. 大型语言模型

++自然语言++ 是人类交流和传递信息的主要手段。旨在理解和处理自然语言的自然语言模型经过多年的发展已经不断进化。Transformer架构的引入[1]由于其高度并行化的数据处理机制和强大的性能，带来了自然语言处理（NLP）领域的颠覆性革命。作为自然语言模型的又一里程碑，BERT [57]提出了一种方法，即在海量未标注语料数据上预训练模型，然后在特定任务上进行微调。它显著提升了各类NLP任务的基线性能。这种从大规模未标注数据中学习上下文感知特征表示的方法，为大型模型的出现奠定了基础。从大规模未标注数据中学习通用上下文感知特征表示的方法，为大型语言模型的出现打下了基础。++（自然语言处理，LLM的基础）++

大型语言模型（LLMs）通常指参数数量极大的语言模型，通常达到十亿或更多。一项最新研究[58]表明，语言模型的性能取决于模型参数数量、数据集规模和训练计算量，并提出了规模定律。LLMs最显著的特点是展现出涌现能力，例如在众多下游任务中具备少样本或零样本迁移学习能力、强大的多步骤推理能力以及遵循指令的能力，这些能力在较小的模型中通常不存在。++（LLM是什么，有什么优势）++

ChatGPT，特别是GPT-3.5 [6] 和GPT-4 [59]，是LLMs发展的一个里程碑。自发布以来，GPT-3.5因其卓越性能持续受到关注。越来越多的研究人员开始探索并利用LLMs强大的语言理解、解释、分析和推理能力来解决以前难以或无法解决的问题。此外，许多开源LLM，如Llama2 [2]、Qwen [60]、Phi [61]等，也受到学术界和工业界的广泛关注，其中一些在特定任务上的表现甚至可与ChatGPT相媲美。++（以GPT为代表的LLM模型）++

ChatGPT的确是LLM中最出色的模型之一，但是由于其闭源的性质，或许对于大多数车企来说并不会使用它，这一点局限是需要说明的。

C. 视觉-语言模型

视觉-语言模型（VLMs）桥接了自然语言处理（NLP）和计算机视觉（CV）的能力，打破了文本与视觉信息之间的界限，从而连接多模态数据。VLMs能够通过学习跨模态数据来理解视觉内容与自然语言之间的复杂关系。近年来，随着大型语言模型（LLMs）的兴起，人们也越来越关注如何将视觉模块有效地融入LLMs以执行多模态任务。++（VLM是什么、作用）++

LLM兴起→多模态，这个表述略显不妥，光有视觉能力堪称多模态。应该是VLM或者LLM添加各种传感器信息编码和输入通道，才达到多模态的感知能力。

而且与前文不连贯，可以写作，针对复杂多变的交通场景.........

AD中的主流视觉语言模型大致可分为多模态到文本（M2T ）[63] [64]--[66]、多模态到视觉（M2V ）[67][68]和视觉到文本（V2T ）[69][70]，如图4所示。M2T类型通常以图像-文本或视频-文本为输入，输出文本。激光雷达作为自动驾驶中另一种常用传感器，也可以构建M2T类型的视觉语言模型。相应地，M2V类型模型接受图像文本作为输入，生成图像或视频作为输出;而V2T类型模型则以图像或视频为输入，输出生成文本。++（M2T、M2V和V2T）++ 如图3所示，根据跨模态信息连接方法，AD中使用的VLM分为视觉-文本融合（VTF ）[63][69][64][71][73]和视觉-文本匹配（VTM ）[70][74]--[83]。VTF 类型的视觉语言模型采用多种融合方法来有效整合视觉嵌入和语言嵌入，并联合优化特征表示，从而在目标任务上表现更好。相比之下，VTM类型的视觉语言模型，包括图像-文本匹配[84]、[85]和视频-文本匹配[86]，通过强制视觉-文本对语义接近、未配对实例相距远来学习联合重复情感空间，实现跨模态语义对齐并实现跨模态语义传播。CLIP [84]是VLM中的一项里程碑式图像-文本匹配工作，通过对比学习对大量图像-文本对训练，捕捉与语言相关的图像特征表示，实现零镜头传输能力。++（VTF融合、VTM匹配和CLIP）++

图3. 自动驾驶中视觉-语言模型的两种跨模态连接方法: (a) 视觉-文本匹配。我们在图的右上角演示了语义相似度匹配。(b) 视觉-文本融合。融合后的特征可用于下游任务。该图来源于KITTI [62] 数据集。

图4. 自动驾驶中++主流视觉-语言模型概览++。(a) 多模态到文本模型以文本和图像或视频为输入并生成文本，如文献[63]所示。(b) 多模态到文本模型以文本和点云为输入并生成文本，如文献[87]所示。(c) 视觉到文本模型接受视频或图像为输入并生成文本输出，例如GAIA-1 [67]。(d) 多模态到视觉模型以图像和文本为输入并输出图像或视频，如文献[69]所示。

这里实际上将VLM和MLLM混为一谈了，在24年的场景下，或许尚可接受，但26年新的模型出现很多，是否需要将MLLM单独分为一类，值得思考。

三、自动驾驶中的视觉-语言任务

随着研究人员越来越意识到语言融合在自动驾驶中的重要性，越来越多的关注被集中于研究自动驾驶中的视觉语言任务。在本节中，我们总结了现有的主要自动驾驶视觉语言任务，即（III-A）中的对象指称与跟踪、（III-B）中的开放词汇交通环境感知、（III-C）中的交通场景理解、（III-D）中的语言引导导航，以及（III-E）中的条件自动驾驶数据生成。我们介绍了问题定义，阐明了与非视觉语言模型任务的区别，并制定了主要评估指标。++（第三章节主要内容）++

A. 物体指认与跟踪

单一或多个对象指称。 对象指称Object referring，在某些论文中也称为object referral或对象桥接object grounding，旨在利用给定的自然语言表达式将指定的对象定位到二维图像或三维空间中。当语言提示描述对应场景中的单个对象时，称为单一对象指称（SOR）。当语言提示描述同时指向多个对象时，称为多对象指涉（MOR）。OR 可以被视为一种语言条件对象检测 。与传统的对象检测任务不同，后者旨在局部化和分类某些特定类别，OR任务通过语言提示指定要检测的对象或多个对象。因此，OR可以被视为一种通用的物体检测任务。++（Object referring）++

Object detection关注的是识别和定位预定义类别的物体。

Object referring需要根据语言描述定位特定物体，可能涉及未预定义的类别或属性。

涉及对象追踪。 除了对象指涉任务外，一些近期研究还引入了自动驾驶中的新型对象指涉与跟踪（object-referring and tracking，OR-T）任务。与对象指称任务相比，OR-T任务将语言表达式作为语义线索，用于追踪一个或多个对象在连续帧之间。OR-T 旨在通过视频输入中的语言提示来评估特定单个或多个物体的跟踪能力。 如图5所示，与传统跟踪任务相比，OR-T更侧重于交叉帧，强调一致性和鲁棒性。因此，OR-T任务可视为一种通用的传统对象跟踪任务，追踪语言提示指定的特定对象。当所有物体都被指定为跟踪目标时，OR-T可视为与传统目标跟踪任务等同。（++object-referring and tracking）++

评估指标。 由于自主驾驶中的 OR 和 OR-T 任务通常是基于主流自主驾驶数据集设计和测试的，例如 nuScenes [88] 和 KITTI [62]，因此它们也采用与数据集基准测试中相同的评估指标。对象引用任务使用平均精度均值（mAP）来衡量模型在定位指定对象方面的准确性。对于多对象 OR-T 任务，则采用多目标跟踪（MOT）任务中使用的指标作为评估标准，如高阶跟踪准确率（HOTA）、公式 1 中的多目标跟踪准确率（MOTA）、公式 2 中的多目标跟踪精度（MOTP）以及身份切换（IDS），其中 FN、FP、IDS 分别表示假阴性、假阳性、身份切换，d(oi,hi) 表示跟踪对象与真实对象之间的第 i 个距离。++（mAP、HOTA、MOTA、MOTP评价指标）++

B. 开放词汇交通环境感知

开放词汇三维目标检测。 开放词汇三维目标检测（Open-Vocabulary 3D Object Detection，OV-3DOD），也称为零样本 三维目标检测，旨在提高对训练过程中未包含的新类别目标的检测性能。与仅区分已知类别与未见类别的开放集三维目标检测相比，OV-3DOD 将所有感兴趣的新类别扩展为文本提示词汇，并为每个新的三维边界框分配词汇中的特定语义类别。OV-3DOD 的主要挑战围绕两个核心问题：如何生成新的三维边界框以及如何确定这些边界框的类别。关于第一个问题，由于基于二维图像生成新的三维边界框相对困难，目前大多数研究利用 LiDAR 传感器提供的点云数据来提出新的三维边界框。针对后一个问题，现有工作尝试将三维边界框的语义特征对齐到基于 VTM 的 VLM 的特征域，以利用其强大的零样本推理能力。++（OV-3DOD的定义、作用和问题）++

开放词汇三维目标检测是一种无需预先定义固定类别标签的三维场景目标识别技术。传统3D目标检测需在训练阶段限定类别（如"汽车""行人"），而OV-3DOD通过结合视觉语言模型（如CLIP ）或文本嵌入，能够检测和分类训练时未见过的物体类别（如"消防栓""无人机"），直接通过自然语言描述进行推理。其核心挑战在于将点云或体素数据与开放语义空间对齐。

开放词汇三维语义分割。 开放词汇三维语义分割（Open-Vocabulary 3D Semantic Segmentation，OV-3DSS），有时也被称为三维点云的零样本学习，旨在将三维点云或三维网格分割为语义上有意义的区域 ，其中类别在训练期间未包含在预定义类别集中。与OV-3DOD类似，OV-3DSS旨在从新奇对象中发现新的点或网格，并以零样本方式将它们分类到未见过的类别中。主流研究还侧重于利用基于VTM的大型视觉语言模型，将点级或网格级特征与相应的文本特征进行对齐。++（OV-3DSS的定义、作用和主流研究）++

评估指标。 OV 3DOD 与经典 3D 目标检测的主要区别在于关注的对象类别是开放词汇还是封闭集。在评估过程中，采用相同的指标，因此 OV 3DOD 也使用 3D mAP 来评估模型的性能。同样，OV-3DSS 任务采用与经典 3D 语义分割相同的指标，使用 mIOU 和平均准确率（mAcc）进行评估。++（3D mAP、mIOU和mAcc评价指标）++

C. 交通场景理解

视觉问答。 交通场景视觉问答（VQA）涉及基于图像或视频输入回答问题，这是一项具有挑战性的任务，需要对交通场景和提出的问题有高水平的理解。它为解决传统自动驾驶系统在可解释性和可信性方面的挑战提供了潜在途径。自动驾驶中感兴趣的问题通常可归类为感知、规划、空间推理、时间推理和因果推理 。感知问题旨在通过基本任务识别和确定交通参与者，例如外观描述、存在、计数、状态等。规划问题旨在根据当前交通状况做出合理的决策和行动以实现目标。空间推理问题旨在确定感兴趣物体在三维空间中的绝对和相对位置，包括它们的接近度和距离。时间推理问题涉及根据现有视频数据推断物体的未来或过去行为及轨迹。因果推理问题通常更为复杂，分析事件发生的原因，并通过逻辑行动生成预期结果，有时需要利用常识。++（问答的问题，包括感知、规划、空间推理、时间推理和因果推理问题）++ 图6++展示了一些覆盖这些类型的问题示例。++

图6. 在自动驾驶的VQA任务中常见的不同类型问题示例。根据具体设置，视觉输入可以如上所示为多张图像，也可以是单个摄像头、点云或视频流。多视角图像和问题示例选自[66]、[87]、[88]、[93]。每个数据集中问题类型的分类可能略有不同。

字幕生成。 字幕生成（Captioning）是自动驾驶中交通场景理解的另一种常见任务。对于给定的场景，例如图像、点云或其中的指定物体，该任务涉及生成其内容的文本描述。与需要问题作为输入的视觉问答（VQA）任务不同，字幕生成更关注于特定任务，如场景描述、重要性排序、动作解释等。因此，字幕生成可以被视为具有固定问题的 VQA 的一种特殊情况 ，通常使用与开放式 VQA 相同的评估指标。++（什么是Captioning）++

评估指标。 在多项选择的视觉问答（VQA）任务中，正确答案会出现在多项选择的选项中。在这种情况下，可以使用 Top-N 准确率来评估模型是否作出了正确的预测。如公式 3 所述，如果正确答案位于模型预测概率排名前 n 的选项中，则该答案可视为成功预测。然后，通过将成功预测的问题数量除以问题总数来计算准确率。N 的选择通常取决于选项的数量和问题的类型。NuScenes-QA [64] 和 Talk2BEV [66] 采用 Top 1 准确率作为评估指标。++（Top-N 准确率）++

在开放式回答格式的VQA和图像描述任务中，一些常用的指标用于评估预测答案与真实答案之间的相关性和正确性，例如BLEU [89]、METEOR [90]、ROUGE [91]、CIDEr [92] 等。双语评测替代（BLEU）分数，如公式4所示，是将n-gram精确度的加权平均值与简略惩罚（Brevity Penalty, BP）相乘。BP作为句子长度的惩罚因子，鼓励生成答案的长度与真实答案的长度尽量匹配。n-gram的加权平均度量预测与真实答案之间关键词汇的相似性，其中N用于表示其多种变体，即BLEU-N。++（以BLEU为代表的多样评价指标）++

这些指标各有其侧重点和局限性。因此，目前的研究通常将它们结合使用，以提供对VQA系统更全面的评估。为缓解这些指标的语义信息不足问题，Reason2Drive [93] 提出了一个评估方案，用于衡量推理链的表现。此外，一些语言模型或大型语言模型（LLM）也可以作为评估指标 ，通过适当的相似度计算或提示，衡量模型预测与参考答案之间的相似性，例如BERTScore [94]、GPT-3.5 Score [93]、LLaMA Score [2]等。++（这些评价指标的局限性以及利用大模型做评测）++

D. 语言引导导航

任务描述。 在自动驾驶中，语言引导导航（Language-Guided Navigation）通常指的是车辆根据语言指令制定合理计划 并到达指定地点的任务。由于户外场景的复杂性、变化性和不确定性，该任务比室内环境中的语言引导导航任务更具挑战性。它通常涉及语言引导的定位和路径规划，理解说明中指定的目标位置是成功导航的前提。因此，现有工作常利用VTM型VLM的优势，在地图中地标中寻找对应的目标位置。++（什么是Language-Guided Navigation）++

未提及如何指定合理计划并达到指定地方，事实上这里应当需要一个执行模块，通常是一个Transformer模块。这实际上超过了VLM的功能。

评估指标。 语言引导导航系统通常关注评估过程中的以下方面：成功完成导航任务的能力、基于给定语言提示的目标定位准确性，以及目标位置与最终到达之间的偏差。任务完成度（TC）是一种衡量导航任务完成率的指标，其中到达目标位置或其在环境中的邻近节点可被视为成功的导航。关于定位准确度的测量，一些研究[83]使用Recall@K作为度量，计算地面真实位置的K个最近地标与预测之间的相似度。为了评估最终到达位置与目标位置之间的偏差，可以使用最短路径距离（SPD）或绝对位置误差（APE）等指标来衡量偏差。关于导航过程中的规划性能，一些作品[82]采用了met ric，如Frechet距离（FD）或归一化动态时间扭曲（nDTW）进行评估。++（TC、Recall@K、SPD、APE、FD等等评价指标）++

E. 条件自主驾驶数据生成

任务描述。 条件自动驾驶数据生成，也称为可控自动驾驶数据生成，允许针对性地获取逼真的合成数据。这增强了训练数据的多样性，从而能够有针对性地扩充自动驾驶系统的数据库。可控数据生成模型通常结合单一或多种条件，例如文本提示、鸟瞰图（BEV）掩码或草图、特定动作状态、边界框位置或高清地图。生成的数据可以分为单视角或多视角场景，包括图像和视频 。++（什么是条件自主驾驶数据生成）++

数据生成难道不应该是扩散模型Diffusion Model的工作吗，VLM的生成对象一定不可能是图像和视频。

**评估指标。**条件自动驾驶数据生成采用与文本到图像和文本到视频任务相同的评估指标。两个常用的指标是Fréchet Inception距离（FID）[95]，也称为Wasserstein-2距离，以及Fréchet视频距离（FVD）[96]。如公式5所示，(µx, Σx) 和 (µg, Σg) 分别表示从生成的合成图像和真实图像中提取的图像特征的高斯分布。在FVD中，输入被替换为从预训练视频骨干网络获得的特征分布。FID和FVD数值越低，表示生成数据与真实数据的分布差异越小，图像或视频的质量越高。表II总结了近年来在条件自动驾驶数据生成中使用FID和FVD指标的研究表现。

除了 FID 和 FVD，BEVControl [97] 还引入了 CLIP 分数作为评估多视图图像生成的额外指标。CLIP 分数衡量生成的多张街景图像的视觉一致性。对于基于 nuScenes 数据集的工作，还可以使用诸如 mAP、NDS 和 mAOE 等指标来分析前景物体条件的有效性。这些指标更直观地反映了模型在自动驾驶场景条件数据生成任务中的条件遵从性。++（FID、FVD、mAP、NDS 和 mAOE 等评价指标）++

四、主流方法与技术

越来越多的项目正在努力将 VLM 应用于自动驾驶（AD）的各个方面。本节总结了针对第三节中提到的主要任务的方法和技术。我们介绍了 VLM 在自动驾驶中的现有研究，包括感知与理解（IV-A）、导航与规划（IV-B）、决策与控制（IV-C）、端到端自动驾驶（IV-D）以及数据生成（IV-E）。总结的当前方法如表 I 所示。++（本章节的主要内容）++

自动驾驶任务中大语言模型（LLMs）和视觉语言模型（VLMs）概述：

PD：行人检测

OR：单目标指代

MOR-T：多目标指代与跟踪

OV-3DSS：开放词汇3D语义分割

OV-3DOD-T：开放词汇3D对象检测与跟踪

LGR：语言引导检索

IC：图像字幕生成

AR：异常识别

VQA：视觉问答

3D-G-C：3D定位与字幕生成

LGN：语言引导导航

MP：运动规划

TP：轨迹预测

OL-DM：开放回路决策

CL-DM：闭环决策

OL-C：开放回路控制

OL-P：开放回路规划

CVG：条件视频生成

CIG：条件图像生成

类型：

V2T：视觉到文本

VTM：视觉文本匹配

VTF：视觉文本融合

M2T：多模态到文本

LLM：大语言模型++（图注）++

A. 感知与理解

在自动驾驶感知模块中，大型视觉语言模型，尤其是那些在大规模数据集上预训练并采用图像-文本匹配方法的模型，如[84]、[100]，促成了众多新研究。这些研究[75]、[78]利用预训练大型VLM的丰富先验知识，提升了感知和理解的表现，并进一步引入了许多新颖任务。++（自动驾驶感知模块的VLM）++

物品指称。 正如第三节-A节所述，与传统的感知任务（如对象检测、追踪和语义分割）相比，语言的引入使模型能够获得更细粒度、更全面且不受限制的理解环境的能力。 对象指称通过基于语言查询的框或掩码对描述对象进行本地化。MSSG [71] 提出了在自动驾驶场景下进行多模态三维单对象指涉（SOR）任务的方案。它通过融合图像、激光雷达和语言特征，在鸟瞰视图（BEV）下训练多模态单次接地模型，并直接从探测器预测目标区域，无需后期处理。TransRMOT [76] 从 SOR 任务扩展到多对象指涉与跟踪（MOR-T），并基于 KITTI 数据集构建 Refer-KITTI 基准测试。给定一个语言查询，TransRMOT可以检测并跟踪视频中任意数量的指涉对象。同样，PromptTrack [77] 为 nuScenes 数据集提出了语言提示集，并构建了 NuPrompt 基准测试。与 ReferKITTI 相比，NuPrompt 继承了 nuScenes 的多视图属性，使其适用于多视图的 MOR-T 任务。++（三个案例）++

开放词汇三维对象检测与语义分离思维。 根据第三章B节的定义，开放词汇感知是一项具有挑战性的任务，旨在通过特定类别识别没见过的的物体 。由于大型VLM具备强大的零样本传输和跨模态映射能力，对象检测和语义分割具备对未见样本进行开放词汇检测和分割的能力。OpenScene [78] UTI 实现了二维-三维射影对应，以强制三维点云嵌入与相应融合二维图像特征之间的一致性。本质上，它将三维点云表示与CLIP的图像-文本表示对齐，以获得对密集三维点特征的零采样理解能力。OpenScene 主要在室内场景中评估，同时也在 nuScenes 上展示了令人满意的开放词汇三维语义分割（OV-3DSS）能力。同样，CLIP2Scene [79] 探讨了如何利用 CLIP 辅助自动驾驶中的三维场景理解。通过寻找像素文本映射与像素点映射之间的模态联系，CLIP2Scene分别构建点-文本对和像素-点-文本对，用于对比学习的训练。其目标还在于确保三维点特性及其对应语言实现语义一致性，从而促进OV-3DSS。实验表明，使用CLIP2Scene作为预训练方法的表现远超其他自监督方法。++（几个案例）++

UP-VL 框架[80]首先提出了一个无监督的多模态自动标记流水线，用于生成点级特征和对象级边界框及轨迹，用于开放词汇类无关的3D检测器监督，进一步用于推断时提出3D边界框。结合通过相似匹配分配的语义标签，UP-VL框架实现了静态和移动流量参与者在AD场景中的无监督开放词汇三维检测与跟踪（OV-3DOD-T）。++（一个自动标记流水线）++

语言引导检索（ Language-Guided Retrieval**）。** 语言引导对象和场景检索是自动驾驶中广泛应用的任务，可用于数据选择、角落格检索等。Zelda [81] 利用了视频检索（VR）VLMs的语义相似性能力，并测试其在交通场景中的表现，实现了超越其他最先进视频分析系统的性能。BEV-CLIP [101] 提出了一种文本转鸟瞰图（BEV）检索方法，利用文本描述检索具有 BEV 特征的对应场景 。它将LLM作为文本编码器，以推广其零样本推理能力。AI城市挑战赛[126][127]一直作为挑战赛道举办"自然语言描述追踪车辆检索 "。作为这一集体努力的一部分，[102] 提出了一种基于自然语言载体检索的多粒度检索方法。关键概念是基于语言增强的多查询检索模块。该模块的理念是利用多种不完美的语言描述，以实现更高的鲁棒性和准确性。[103] 提出了一种有趣的方法，用于解决车辆回收的分布外输入数据。这项工作的主要贡献是提出了领域自适应训练方法，通过生成伪标签将知识从有标注的数据转移到未见过的数据上。MLVR [104] 提出了一种多模态语言载具检索框架，利用文本和图像提取器进行特征编码，随后通过视频识别模块生成视频向量序列。通过集成结合多种车辆特性的模块，MLVR创建了更具信息量的车辆向量以实现匹配控制，并实现语言引导检索。

Language-Guided Retrieval（语言引导检索）是一种利用自然语言描述作为查询条件，从大规模数据集中检索相关信息的技术。其核心是通过语言模型理解用户输入的文本意图，并匹配最相关的数据（如图像、视频、文本或其他模态内容）。

++驾驶场景理解。++ 精确且高层次的驾驶理解对于确保全自动驾驶的安全性以及为合理决策建立基础至关重要。在图7中，我们展示了GPT-4V在交通事故场景和存在潜在风险的城市道路场景中的理解能力示例。有几项探索性工作利用视觉语言模型（VLMs）通过特定下游任务来理解交通场景。[70] 试图通过图像描述（Image Captioning, IC）理解交通场景。自动驾驶中异常场景的识别也十分重要。AnomalyCLIP [105] 使用CLIP模型进行视频异常检测。通过指定异常类别并使用上下文优化［128］，它能够区分正常与异常样本，使模型能够识别异常实例。AnomalyCLIP 在包括交通场景异常检测在内的各种数据集上取得了良好成绩。[106] 将视觉信息转化为语言描述，然后利用大语言模型（LLMs）强大的推理能力来解决语义异常检测（Semantic Anomaly Detection, SAD）。

++视觉场景推理。++ 另一个新兴领域是交通视觉场景事件理解，这通常形成视觉问答（VQA）任务，如第 III-C 节所介绍。为了创建公平的评估和比较，NuScenes-QA [64] 基于 nuScenes 数据集提出了一个问答集，并为自动驾驶场景中的 VQA 任务建立了基准，为后续研究提供了基础。++（基于nuScenes数据集的问答集）++

同样，NuScenes-MQA [107] 提出了一个标记化问答（Markup-QA ）数据集，其中问答被包含在标记中，该数据集也基于 nuScenes 数据集。Talk2BEV [66] 使用基于 BEV 的检测模型、密集描述模型和文本识别模型来构建带有语言增强的 BEV 地图的真值，并基于 VQA 任务评估模型在视觉和空间理解方面的性能。LiDAR-LLM [87] 提出了一种将原始 LiDAR 数据作为输入的 LLM，能够执行多种 3D 理解任务，包括 3D 描述、3D 定位和 3D VQA。通过所提出的视图感知 Transformer，LiDAR-LLM 自适应地将 LiDAR 信息作为 LLM 的输入特征，并与输入提示一起生成响应。Reason2Drive [93] 提出了一个用于复杂驾驶环境可解释推理的基准。它将复杂决策过程分为感知、预测和推理步骤，并从 nuScenes [88]、Waymo [129] 和 ONCE [130] 收集问答对。它还提出了一个利用对象级信息作为基线的框架。[131] 在 BDD100K [132] 的基础上专门评估了道路标志和交通信号存在问题的 VQA 性能。++（几个用问答数据集进行训练的案例）++

在交通领域，[108] 提出了一种弱监督的交通领域视频问答自动描述方法 。其核心贡献是使用自动生成的合成字幕用于在线可用的城市交通视频。然后，将这些自动生成的视频-字幕对用于微调，从而向训练模型注入额外的交通领域知识。[109] 提出了一种跨模态问题推理框架，以识别事件级问题推理的时间因果上下文。一个基于注意力的模块使得学习时间因果场景和问题对成为可能。[110] 引入了 Tem-Adapter，通过学习时间依赖来最小化图像和视频领域在时间方面的差距。它在交通视频问答任务中表现出色。++（一种++++弱监督的交通领域视频问答自动描述方法）++

行人检测。 与人类相似的物体混淆和边界样本不足是行人检测的固有挑战，而基于 VTM 的 VLM 可以生成免费的且低成本的伪标签，可用于缓解这些挑战。为此，VLPD [74] 首次提出了一种无需额外标注的视觉-语言方法，以增强模型区分易混淆的人类类物体的能力。它使用 CLIP 获取像素级明确的语义上下文，并通过对比学习从其他类别特征中区分行人特征，从而改善在更广泛场景下的检测能力。UMPD [75] 还利用 CLIP 的零样本语义类别，并提出了一种完全无监督的多视角行人检测方法，无需人工标注。++（将重要的行人检测任务单独放出）++

我们注意到，上述工作，包括目标指代、开放词汇检测、分割与跟踪、语言引导检索、驾驶场景理解以及自动驾驶中的视觉场景推理，仍处于早期阶段。尽管如此，我们相信这些方向具有很大潜力，并预计未来会涌现越来越多有趣的工作。++（局限性）++

B. 导航与规划

在导航领域，随着大规模视觉语言模型（VLMs）的发展，尤其是CLIP [84] 的提出，语言引导导航（LGN）任务开始从特定的预定义位置描述扩展到自由和任意的指令，这也促进了语言增强地图 [83] 的发展。++（描述扩展到自由和任意的指令）++

语言引导导航。 如第三至D节所述，语言引导航空任务的开发极大受益于VTM类型VLM的跨模态对齐。Talk to the Vehicle[72]提出了一种航路点生成器网络 （WGN），将语义占用和预定义自然语言编码（NLE）映射到本地航点。规划模块随后利用局部路径点预测执行轨迹。《Ground Then Navie》[82] 在 CLIP 的帮助下解决语言引导导航任务。它提出了一个流水线，输入视频帧、历史轨迹上下文和语言命令，输出预测的导航掩码以及每个时间戳的轨迹 。ALT-Pilot [83] 通过引入语言标志，包括街道标志、交通信号灯及其他显著环境特征，增强了 OpenStreetMap（OSM）道路网络，这些特征有助于定位，以替代传统内存并计算昂贵的高清激光雷达（HD LiDAR 地图）。ALT-Pilot还利用CLIP预先计算每个地标的特征描述符，并利用推断时的余弦相似度与像素级视觉描述符匹配，这有助于从语言导航指令到地图位置的对应，从而辅助多模态定位和导航。++（几个语言引导导航的案例）++

预测与规划。 一些工作也开始探索如何利用大型语言模型提升运动规划和轨迹预测的性能。GPT-driver [112] 将运动规划重新表述为一种语言建模问题，并将 GPT-3.5 模型转变为自动驾驶的运动规划器，充分利用其强大的推理和泛化能力。CoverNet-T [73] 提议通过基于文本的场景描述和光栅化场景图像训练联合编码器，用于轨迹预测。它表明基于文本的场景表示与图像编码有互补优势，联合编码器表现优于单个编码器。DriveVLM [113] 引入了基于 Qwen-VL [13] 的场景理解与规划流程，采用思维链（CoT） 推理。它将规划任务划分为场景描述、场景分析和层级规划，并逐步计算规划结果。为缓解大型VLM的空间推理和计算限制，提出整合传统自动驾驶模块，包括三维感知、运动预测和轨迹规划，并构建了一个混合系统。++（几个运动轨迹预测与规划的案例）++

C. 决策与控制

在自动驾驶的决策和控制领域，一些研究试图利用大语言模型（LLMs） 强大的常识理解和推理能力来辅助驾驶员 [114] [116]，甚至模拟和完全替代驾驶员 [65] [115] [118]--[120]。++（辅助、替代）++ 在考虑将 LLMs 应用于自动驾驶的闭环控制时，大多数研究 [65] [116] [119] [120] 引入了额外的记忆模块，用于记录驾驶场景、经验以及其他重要的驾驶信息。++（额外的记忆模块）++

决策。 LanguageMPC [115] 使用大语言模型（LLMs）作为决策组件，以解决需要人类常识理解的复杂自动驾驶场景。Drive as You Speak [116] 提出了一种将大语言模型整合到自动驾驶中并相应协调其他模块的框架。驾驶员可以通过大语言模型直接与车辆进行沟通。该框架包括一个记忆模块，用于将过去的驾驶场景经验保存在向量数据库中，其中包括决策线索、推理过程及其他有价值的信息。随后，大语言模型基于获得的经验和常识进行决策 。DiLU [119] 研究了人类驾驶员的驾驶方式，并提出了一种使用推理、记忆和反思模块来促进大语言模型与环境互动的范式。这种方法将人类驾驶员的知识驱动能力嵌入到自动驾驶系统中。++（两个大语言模型进行决策的案例）++

BEVGPT [117] 提出了一个框架，整合多个自动驾驶任务，涵盖驾驶场景预测、决策和运动规划，使用单一大语言模型，以 BEV 表示为统一输入。DwLLMs [118] 将流量参与者和环境编码为对象级向量。它引入了一种新的范式，采用两阶段的预训练和微调方法，使模型能够理解驾驶场景并生成驾驶动作。SurrealDriver [120] 提出了基于 CARLA 模拟器中大型语言模型（LLM）的类人 AD 框架。通过记忆和安全机制，LLMs能够实现情境理解、决策和动作生成。它还学习人类驾驶员的驾驶习惯，并在闭环中不断优化驾驶技能。DLaH [65] 引入了推理、解释和内存模块，构建基于 GPT-3.5 [6] 和 LLaMA-Adapter v2 [133] 的 AD 系统。它展示了在场景理解和解决仿真中长尾问题方面的强大能力。++（一些改进、微调的方法）++

尽管现有的大多数自动驾驶（AD）中的控制和决策工作完全依赖于大语言模型（LLMs），它们仍然可以轻松地通过视觉-LLMs连接器[133]--[136]与感知模块相连接，从而实现中间到中间或端到端的自动驾驶。此外，为AD系统设计合适的视觉-LLMs连接器是一个很有前景的方向。我们鼓励在这一领域进行探索，并相信在不久的将来，这一领域将会出现大量相关工作。++（存在的一些问题和有前景认可）++

D. 端到端自主驾驶

根据文献 [14] 的定义，端到端自动驾驶系统是一个完全可微的程序 ，它以原始传感器数据为输入，输出规划和/或低级控制动作 ，这与 VLMs 中 M2T 模型的结构高度契合。由于这种自然的协同效应，一些研究探索了将 M2T VLM 模型应用于端到端自动驾驶的可行性，如图 4 所示。与传统的端到端自动驾驶系统相比，基于大型 VLMs 的端到端自动驾驶系统具有强大的可解释性、可信性以及复杂场景理解能力，为端到端自动驾驶的实际应用和实施铺平了道路。++（什么是端到端，端到端的优势）++

DriveGPT4 [63] 是利用大型VLM进行端到端AD任务的开创性工作，它将原始传感器数据和人类问题作为输入输出，预测控制信号及相应答案。它保留了大型语言模型（LLM）强大的零发子弹生成能力，并能处理未见的场景。ADAPT [69] 提出了基于变压器模型的端到端 AD 流水线。通过视频输入，ADAPT持续输出控制信号、旁白和推理动作描述。与 DriveGPT4 不同，ADAPT 不集成 VQA 模块，而是将可解释的端对端 AD 转换为视觉字幕任务。DriveMLM [121] 引入了一个基于LLM的AD框架，可以即插即用地集成现有的闭环驾驶系统。模型输入驾驶规则、用户指令以及摄像头或激光雷达信息，生成控制信号及相应说明。DriveMLM在Town05Long基准测试中显示了其在闭环驾驶中的有效性[137]。VLP [122] 提出了一个利用大型语言模型（LLM）实现端到端自动驾驶的愿景语言规划框架。该框架将本地和全局上下文特征融入LLMs，采用以代理为中心和自动驾驶汽车为中心的学习范式。借助LLM强大的零射泛化能力，VLP在新城市环境中展现出更高的性能。++（几种使用VLM进行端到端自动驾驶任务的案例）++

端到端学习指的是模型直接从原始数据输入到最终输出结果，无需人工设计中间特征或模块；而视觉语言模型（VLA）是一种特定的端到端多模态架构，专注于融合视觉与语言信息。两者的核心区别在于：端到端是通用的训练范式，强调数据到结果的直接映射；VLA则是该范式在视觉-语言任务中的具体实现，需同时处理图像与文本的联合表征。

需要论述清楚VLA和端到端的关系。

M2T 型 VLM 与端到端自动驾驶系统的自然契合推动了该领域许多先驱性研究，并展示了其可行性和优势。然而，由于自回归大规模 VLM 和 LLM 的固有限制，仍有许多问题需要考虑和解决，更多讨论可见第七节。

E. 数据生成

如第III-E节所述，条件自动驾驶数据生成任务显著受益于生成网络的进展和成功 [138] [144]。在自动驾驶中应用条件生成模型可以生成大规模高质量数据，从而促进数据驱动的自动驾驶发展。表II对当前主流方法进行了比较，并展示了该领域的性能。图8展示了以不同布局和文本为条件生成的多视角帧示例。++（数据生成的意义）++

图8. DrivingDiffusion [124] 基于布局和文本控制的条件多视角视频生成示例结果。

表2：现有条件自动驾驶数据生成模型在NuScenes验证数据集上的性能比较。多视角和多帧表示生成的视觉数据类型。++（当时比较少，现在应该比较多了）++

DriveGAN [123] 学习驾驶视频序列及其对应的控制信号。它通过将场景组件解耦为依赖动作和非依赖动作的特征，能够控制生成视频中的车辆行为。这种能力使得高保真、可控的神经模拟和自动驾驶数据生成成为可能。BEVControl [97] 以草图风格的鸟瞰视图（BEV）布局和文本提示作为输入，生成街景多视图图像。它引入了控制器和协调器元素，以确保草图与输出之间的几何一致性，并增强多视图图像之间的外观一致性。这种方法便于基于 BEV 草图进行可控的自动驾驶场景样本生成。DrivingDiffusion [124] 基于潜在扩散模型（LDM）[145] 和去噪扩散概率模型（DDPM）[146]，在给定 3D 布局和文本提示的情况下生成可控的多视图视频。为了确保跨视角和跨帧的一致性，引入了一致性注意机制和几何约束，以提升生成数据的性能。++（举例了几种数据生成的模型）++

世界模型。 一些工作将世界模型的概念[148]引入自动驾驶数据生成，以实现更合理、可预测和结构化的环境模拟。Drive Dreamer [68] 是自动驾驶领域的开创性世界模型，它完全从真实驾驶场景中学习，训练分为两个阶段。第一阶段，它通过真实驾驶视频理解和建模驾驶场景，获得结构化的环境信息。在第二阶段，它通过视频预测任务构建驾驶世界模型，从而具备预测未来事件并与环境交互的能力。DriveDreamer 能生成真实且可控的驾驶场景，可用于自动驾驶模型训练。GAIA-1 [67] 以视频、动作和文本描述为输入，利用世界模型的强大能力学习结构化表示并理解环境，将输入编码成一系列的标记，然后采用去噪视频扩散模型作为视频解码器，实现高度真实的视频生成。ADriver-I [125] 引入交错的视觉-动作对以融合视觉和控制信号。它使用历史视觉-动作对和当前图像来预测当前帧的控制信号，然后以自回归方式生成下一帧图像。++（举例了几种最新的世界模型的应用）++

五、数据集

开源数据集在推动和加速自动驾驶领域的发展中起着基础性作用。除了传统的基于视觉的数据集，将语言模态整合到数据中为驾驶系统提供了优势。本节展示并分析了自动驾驶的基础数据集（V-A）以及在自动驾驶系统中整合语言的数据集。数据集概览见表 III。++（数据集汇总）++

表 III 数据集概览。SS：语义分割 OT：目标跟踪 ReID：重识别 MP：运动规划 AE：动作解释 VSR：视觉空间推理 VLN：视觉语言导航 H2V-Advice：人对车辆建议 SOR：单目标指认 VR：车辆检索 VQA：视觉问答 DM：决策 IC：图像描述 IR：重要性排序++（表注）++

A. 自动驾驶数据集

在自动驾驶领域，数据集是开发安全高效的感知、预测和规划系统的关键因素之一。**[164]**提供了对++265个自动驾驶数据集的详尽研究++。

主流自动驾驶数据集如KITTI [62]、nuScenes [88]、BDD100K [132]、ONCE [130] 和Waymo [129]涵盖了多种任务，如物体检测、跟踪和分割，数据模式多样。Cityscapes [150] 提供了精确的注释图像数据，用于对象分析和语义分割。与多功能数据集相比，Caltech Pedestrian Detection [149] 提供带注释的图像，用于城市交通场景中的行人检测。与此同时，作为[150]的一个子集，CityPersons专注于基于图像的行人检测，涵盖不同城市环境。其他任务特定数据集，如SemanticKITTI [152]，则提供带标签的LiDAR点云用于语义分割。One thousand and one hours[154]记录了1118小时的自动驾驶感知数据，为运动规划任务提供了轨迹注释。CityFlow [153] 提供的数据可用于解决物体跟踪和重新识别问题。TUMTraf路边基础设施数据集[21]、[99]、[165]、[166]提供了许多真实的边缘场景，如事故、险些发生事故和交通违规，为改进自动驾驶感知系统提供了宝贵资源。++（几个主流、关键的主流自动驾驶数据集）++

B. 语言增强的AD数据集

自然语言的引入帮助自动驾驶系统解读人类问题和指令，实现高层次的人机交互。随着自动驾驶的发展，将语言信息与 visual 数据结合，丰富了语义和语境理解。通过更好地识别交通环境并促进对驾驶场景的更深入理解，自然语言辅助提升了自动驾驶车辆的安全性和交互能力。

之前的工作[156]为增强自动载具感知系统能力提供了潜在机会，通过将语言理解引入探测器。对于对象跟踪任务，CityFlow-NL [161]、Refer-KITTI [76]和NuPrompt [77]分别扩展[153] [62][88]以语言提示。TOUCHDOWN [157]、LCSD[111]和CARLA-NAV[82]生成语言引导导航数据集。Talk2Car[159]被提议用于单一交通对象引用任务。安全的自动驾驶需要可靠的现场理解。[64] [118] [162] [107] [93] 通过提供问答对来评估自动驾驶系统的理解和推理能力。Talk2BEV [66] 侧重于视觉空间推理（VSR）。除了图像和视频数据，Rank2Tell [163] 还考虑了 LiDARpointclouds，以考虑多模态重要性排名和推理。BDD-X[155] 和 BDD-OIA[160] 提供了文本解释，以提升 AD算法的可解释性。HAD[158] 提出了一个人车建议数据集，用于开发可建议的自动驾驶模型。++（一些核心关键的语言增强的自动驾驶数据集）++

图9 表 III 提供了自动驾驶语言增强数据集分布的统计概览。视觉问答类型所占比例最高。

六、讨论

基于上述的分类、分析和现有研究的总结，在本节中，我们将深入讨论将视觉语言模型应用于自动驾驶的益处、优势以及几个值得注意的新兴话题，包括大型视觉语言模型在自动驾驶中的优势、自动驾驶基础模型、多模态适配以及公共数据的可用性和格式化。++（本章节内容概要）++

大型视觉语言模型在自动驾驶中的优势。自动驾驶长期以来面临一系列挑战，包括动作可解释性、高层决策、向复杂和极端场景的泛化能力，以及人车交互问题。大型语言模型和大型视觉语言模型的出现，为解决这些问题提供了新的潜在方案。特别是大型视觉语言模型为自动驾驶带来了全面的益处，增强并扩展了经典自动驾驶模块的能力，如感知、导航、规划和控制，同时也为端到端自动驾驶范式提供了新的视角。++（一系列挑战和一系列方案）++

具体来说，正如IV-A 所述，大型VLM利用出色的zero-shot泛化能力，增强对角落和未知物体的识别能力。通过利用场景信息与文本信息的深度融合，大型VLM提供了关于驾驶相关场景的合理开放式质检，促进了可解释的自动驾驶和人类车辆交互。此外，如IV-B和IV-D 节所述，大型VLM促进语言引导的定位、导航和规划任务的执行，具备跨模态特征的对齐和深入指令理解的能力。其高级推理能力，加上对常识和交通规则的理解，使得能够根据IV-C 节执行高级决策和控制任务。最后，如IV-E 节所述，大型VLM通过全面隐式环境建模，促进生成真实、可控、高质量的合成自动驾驶数据。总之，大型VLM为自动驾驶带来了新的视角和机遇。现有研究已在多个方面进行了可行性验证，许多领域值得进一步探讨。++（总结了之前所提到的问题和局限）++

**自动驾驶基础模型。**现有的基础模型------包括视觉基础模型[167]--[169]、语言基础模型[2]--[4]以及多模态基础模型[7]--[9]------为自动驾驶基础模型（ADFMs）的可行性奠定了基础。我们将ADFM建模为在庞大且多样化数据集上预训练的模型，擅长可解释性、推理、预测和内省，并在感知、理解、规划、控制和决策等多种自动驾驶任务中表现卓越。一些研究已做出初步尝试[63][67][112][115]，而如何将现有基础模型适应ADFMs，并使自动驾驶的目标性保持一致，仍是一个相对未知的领域。

多模态适配。 如 IV-C 所述，目前利用大语言模型（LLM）进行运动规划、控制和决策的方式，通常直接将传感器数据转化为文本形式，要么通过现有的感知算法，要么直接从模拟器中提取。虽然这种模块化方法简化了实验，但可能导致上下文和环境信息的丢失，并且高度依赖感知算法的性能。鉴于此，探索通过 VTM 或 VTF，或两者的混合方式建立视觉-语言连接，特别是在自动驾驶场景中，作为简单人工重构的替代方案，是一个值得研究的方向。一些可用的模态连接器，如 LLAMA-Adapter [133], [134] 和 Q-Former [170]，可以作为初步尝试。++（即现在所说的MLLM）++

**公共数据可用性与格式。**尽管已有许多现成的大规模自动驾驶数据集[88][129]，如第五节所述，它们并不适合或最优地直接适配自动算法中的大型语言模型。例如，如何生成指令调优数据集并基于AD数据集设计用于ADFM适配的指令格式，目前研究仍然很少。此外，大规模的图像-文本流量特定配对数据集对开发也极大助益于AD，尤其是依赖VTM预训练模型的对象检测、语义分割、语言引导导航和语言引导检索的方法。

**配合VLM的协作驾驶系统。**最新研究[171]--[173]展示了协同驾驶系统（CDS）作为下一代自动驾驶车辆前景的优势和前景。合作驾驶系统通过车辆间（V2V）[174]、[175]或车辆与智能基础设施（V2I）[？]通信共享信息，以扩大感知距离、警示潜在危险并优化交通流。如第四至D节所述，M2T型VLM是端到端自动驾驶的天然匹配，车辆随后作为智能自动驾驶代理。在这种情况下，CDS可以被视为基于VLM的协作多智能体系统。

将大型VLM集成到CDS中，在协作感知、协作决策和用户体验方面带来了好处。凭借大型VLM的零单样交通环境感知和理解能力，CDS能够识别开放词汇、未见物体并理解新颖的角形情况，进一步增强了协作感知能力。此外，CDS还能利用大型VLM的高水平推理能力，实现多车协作规划和决策。通过与其他车辆和基础设施通信 ，所有基于VLM的智能车辆理论上都能实现更好的规划方案。此外，借助大型VLM在可解释性和人车交互方面的优势，利用大型VLM在CDS中也提升了用户的出行体验。乘客能够更直观、更清晰地理解其他车辆的行为以及周围交通环境。++（智能VLM提升协作感知决策与用户体验）++

七、挑战

尽管大型视觉模型为自动驾驶带来了许多好处，并且有潜力缓解当前的问题，但在将这项技术有效应用于实际自动驾驶系统时仍然存在一些挑战。在本节中，我们概述了仍然存在的及未来可能的挑战，提出了一些可行的解决方案，并为进一步研究提供了见解。

**计算需求和部署延迟。**实时处理和有限的计算资源对自动驾驶中车载模型的部署构成了重大挑战[176]。当前大型VLM通常包含数十亿级参数，使得微调和推理都极其耗费资源，且无法满足实时需求。现有的多种技术可以缓解这些问题。参数高效微调（PEFT）[177]--[179]减少可训练参数数量，同时保持令人满意的模型性能，从而最小化了微调所需的多向导资源消耗。

此外，与通用大型语言模型不同，自动驾驶所需的知识通常是专业化且领域特定的，且LLM中包含的许多知识实际上对AD来说是多余的。因此，利用知识蒸馏[180][181]来训练一个更小、更定制的模型，适合自动驾驶，是一种可行的方法。深度学习中其他常见的模型压缩技术，如量化[182][183]和剪枝，也适用于此背景。此外，考虑自动驾驶车辆中VLM的部署架构，以满足计算和延迟需求，以实现实际应用。车载部署受益于低延迟，并通过本地数据存储降低隐私泄露风险，但需要更高的计算能力，且生产、更新和维护成本更高。云部署提供了强大的集中计算能力，但存在延迟、隐私和网络依赖等风险。事实上，在AD中混合部署大型VLM，分别利用车辆端和云端的优势，是一个理想的解决方案。关键的实时决策可以在车辆端部署，而需要更多计算资源和更低速度要求的数据分析和模型更新则可以部署在云端。目前，大型VLM应用于自动驾驶车辆的软件架构和硬件需求仍是开放问题。

**时序场景理解。**在自动驾驶中，场景理解通常需要来自视频的时序信息，以持续感知和理解驾驶环境及交通参与者的动态和因果关系。仅使用图像级视觉语言模型（VLMs）无法满足这一需求。例如，仅凭一张图片无法确定车祸的具体原因，如图7所示。然而，如何处理驾驶场景中的时序传感器数据仍是一个需要探索的问题。基于现有工作，一个可能的方向是训练视频语言模型，例如[63]作为初步尝试，现有的所有视频语言适配器[184][185]在这方面都可能适用。另一种可能的方法是将视频数据转换为图像语言模型[110]可以处理的范式，根据需要整合时序适配层并进行微调，从而增强模型对交通环境中时空信息的理解。

**驾驶安全的伦理与社会关怀。**由于大型语言模型通常预训练了大量未经过滤、低成本的数据，有时会产生有毒、有偏见、有害的内容，可能与人类价值观相冲突。此外，自回归大型语言模型的幻觉现象[186]也对实际应用提出了严峻挑战。这带来了关于模型安全性和可靠性的潜在社会担忧，因此需要进一步调整对齐。因此，在自动驾驶基础模型的开发过程中，控制策略、决策和响应机制与特定标准保持一致，确保保持稳定、安全和稳健的驾驶价值观至关重要。此外，还存在一些伦理问题，如交通事故责任归属，这需要在政策上明确划分。作为实现安全可信驾驶的潜在解决方案，现有的LLM对齐调校技术，如人类反馈强化学习（RLHF）[187]、DPO [188]和监督式对齐调校，可用于将控制行为和策略与可靠的驾驶者对齐。这些技巧在这个领域值得尝试。

**数据隐私与安全。**训练自动驾驶的大型视觉语言模型不仅需要来自互联网的大规模数据，还需要涉及用户信息的一些敏感数据，如用户年龄、驾驶行为、路况等。作为一项数据驱动的技术，这些宝贵数据在实现全自动驾驶的过程中至关重要。然而，如何、在哪里收集、使用和存储这些敏感数据带来了许多担忧，需要进一步讨论。应出台更多监管以保护用户隐私，同时推动该领域的发展。从技术上讲，保护隐私的机器学习[189]、[190]和联邦学习[191]、[192]可以成为缓解这一问题的可能解决方案。此外，大型VLM作为自动驾驶核心决策和规划系统，带来了一系列安全问题。针对车辆系统漏洞的安全攻击或对VLM模型的对抗性攻击[193]可能导致车辆系统作或决策误判。为此，对车辆对抗攻击及大型VLM系统架构安全性的研究至关重要。

八、结论

本调查提供了关于自动驾驶中大型视觉语言模型（VLM）的背景、主流视觉语言任务与指标、当前进展、潜在应用、主要挑战及未来发展方向的全面概述。本文将该领域现有研究按 VLM 的模态类型分类为多模态到文本、多模态到视觉和视觉到文本，并从 VLM 的跨模态连接角度分为视觉-文本融合和视觉-文本匹配。文章对现有 VLM 在自动驾驶各个领域的应用进行了详尽的回顾和分析，包括感知与理解、导航与规划、决策与控制、端到端自动驾驶以及数据生成。本文总结了截至目前该领域可用的重要数据集，并阐释了引入大型 VLM 的优势。基于当前研究，本文阐述了涵盖计算需求与延迟、场景时间理解、驾驶安全中的伦理与社会问题、数据隐私与安全等方面的现有与未来挑战。同时，论文还提出了一些潜在解决方案和未来探索的可能方向。其目的是引起研究界对此领域的兴趣和关注，并促进更有意义的研究探索。