论文阅读13——基于大语言模型和视觉模态融合的可解释端到端自动驾驶框架：DriveLLM-V的设计与应用

原文地址：An explainable end-to-end autonomous driving framework based on large language model and vision modality fusion: design and application of DriveLLM-V - ScienceDirecthttps://www.sciencedirect.com/science/article/pii/S0968090X25003729

论文翻译：

An explainable end-to-end autonomous driving framework based on large language model and vision modality fusion: design and application of DriveLLM-V

基于大语言模型和视觉模态融合的可解释端到端自动驾驶框架：DriveLLM-V的设计与应用

摘要：

随着自动驾驶技术的快速发展，确保其安全性和可解释性已成为一个关键挑战。本研究提出了一种创新的端到端自动驾驶框架DriveLLM-V，该框架集成了前沿的大语言模型（LLM）和视觉模态模型，以增强系统在复杂动态环境中的性能和可解释性。DriveLLM-V引入了基于车辆意图的控制信号（VICS），该框架将传统的控制信号转换为自然语言描述，显著提高了系统的行为可解释性和逻辑推理能力。为了增强视觉感知，该框架采用了外部集成视觉模态模型（EIVM），采用问答驱动的数据生成机制，丰富了数据的语义深度和多样性.实验结果表明，DriveLLM-在控制信号精度和行为逻辑解释方面，DriveLLM-V优于现有最先进的模型。例如，在控制信号生成任务中，DriveLLM-V实现了1.21的平均绝对误差（MAE），比最先进的模型提高了20.4%;在自然语言解释生成方面，它的BLEU评分为28.58，CIDEr评分为98.36，明显优于其他模型。此外，基于调查反馈的用户评价显示，DriveLLM-V在动态避障响应方面表现出色（得分4.56），车辆行为的可预测性和连贯性（得分4.78），以及自然语言解释的清晰度结果还表明，DriveLLM-V在动态场景和自然语言解释方面具有显著优势，该研究的技术创新不仅提高了自动驾驶系统的智能化程度，还为智能交通系统的可持续发展提供了新的见解。DriveLLM-V框架在提高复杂交通环境中的安全性、效率和用户信任方面具有巨大潜力，为智能交通系统的未来发展做出了宝贵的贡献。

1. 引言

自动驾驶技术近年来已成为人工智能和机器人领域的重要研究方向（Chib and Singh，2024; Shan et al，2025; Wang et al，2025）.发展目标是通过感知、决策、控制的有效整合，实现车辆在复杂动态环境中的安全自主导航（Abdel-Aty和Ding，2024; Aledhari et al，2024）.端到端自动驾驶方法作为近年来发展起来的主流技术，由于能够直接从感知数据中生成控制信号，显著提高了自动驾驶的整体性能然而，诸如复杂动态场景中的不确定性和长尾现象以及难以解释驾驶行为逻辑等问题限制了现有系统的实用性和安全性（Ozaibi等人，2024）。再者，自动驾驶技术作为一项新技术，其安全性也随着相关技术的广泛采用而受到质疑，能否解释自动驾驶汽车的行为以增强用户信任成为自动驾驶技术推广和普及的关键问题（Xu et al，2024）.这些问题对驾驶行为的语义建模和多模态信息融合提出了更高的要求，同时也暴露了现有研究在方法设计上的局限性。

为了应对这些挑战，研究人员逐渐探索将多模态学习和大型语言模型（LLM）相结合，以增强自动驾驶系统的智能性和可解释性（Xu et al，2024）.近年来，视觉语言模型（VLM）在语义理解和推理能力方面取得了重大进展（Xing et al，2024）.它们深度整合图像和文本特征的能力为自动驾驶提供了新的可能性，例如，使用多模态大模型，并带有视觉指令，增强了模型在复杂场景下的泛化能力（Alayrac等人，2022; Liu等人，2024;货车等，2024），同时还用语义逻辑生成自然语言描述。这种集成方法不仅有效地提高了场景理解，而且通过生成自然语言解释为驾驶行为的决策逻辑提供支持。然而，但是这些方法的应用仍然面临着很大的局限性，一方面，在动态驾驶环境中，尤其是在复杂场景中，视觉特征提取的准确性和鲁棒性仍然不足，误报和漏报现象比较普遍（Liu et al，2024; Gui et al，2024），导致感知结果不能准确反映真实的驾驶环境。另一方面，现有的自然语言生成方法大多集中于静态场景的语义描述（Min等人，2024; Pan等人，2024），并且它们在动态场景中建模驾驶行为逻辑并将其与控制信号对齐的能力仍然需要改进。

同时，研究人员还将多模态数据生成和扩展机制引入到自动驾驶的端到端学习框架中（Zhao et al，2024; Kim et al，2022）以解决数据稀缺和语义深度有限等问题。一些研究通过使用语义注释和问答对来增强数据集，（Xu等，2024）;为训练多模态模型提供了宝贵的资源。然而，现有数据集的设计往往局限于对象检测和简单的语义描述，难以涵盖驾驶场景中复杂的动态交互和行为逻辑。此外，这些数据集中的控制信号通常表示为低级语义数值，如车速、转向角等，不能直接反映车辆决策背后的动机，这一局限性进一步限制了模型在实际驾驶场景中的泛化能力。

再者，对于端到端的自动驾驶来说，感知数据的处理和分析也需要高效率和高精度，基于深度学习的视觉特征提取方法在效率和精度两方面都有了显著提升，但挑战依然存在（Chib和Singh，2024; Chen等人，常见的视觉识别模型广泛应用于真实的-时间感知任务，由于其有效的特征提取和对象检测能力（Chen等人，2024; Hussain，2023;然而，这些方法在处理复杂场景时仍然遇到某些问题，例如感知结果不准确，感知效率不足以支持自动驾驶所需的速度。

针对这些问题，本文提出了一种可解释的端到端自动驾驶框架DriveLLM-V，该框架将外部视觉模态模型与大型语言模型相结合，引入车辆驱动控制信号，将传统的低层语义控制信号转化为具有逻辑语义的自然语言描述，从而使模型具有更高的可解释性和增强的行为逻辑建模能力，同时改进了基于BDD-X数据集的多模态数据生成机制，通过问答驱动的数据扩充方法，此外，本研究通过引入C3K2S模块，优化了YOLOv11的特征提取结构，显著降低了感知冗余，并将其作为自动驾驶框架下视觉模态数据的增强特征提取方法，提高DriveLLM-V在复杂动态场景下的感知精度和效率。本文的主要贡献如下：

提出了一种新的端到端自动驾驶框架，该框架将外部视觉模态模型与大型语言模型相结合，通过自然语言描述增强了自动驾驶行为的可解释性。
在先前工作的基础上，说明意图或行为层面的行动（例如，行为克隆、分层策略、语义规划器），我们通过将控制信号投射到明确的自然语言"基于车辆意图的控制信号（VICS）"中来扩展这些想法。VICS将加速/减速和转向命令与每个动作的原因一起嵌入到简单的语言中，这种设计显著提高了行为的可解释性，并在保持控制精度的同时促进了人类可读的诊断。
设计了问答驱动的多模态数据生成机制，增强了BDD-X数据集的语义深度和多样性，提高了模型的泛化能力。第四，通过优化视觉感知模块，显著提高了复杂动态环境下感知的效率和准确性。

2. 相关工作

在自动驾驶领域，端到端学习方法由于能够直接连接感知和控制任务，逐渐成为研究热点（Chib和Singh，2024; Tampuu et al，2022）。然而，现有方法在对复杂场景的适应性、行为逻辑建模和可解释性等领域仍面临重大限制。为了解决这些缺点，研究人员探索了多模态学习和LLM的结合（Xu et al，2024）;推动了自动驾驶技术中感知，决策和控制协调的进步。

2.1.障碍感知控制信号和驾驶行为

由于障碍物的隐蔽性和不规则性，自动驾驶汽车导航中的障碍物检测面临着独特的挑战。虽然传感器技术和计算机视觉的进步提高了检测能力，但早期的方法（如使用Kinect等低成本3D传感器）存在局限性，正如Ghani等人（Pan等人，2024）的工作所示，该工作将Kinect数据转换为激光扫描。虽然在一定程度上是有效的，但是Kinect有限的精度和视野限制了其性能。（Zhao等人，2024）框架，其分析视差图像中的深度跳跃和遮挡，但计算密集。（Kim等人，2022）介绍了一种基于RGB-D的语义分割网络，该网络改进了障碍物区分，但难以处理长距离和无纹理表面。

随着自动驾驶研究的发展，出现了更先进的方法。Liu et al（Liu et al，2024）提出了一种基于双激光雷达的地面分割和障碍物检测方法，在野外环境中证明是有效的，但昂贵且复杂。Dib et al的评论（Chen等人，2024）对检测技术进行了分类，包括经典的立体视差方法和LiDAR地面分割（例如，V-Disparity，RANSAC平面拟合）到现代一阶段CNN检测器，如SSD和YOLO-v3，并强调了一些持续的挑战：维持实时吞吐量（每帧< 30 ms），并在剧烈的光照和天气变化下保持适应性，导致域转移。（Hussain，2023）使用基于YOLOv 4的模型提高了复杂道路的检测速度和准确性，而Wang等人（Chen等人，2022）使用基于地形的系统进行映射和聚类来解决正面和负面障碍物。

视觉和雷达数据相结合在负障碍物检测中显示出了希望，提供了可靠性，但雷达数据处理是资源密集型的。因此，主要基于视觉的方法，用最少的雷达数据，在性能和计算效率之间取得了平衡。

障碍物感知只有在调节下游控制时才有价值，因此最近的研究将检测结果输出为结构化的控制友好信号。传统的模块化堆栈将边界框投射到占用网格或成本图上，允许基于优化的规划者将每个障碍物视为高成本单元并相应地调整轨迹（Buerkle等人，2020年）。风险感知变体为每次检测分配威胁评分，并根据该评分对纵向制动/加速曲线进行偏置，当评分较低时产生更平稳的减速，当评分较高时产生紧急制动（Primatesta等人，2019年）。端到端网络隐含了同样的想法：用于检测或分段的辅助损失将以对象为中心的令牌注入到潜在空间中，使得策略头根据这些令牌来调节其转向和节流输出（Huang et al，2021）。多尺度视觉骨干通过融合局部障碍物线索与全局道路环境，使单个模型能够同时处理近场切入和远场车道几何形状，（Sun et al，2022; Ma et al，2021）。总之，这些策略说明了一个清晰的路径-检测→结构→调制-这激发了我们后续架构中采用的更明确的感知-控制耦合。

尽管从Kinect扫描到多尺度CNN探测器和风险感知规划器取得了稳步进展，但感知和控制之间的界面仍然由低级数字信号或手工成本函数主导。当前的管道很少揭示控制命令背后的意图，最近的视觉语言模型产生的文本解释很少基于实际驱动执行器的连续值。此外，平衡实时成本与鲁棒性的多传感器融合仍然以ad-hoc方式进行调整，限制了可再现性和可扩展性。因此，差距在于以基于学习的规划者和人类操作者都能理解的形式嵌入障碍物上下文的统一表示，并且可以以汽车级延迟在线生成。本文剩余部分中介绍的框架通过将以视觉为中心的检测器与语言调节的控制头耦合来解决这一差距，从而在保持实时性能的同时将结构化障碍物信息转换成面向意图的控制信号。

2.2.数据生成和多模式扩展

数据集的多样性和语义深度直接影响多模态学习模型的性能。（Kim等人，2018），nuScenes（Qian et al，2024）等，通常包含多模态信息，包括视频、雷达和控制信号。缺乏对动态场景的行为描述和逻辑建模。例如，BDD-X数据集提供了车辆速度和转向角度的基本控制信号，但这些低层次的语义标签无法支持模型对复杂驾驶场景的深入理解。此外，现有的数据生成方法主要依赖于人工标注，这无法满足动态驾驶环境中对多样性和可扩展性的需求（Liu等人，2019; Gao等人，2018; Parekh等人，2022）。为了提高数据质量，研究人员提出了一系列数据生成和扩展机制，例如Refer-KITTI（Wu et al，2023）通过添加语义注释来提供语言支持，增强了多模态模型，（Deruyttere等人，2019）进一步设计了用于驾驶指令的自然语言任务。然而，由这些方法生成的语义描述通常基于静态对象，并且缺乏用于动态交互行为的多模态注释。另外，在这些数据集中生成的问答对通常是基于模板的，为了解决这些问题，本研究利用基于BDD-X数据集的问答驱动的多模态数据生成机制（Kim et al，2018），结合视觉模型和生成语言模型，扩展动态驾驶场景中数据的语义深度和多样性。

2.3.动态场景中的视觉感知

视觉感知模块是自动驾驶系统的核心组成部分，其性能直接影响环境理解和控制信号的产生，而视觉标定和处理模型在工业生产中应用广泛（Kim等人，2018; Qian等人，2024; Liu et al，2019），现有模型在处理复杂动态场景时仍面临特征提取能力和计算效率的瓶颈。例如，YOLOv 11（Gao et al，2018）在融合多尺度特征时存在冗余计算，导致动态环境中的对象检测精度下降。（Parekh等人，2022）和Faster R-CNN（Zhou等人，2023）具有大的参数大小，这极大地限制了它们在现实世界自动驾驶环境中的处理效率。为了提高视觉感知性能，一些研究已经优化了特征提取结构和融合策略以减少计算冗余。2为了解决这个问题，本文在YOLOv 11模型的基础上提出了一种改进的视觉感知模型，并将其作为增强的视觉模态感知模型集成到自动驾驶架构中，通过优化特征融合结构，该模型在复杂动态场景下的感知精度和实时性得到显著提高。

3. 方法

在自动驾驶领域，传统的端到端学习方法在可解释性和对复杂场景的适应性方面存在局限性。为了解决这一问题，本文提出了DriveLLM-V，这是一个可解释的自动驾驶框架，该框架将外部安装的视觉模态模型与LLM相结合。该框架创新地引入了基于车辆意图的控制信号，该控制信号表示加速度、减速度、以自然语言的形式进行角度控制，增强了数据的逻辑连贯性和语义深度，为驾驶行为的可解释建模提供了新的途径。此外，设计了基于BDD-X数据集的多模态数据生成和扩展机制，通过问答对和可视化模型增强特征提取，丰富了数据多样性，显著提高了模型在复杂场景下的推理能力和可解释性。

3.1.数据准备和预处理

在自动驾驶领域，数据的质量和多样性直接决定了模型的性能天花板，为了实现自动驾驶任务中的多模态理解和推理能力，我们基于BDD-X数据集设计并构建了一个全面的多模态数据生成方案（Kim et al，2018），同时还结合生成模型来扩展和增强数据，支持更高级别的模型训练和微调。

BDD-X数据集作为自动驾驶研究中广泛使用的资源，包含丰富的多模态信息，具体来说，数据集由视频序列和车辆控制信号组成，如速度和转向角度等（Kim et al，2018）。然而，原始数据集有明显的局限性：首先，在现实世界的车辆中，通常使用车辆驱动/制动力来执行控制信号需要计算数据集中提供的速度以实现车辆控制，这失去了数据的直接性和车辆行为背后的特定意图。此外，数据分布相对均匀，缺乏多样性，限制了语言模型在复杂场景下的适应性。因此，基于BDD-X数据集，我们设计了一种新的数据生成和扩展机制。

基于车辆意图的控制信号：在数据生成过程中，我们将速度信号转换为驱动力或制动力（加速或减速）。在该转换过程中，加速或减速的结果被生成为"语言+值"格式的车辆控制信号描述，该车辆控制信号由"加速/减速+转向角"组成，被称为基于车辆意图的控制信号（VICS）。显然，VICS更好地反映了车辆行为背后的原因，更适合智能驾驶模型建立逻辑关系，比如面对前方车辆突然刹车，自动驾驶系统控制车辆减速，在这个过程中，如果直接用车速信号来控制车辆，车辆就需要将车速值转化为制动力，而通过使用VICS，制动力不需要转换就可以直接输出。另外，在端到端自动驾驶模型的训练中使用VICS，可以在模型训练过程中建立更清晰、更直接的逻辑关系，比如"前方有急刹车时，车辆应该刹车"，而不是"前方有急刹车时，车辆应该使用一定的速度"的间接逻辑关系，据我们所知，以前没有研究使用这种类型的VICS来处理具有大型语言模型的数据。

关于基于BDD-X数据集的VICS采集过程：为了将BDD-X提供的逐帧速度值转换为基于车辆意图的控制信号（VICS）的驱动或制动分量，我们采用一阶动态近似。对于时间戳为Δt且速度为vt− 1和vt的两个连续帧，纵向加速度计算为：

将车辆视为质点，净纵向力为：

其中，滚动阻力项为Froll = mgCr，气动阻力项为Fdrag = 1 2 ρ ACdv 2 t。我们采用标准客车平均值（吉莱斯皮2002）：质量m = 1500 kg，滚转系数Cr = 0.015，正面面积A = 2.2 m2，阻力系数Cd = 0.30，空气密度ρ = 1.225 kg· m− 2;重力g = 9.81 m· s− 1。合力由峰值纵向承载力Fmax = 6000 N（0.4 g）标准化，并剪切至[ − 1，1]：

正ut被解释为驱动器/油门，负ut被解释为制动器，并且该值与相应的转向项配对以形成自然语言VICS字符串

虽然简化了，这个预测产生的力量的现实magnesia. Using两个小时的片段，从公开的逗号2 k19驾驶日志，我们应用相同的公式记录的速度跟踪和比较所得的ut与OBD-II油门/刹车踏板的百分比在日志中;它们的归一化均方根误差为0.07，它们的直方图显示出紧密对齐的模式（参见附录B）。该模型忽略了梯度、动力传动系统延迟和致动器非线性，但经验匹配表明其足以用于数据集构建。

**自定义数据集和外部集成视觉模态模型：**BDD-X数据集为每个视频片段提供三种类型的标签：车辆动作描述、动作推理和控制信号。为了训练LLM，使智能驾驶模型具有可解释性，并防止模型过度拟合到特定的问答格式，我们受到以下启发：我们生成三种类型的问题，包括："车辆的当前动作是什么？"、"车辆为什么执行当前动作？"和"下一帧的预测车辆动机控制信号是什么？"。对于每种类型，我们生成一组100个同义问题。在BDD-X数据集的配置过程中，从三个问题集中的每一个中随机选择一个问题，并与数据集中相应的标签组合，形成问答对。

即使使用随机组合的问答对来创建数据集，这些数据仍然由固定和刚性的内容组成，缺乏多样性。这降低了LLM的泛化能力，使其只能响应固定的问题，这极大地限制了LLM模型对驾驶行为的解释能力。ChatGPT 4 o（xxxx）生成的指令调整数据集已经证明在各个领域的性能都有了实质性的改进，包括自然语言处理、图像理解和视频分析（Liu等人，2023）。通过利用特权信息，如图像注释和地面实况边界框，ChatGPT 4 o可以有效地生成详细的对话，描述性叙述和逻辑推理输出。受DriveGPT 4（Xu et al，2024）的启发，我们开发了一个基于BDD-X的定制数据集，并在ChatGPT 4 o的帮助下，图1展示了ChatGPT目前的最新模型。

增强ChatGPT 4o对视觉内容的感知能力（由于ChatGPT 4o对语言内容更敏感，这对于大多数大型语言模型来说都是如此），并且为了提高端到端自动驾驶框架的视觉感知能力，我们开发了一种图像识别模型，该模型针对LLM训练数据集和智能驾驶模型（EIVM）中的外部安装视觉模态量身定制选择的基准型号为YOLOv11。该型号在之前YOLO系列的基础上进行了改进，YOLOv 11的基本结构与前代产品类似，由骨干网络、Neck和探测头（xxxx）组成，为了在保持速度的同时提高性能，最重要的架构变化包括增加了C3 K2模块、SPFF模块和C2 PSA模块。YOLOv 11包含大量卷积运算，现有研究表明卷积神经网络（CNN）在特征提取过程中存在显著的冗余问题（Chen等人，2023）。为了解决这个问题，本研究用SCConv取代了传统的卷积模块（Li等人，2023），它通过利用特征之间的空间和通道冗余来有效地压缩CNN。SCConv包括空间重建单元（SRU）和通道重建单元（CRU）。SRU引入了"分离-重建"策略，量化特征图信息的重要性，将高信息特征图与低信息特征图分离，从而有效减少空间维度上的冗余。另一方面，CRU采用"分裂-变换-重构"方法，其中特征图首先被分割，然后被变换，最后通过融合进行优化以减少通道维度中的冗余。这种设计不仅提高了模型的计算效率，而且保持了特征提取的准确性和鲁棒性。在YOLOv 11 C3 K2结构中，有两个CBS模块。通常，第一个CBS模块用于捕获图像的低层和局部特征。为了有效地保留这些局部特征，本研究保留了第一个模块的标准卷积运算，并将第二个CBS模块替换为SCConv模块。新的结构命名为C3K2S。改进后的模型如图2所示。

由于ChatGPT 4 o已经具备视觉模态感知能力，其图像认知能力仍落后于专门的图像识别模型。为了弥补ChatGPT 4 o在图像认知方面的不足，我们使用上述EIVM来辅助生成针对BDD-X数据集量身定制的自定义数据集。这包括BDD-X数据集和标签，EIVM识别标签，以及多组基于对话的关于自车、交通灯、转向方向、车道变化、周围物体以及物体之间的空间关系的问答对。自定义数据集生成机制的结构如图3所示。

最后，我们收集了55，880个视频-文本指令样本，其中包括15，880个BDD-X问答对和40，000个由ChatGPT 4 o与EIVM生成的问答对。定制数据集的样本如图4所示。

为了使训练集覆盖比原始BDD-X字幕更广泛的语言范围，我们使用ChatGPT-4 o在完全脚本化和可再现的管道中生成额外的问答对。对于每一个三秒的视频剪辑，外部集成视觉模态模型（EIVM）首先生成一个简洁的场景描述，其形式为"正前方有一辆红色SUV; a pedestrian is waiting on the right pavement."这个文本< IMAGE_DESC>被插入到三个提示族中，分别询问（i）自我车辆正在做什么，（ii）它为什么这样做，以及（iii）它将在下一帧中输出哪个基于车辆意图的控制信号（VICS）。因此，典型的复合提示如下：

每个问题的一百多个词汇变体保存在同义词库中;随机抽样三个不同的变体，以便没有剪辑收到相同的措辞。ChatGPT-4 o（2025年6月发布）在temperature = 0.9和top-p = 0.95时被查询，这在经验上平衡了事实基础和词汇多样性。每个返回的三元组都通过两个过滤器：基于规则的过滤器丢弃空的或矛盾的答案，并检查预测的VICS是否包含可解析的对，而多样性过滤器计算每个答案的Dist-2分数，如果分数福尔斯0.40，则请求ChatGPT重新措辞。最终语料库包含55 880个问答样本-15 880个从原始BDD-X字幕转换而来，40 000个由ChatGPT-4 o新生成-平均Dist-2为0.57，而原始数据集为0.21。附录C中逐字复制了六个完整的示例，包括一个边缘案例剪辑，其中一个骑自行车的人突然合并;补充材料还列出了确切的提示模板，以便可以逐字节重复该过程。在附录C的末尾添加了关于偏见的简要说明，承认生成模型可能会引入文化或文体偏好;今后的工作将包括人工审查和对抗性提示，以发现和纠正这种影响。

此外，表1提供了原始BDD-X标题和ChatGPT-4 o管道生成的动态交互注释的并排示例。静态标题通常描述单个对象或操作，而我们的Q&A格式添加了直接原因（例如，一辆正在减速的车辆）和相应的车辆意图-基于控制信号。此插图图3。自定义数据集生成机制结构图。阐明了新数据集如何扩展到对象标签之外，以包括早期文本中未明确的短期交互和控制上下文点，并且评审员要求我们可视化。

3.2.模型微调

DriveLLM-V的多模态输入处理模块是其核心设计之一，能够实现视觉和文本信息的深度融合，确保模型能够有效地处理动态驾驶场景并生成合理的输出。我们选择Llama 3（xxxx）作为LLM的基础模型，整个处理流程主要包括从视频数据中提取特征，使用EIVM增强特征提取，文本输入标记化，以及所有三个组件的统一集成。我们使用单目RGB摄像头作为视觉模态感知模块（更多的数据导致LLM令牌使用呈指数级增长），并将数据以单独的帧和序列的形式提供给DriveLLM-V。DriveLLM-V架构如图5所示。

**从视频输入中提取特征：**为了降低计算复杂度，同时保持视频的时间连续性，首先将视频均匀采样为固定数量的图像帧序列。然后，图像的每一帧都由预训练的CLIP视觉编码器处理，以提取两个关键特征：- 全局特征Fi G，其表示整个图像的语义信息并且包含对场景的整体理解，例如前方是否有障碍物或交通灯的位置。这些全局特征是从CLIP编码器的第一通道中提取的，并表示为Fi G ∈ Rd，其中d是特征维数。局部特征Fi P表示图像的细粒度信息，每帧包含256个块特征，这些块特征是从编码器的剩余通道中提取的，记为Fi G ∈ R256×d和Fi P ∈ R256×d。

为了进一步表示视频的时间和空间信息，这些特征被处理成两种形式：时间特征T：每个帧的全局特征以时间顺序连接以形成时间序列表示：

其中，表示级联操作，用于表示视频中的动态变化

空间特征S：通过池化操作将每帧的全局特征和局部补丁特征压缩成紧凑张量：

池化不仅减少了内存开销，还保留了空间特征的关键细节，例如路标的精确位置。然后，这两个特征被输入到一个专用的投影仪中。这个投影仪是一个可训练的全连接层，它将视觉特征映射到文本域，并将它们与语言数据对齐。

**使用外部集成视觉模态模型增强特征提取：**防止CLIP视觉编码器忽略关键细节和产生知觉错觉（例如，幻觉对象），我们将外部集成视觉模态模型（EIVM）应用于每个输入帧。由于训练语料库本身由相同的模型标记，因此在推理时运行EIVM进一步将视觉证据与语言模型对齐。受益于其C3 K2 S骨干，EIVM在保持准确性的同时保持高速。（i）图像生成注释。对于每一帧，EIVM首先将边界框和简短的注释放置在所有识别的对象上;然后通过CLIP对带注释的帧进行重新编码，我们只保留全局视觉令牌TV。此令牌通过全连接层投影到文本嵌入空间中。（ii）文本特征合成。接下来，我们解析EIVM的检测列表，并根据边界框布局连接空间短语-例如，"左上角有一个红绿灯"，"正前方有一辆车"（见图6）。结果句子，如"正前方有一辆车，右侧有一辆车，右上方有一个标志牌，"被标记化并与电视一起馈送到语言模型，确保视觉和语言流都携带一致的场景信息。

文本输入的标记化：文本输入（例如用户查询）由Llama 3的默认标记器处理，将其转换为离散标记序列。此外，从EIVM的增强特征提取中提取的文本特征也以相同的方式处理，将其转换为离散标记序列。这些标记是文本中单词或子单词的数字表示，与视觉特征共享统一的表示空间。例如，问题"车辆的当前动作是什么？"将被转换为一系列标签：

其中L、ω和ω分别是令牌的数量以及来自输入文本和由EIVM提取的文本特征的标签。

跨模态特征融合层：对于每个小批量的B剪辑，我们统一采样T = 8个RGB帧，并提取三组视觉标签。一个CLIP ViT-B/16编码器提供了一个768-d的全局表示（G ∈ RB×T×768）和256个局部补丁标签（P ∈ RB×T×256×768）;并行地，EIVM每帧检测N ≤ 20个物体，并将每个盒子编码为1024维矢量（D ∈ RB×T×N×1024）。三个共享输出宽度d = 512的可学习线性层将这些张量映射到G，D，P，从而将所有视觉证据投影到一个公共的潜在空间中。

投影的标记被展平，并与Llama-3标记器生成的文本提示标记t连接，得到

融合发生在Llama-3 - 7 B的前两个Transformer区块中。在这些区块中，仅视觉注意力遮罩允许视觉标记相互注意，而文本流仅限于自我注意力;从第三个区块开始，遮罩被释放，从而实现完整的视觉语言交互。形式上，

在T = 8和典型的N = 12次检测时，融合序列包含1002100个标记-仅比纯文本输入长12%-并将端到端推理延迟增加8%（在RTX A6000，FP 16上为19.4 ms → 21.0 ms）。

多模态数据的统一集成和输出解码：视觉数据经过EIVM的特征提取和增强后，与文本标记一起沿着统一集成和连接，然后输入到Llama 3模型中。连接顺序如下：

通过这种集成，该模型能够同时理解视频和文本数据，并生成合理的响应。

DriveLLM-V使用Llama 3的默认标记器将模型生成的数据解码为文本。（加速度/减速度和转向角度）以固定格式嵌入到输出文本中，以便进一步提取。然后通过脚本控制将控制信号文本直接传递到车辆的油门/制动器和方向盘，使得能够直接控制车辆而不需要从速度到油门/制动的转换过程。

4. 模型训练

DriveLLM-V遵循与大多数LLM相似的训练过程，包括两个阶段。首先，预训练阶段用于对齐来自多个模态的数据，以使投影仪能够实现一般训练能力。然后，执行混合微调过程。其中多个模型被联合微调。该阶段涉及对专有数据集的深度学习，以促进从通用功能到领域功能的过渡-特定的适应。

4.1.数据对齐和预训练

DriveLLM-V的预训练阶段采用LLaVA的策略（Liu et al，2023）和Valley（xxxx），利用两个大规模多模态数据集进行模型能力的基础训练。（Xu et al，2024），我们使用CC-3 M数据集（xxxx），它提供了593 K图像-文本对，主要用于学习图像的全局语义特征与其文本描述之间的关联。WebVid-2 M数据集（Bain et al，2022），它提供了703 K视频-文本对，包括时间序列数据，用于增强模型对动态场景的理解。这些数据集涵盖了各种主题，包括日常生活和自然景观，虽然不是专门为自动驾驶场景设计的，但它们提供了足够的多模态基础语义对齐信息。

此外，使用通过标记CC-3 M数据集的593 K图像而形成的数据集来训练EIVM。

在预训练过程中，模型的CLIP编码器和LLM权重是固定的（冻结的），以确保其预训练的高效视觉和语言表示能力不被打乱，模型的优化重点放在投影机上这是一个专门设计的可训练模块，（包括视频的时间和空间特征）到与文本表示兼容的语义空间中。以这种方式，该模型可以有效地将视觉输入与文本输入对齐，从而允许在共享表示空间中进行后续任务微调。

预训练的核心目标是建立模型的通用多模态表示能力，即通过最大化视频与其对应文本之间的语义相似性，同时最小化视频与不相关文本之间的相似性。在优化过程中，通过对比学习损失来强化视频和文本在语义空间的对齐质量，从而为LLM提供多模态感知能力。

4.2.模型架构

在混合微调阶段，DriveLLM-V的LLM和投影仪同步训练，以增强模型对自动驾驶领域知识的理解，同时提高其视觉理解和问答能力。在此阶段，我们使用第3章中建立的包含VICS的增强数据集。特定于领域的数据包括55，880个视频-文本指令样本，专注于自动驾驶场景，如车辆行为描述，交通灯检测和路径规划任务，确保模型能够满足自动驾驶的特定需求。然而，仅仅依靠这个领域的数据进行训练是不够的。由于数据规模小，模型可能会遇到"幻觉问题"，例如错误地检测不存在的车辆或交通灯。为了缓解数据稀缺问题，与DriveGPT 4一致，（Xu et al，2024），我们介绍了LlaVA和Valley提供的223 K通用指令数据，，涵盖了更广泛的视觉理解和问答任务。这不仅增加了数据的多样性，还增强了模型的视觉泛化能力。混合的核心-微调方法是将联合收割机的通用视觉理解数据与特定任务数据相结合，以确保模型能够处理多样化的场景，同时关注特定领域的需求。具体的训练策略采用分阶段微调的方法：第一阶段使用223 K通用数据进行初步微调，扩展模型的通用视觉理解能力;第二阶段使用55，880个特定领域的数据进行微调，使模型能够适应自动驾驶场景中的特定任务要求。

5.实验与讨论

为了验证所提出的DriveLLM-V框架在端到端自动驾驶任务中的性能和可行性，我们设计了一系列实验，旨在从三个方面全面评估模型：视觉感知能力、控制信号产生精度和可解释性。遵循最新技术水平（SOTA）的实验方法和评价标准，实验计划包括EIVM的性能评价，整体模型的定量和定性性能验证以及消融研究。

5.1.外部集成视觉模态模型的性能评价

在我们的研究中，为了评估EIVM的性能，我们将其与Faster R-CNN进行了比较。（Ren等人，2017），SSD（Liu等人，2016），RetinaNet（Lin等人，2020）、YOLOv 8（xxxx）和YOLOv 11（Liu等人，所有模型都是在通过标记来自CC的593 K图像形成的数据集上训练的。3 M数据集，并进行了200次训练，以确保足够的收敛性。

此外，我们首先在CC-3 M（弱标签）上进行大规模的预训练，以热启动检测器，然后在BDD 100 K-Det和nuScenes上进行微调和评估，这两个都带有权威的、经过人工验证的注释。

由于识别任务需要实时反馈，较长的处理时间可能会导致后续操作的延迟，因此本研究引入每秒帧数（FPS）和浮点运算（FLOPs）来综合衡量系统的处理能力，结果如表2所示。

从识别结果可以看出，SSD模型的AP仅为81.10%，明显低于其他模型，这可能是由于SSD的架构相对简单，无法完全捕捉复杂场景中的负面障碍特征。相比之下，本研究提出的模型在精确度，召回率，F1得分，和AP50，分别达到88.99%、89.70%、89.3%和93.31%，这一优势主要得益于YOLOv11及其改进版车型架构的创新和优化。

在动态环境中，实时性能对于确保系统能够快速识别和避开障碍物至关重要。因此，感知速度是一个重要的指标。从表2的数据来看，Faster R-CNN的FPS只有6.7，无法满足本研究的实时识别要求。YOLO系列模型以高速处理能力著称，本研究提出的模型在实时性能方面略优于YOLOv 11，综合考虑各方面因素，我们的模型更适合于本研究，因为它保证了在动态环境中视觉模态数据的高效和准确处理。

虽然CC-3 M标签是嘈杂的，但对500个随机抽样图像的手动审计显示，83%的生成框与Open Images的GT框重叠> 50%;这足以用于表示学习，但不用于最终指标。

为了验证我们的C3 K2 S增强型检测器的性能增益超出了合成CC-3 M标签，我们在两个典型的驾驶场景基准测试中微调了YOLOv 11，YOLOv 8和我们改进的EIVM，并在相同的设置下对其进行了评估（640 × 384输入，冷冻骨架，表3报告了BDD 100 K-检测验证分割的结果（10 000张图像）和表4关于nuScenes前置摄像头验证集（6 096张图像）。在BDD 100 K上，EIVM达到56.3%的mAP@0.5，在保持实时速度（25 FPS）的同时超过香草YOLOv 11 + 2.4 pp。在nuScenes上观察到类似的改进，其中EIVM达到49.4%mAP@0.5，比YOLOv 11 + 1.8 pp，这些结果证实了C3 K2 S引入的架构改进在不牺牲真实车内图像的潜力。

同时，还展示了实验结果的可视化。图7显示了测试图像的检测结果。可以看出，SSD经历了错误识别，将车道障碍物识别为"标志"。同时，Faster R-CNN和SSD方法都错过了检测"汽车"类别。然而，本研究中提出的模型，具有几乎完全覆盖真实的驾驶场景中的对象的检测框，表明该模型在定位精度和检测完整性方面表现出色。

端到端运行时分析。表5报告了RTX A6000上从摄像机曝光到最终VICS字符串的挂钟延迟（batch = 1，FP 16）。流水线包括EIVM推理，CLIP投影，令牌级联，四个Llama-3解码层和后处理。我们的C3 K2 S增强EIVM将平均延迟缩短至41.8 ms，与香草YOLOv 11相比减少9%（46.1 ms）和13%，与YOLOv 8相比第99百分位等待时间同样从52.7 ms下降到47.5 ms，确保99%的帧的处理速度超过50 ms，并且堆栈舒适地维持真实的-这些测量结果表明，架构增益转化为有形的系统级响应能力。

5.2. DriveLLM-V的性能评估

DriveLLM-V除了具备视觉模态数据感知能力外，还需要具备解读驾驶动作和预测下一个控制信号的能力。我们使用本研究第3章的BDD-X数据集进行了评估实验，在去除不相关的内容和图像与控制信号不一致的数据后，同时，在用相同的训练内容训练DriveLLM-V和相关的SOTA模型后，它们被部署在模型汽车上，用于真实世界的驾驶场景验证。

量化绩效评估：我们设置了实验来使用数值指标评估DriveLLM-V框架的整体性能，重点是测量模型在控制信号生成和可解释文本生成任务中的性能。实验设计基于统一的验证环境和数据集，使用BDD-X验证集作为标准输入，以确保与SOTA端到端自动驾驶大型语言模型进行比较（DriveGPT 4（Xu等人，2024）、DriveMLM（Wang等人，2023）、DriveLM（Sima等人，2024）和DriveVLM（Tian等人，2024）。

所有实验均在配备4 × NVIDIA RTX A6000 GPU的单个Ubuntu 22.04工作站上进行（每个48 GB内存）和AMD Ryzen 9 5950X CPU。在预训练期间，我们在四个GPU上使用数据并行分布式训练（有效批量= 64，混合精度FP16）。微调和所有消融研究在具有2个GPU的同一台机器上运行（批处理大小= 32）以反映更常见的实验室规模设置。微调期间的平均GPU利用率约为83%，峰值VRAM消耗为41 GB。我们在相同硬件下测量了吞吐量和延迟，以确保硬件满足更广泛的条件。

在控制信号生成方面，实验主要评估预测控制信号之间的偏差（如车速、加速度和转向角）和真实值。以下指标用于量化：平均绝对误差（MAE）测量模型预测值与真实值之间的平均偏差，其中较小的值表示更准确的控制信号生成。均方误差（MSE）平方预测误差以放大大误差的影响，其中较小的值表示预测离群值的性能更好。在可解释文本生成方面，实验重点是评估模型生成的自然语言描述与参考文本之间的相似度，主要使用以下三个评估指标：Bleu（双语评估替补）测量n-gram水平（连续短语）生成的文本和参考文本之间的匹配，值越大，表示文本相似度越高。（基于语义的图像描述评价）基于TF-IDF加权n-gram匹配，注重文本中语义表达的准确性和一致性，更适合复杂场景描述任务。METEOR（Metric for Evaluation of Translation with Explicit Ordering）考虑精确匹配、形态变化和词序调整来评估文本的整体质量和可读性。BLEU、CIDER和METEOR最初是为图像-标题评估而设计的;因为BDD-X数据集已经提供了参考解释，这些基于n-gram的分数提供了一个便宜的，这是一种可重复的方法，可以在启动成本更高的人类研究之前，筛选数千个模型输出的基本语义重叠。它们不评估因果关系的正确性，但它们很快就会发现训练不足的模型，这些模型的语言偏离了主题，因此可以作为第一遍过滤器。

实验结果（表6）表明，本文提出的DriveLLM-V框架在控制信号生成和可解释文本生成任务中的表现明显优于现有主流模型，充分验证了模型设计的合理性和创新性，在控制信号生成任务中，DriveLLM-V实现了1.21的MAE和1.98的MSE，分别比DriveGPT 4低约20.4%和20.5%，证明了其在复杂驾驶场景下对速度、加速度和转向角预测的高精度适应性。这种性能提升归功于VICS的设计，它取代了传统的速度转向角信号与更多的行为解释动机控制信号，显著提高控制预测的准确性和鲁棒性。

在可解释文本生成任务中，DriveLLM-V在BLEU、CIDER和METEOR等文本评估指标上也表现出明显的优势。BLEU得分为28.58，与DriveGPT 4相比提高了28.1%。CIDER得分为98.36，与其他模型相比有明显提高。特别是在METEOR指标上，DriveLLM-V的得分为0.55，反映了其在语言生成任务中的语义匹配、形态变化和词序合理性方面的综合优化能力。这一结果归功于模型通过EIVM增强的视觉特征提取能力，以及其多模态融合策略，其加深了视觉和文本数据的对齐，从而提高了所生成的解释文本的语义一致性和表达质量。

此外，在专门针对行为描述和行为合理性的实验中（表7），DriveLLM-V在行为描述方面的BLEU和METEOR得分分别为35.88和0.58，在行为推理方面的BLEU和METEOR得分分别为11.56和0.52。显示出明显优于SOTA模型。这表明DriveLLM-V不仅准确描述了车辆的行为决策，而且通过自然语言对其决策逻辑进行了清晰合理的解释，从而在真实的自动驾驶任务中提供了更高的可解释性。

实验结果充分验证了DriveLLM-V框架在控制信号生成和可解释文本生成任务中的上级性能，通过结合VICS的设计和EIVM的增强，该模型在复杂驾驶场景中表现出卓越的预测精度、语言生成质量和行为解释能力。与现有主流模型相比，DriveLLM-V具有更强的适应性和语义理解能力，显著增强了端到端自动驾驶模型的性能和可解释性。

人类推理匹配：为了评估模型生成的解释是否与人类推理一致，我们对从BDD-X验证分割中随机选择的1000帧进行了双盲评估。两名接受过研究生水平机器人培训的持牌驾驶员在观看相关的三秒片段后，独立为每帧编写了简短的黄金推理。然后，通过DriveMLM、DriveLM、DriveGPT 4和DriveLLM-V处理相同的片段，以获得机器解释。结果见表8。

每位评分员对这四个输出进行评分，评分标准为五分制李克特量表（Likert scale），分为沿着两个轴：语义重叠（涵盖黄金理由中所述的事实）和因果关系（所述理由是否合乎逻辑）。1分表示完全不同意，5分表示完全同意。调查共收集了4000份评分（1000个剪辑×两名评定者×两项标准）;评定者间可靠性很高，Cohen κ = 0.71。

DriveLLM-V在整体指标上超过最强基线（DriveGPT 4）10.45分，超过最弱基线（DriveLM）10.80分，这表明其自然语言解释在词汇上忠实于人类的基本原理，并被认为是因果合理的。

**定性投票调查评价：**实验安全性设置：这些模型并没有部署到实际车辆上，相反，DriveLLM-V和其他SOTA模型部署在模型车辆上（如图8所示）。DriveLLM-V只需要单目RGB摄像机数据，而SOTA模型在部署时根据各自的数据需求进行配置。模型车辆使用阿克曼底盘，具有转向范围，功率，制动数据校准到主流车辆规格。每个模型生成的控制信息都经过了相同的标准化过程。手动遥控车辆启动，停止和制动是车辆操作的最高级别控制，允许在实验期间随时通过遥控器紧急制动。在整个实验过程中，三名安全主任持续监察车辆安全，并在认为有需要时启动紧急刹车，以防止潜在的安全风险。

如图9所示，我们在相同的1 KM真实的道路上运行DriveLLM-V和其他SOTA车型的模型车辆。为了排除其他因素的干扰，每个模型运行五次，测试时间安排在同一天的上午8：00，下午12：00，下午3：00，下午7：00和晚上11：00。不同的模型在连续两周的周二，周三和周四进行测试。在运行期间，温度，亮度和能见度波动等环境因素保持一致。此外，测试路线上没有发生沿着可能造成异常路况的事件（例如，公共集会或紧急车辆通行）。

为了复制全尺寸乘用车的视角，我们将单目RGB摄像机安装在1：4比例模型车辆上，高度为离地面40 cm，相当于真实的1.6 m-生产级挡风玻璃摄像机的典型光轴高度。摄像机向下倾斜6 m，使图像下边界在2 m处接触保险杠线（真实的尺度），再现了我们在真实汽车数据集中观察到的地平线位置。我们通过比较模型汽车镜头和参考仪表盘摄像头视频之间的消失点位置来验证设置;平均垂直偏移< 5个像素。没有应用额外的透镜校正或裁剪，从而确保了在轨评估反映了训练期间使用的相同视角，从而反映了相同的像素-真实世界几何。

每款车型在五次驾驶过程中录制的驾驶视频经过编辑，并与测试期间设置的基于对话的问答内容相结合，然后发送给100名受访者。（见附件）进行统计分析。在100名受访者中，有19人在过去三个月内获得驾驶执照，但没有驾驶经验，（这一群体对于评估自动驾驶系统的直观印象和接受度尤为重要，因为他们缺乏驾驶经验，依赖于系统的可解释性和稳定性）、22名具有一年驾驶经验的个人、18名具有一年以上但不足三年驾驶经验的个人、24名具有三年以上但不足五年驾驶经验的个人以及17名具有五年以上驾驶经验的个人（这个小组很可能提供更专业的评价，特别是关于处理复杂情景和评估决策逻辑），包括6名专用车辆的驾驶员（例如救护车、工程车）。男性和女性驾驶员的分布大致平衡。在视频回顾过程中，测试的具体型号并没有向受访者透露，为避免疲劳影响结果，每个受访者的视频播放顺序是随机的，在观看完每个视频后立即完成相应的问卷。

问卷调查数据见附件，问题分为四类：驾驶稳定性（Q1-Q4）、动态场景处理能力（Q5-7）、自然语言解释合理性（Q8-11）和整体用户体验（Q12- 14）。对于所有四个类别，得分为1表示最负面的反应，得分为5表示最积极的反应。图10总结了平均评分。

实验结果表明，DriveLLM-V在几个关键指标上表现出显著的优势，特别是在动态避障响应（Q3）、车辆动作可预测性和连贯性（Q7）以及自然语言解释的清晰度（Q8）方面，分别获得了4.56、4.78和4.03的高分。这一优势主要上级于VICS的设计，它将加速、减速、和转向角度与驾驶行为的实际逻辑。这会产生更连贯和预测性的控制信号，从而在动态避障场景中实现更稳定的行为规划和执行。此外，DriveLLM-V通过EIVM增强对环境的感知和理解，为驾驶决策提供更准确的视觉特征。这使得模型能够产生更清晰、更理性的自然语言解释，充分反映驾驶行为背后的动机。因此，DriveLLM-V因其语言解释的简单性和可信度而获得很高的评价，进一步增强了用户对模型决策过程的信任。

此外，整体驾驶性能满意度（Q12）和与日常驾驶体验的对比（Q13）也是DriveLLM-V表现出色的领域。受访者普遍表示，DriveLLM-V在路径跟随、动态响应和解释输出方面表现出了高度的一致性和可靠性，其整体驾驶性能更接近真实的人类驾驶员，展示模型在复杂场景中的适应性和智能。

然而，实验也表明，DriveLLM-V在处理紧急情况方面的得分略低（问题6，3.81）以及通过语言解释增加信任（Q11，3.83）与DriveMLM相比（Q6，3.93）和DriveLM（Q11，4.10）。这主要是由于DriveLLM-V更注重动态场景中的实时响应和行为解释，在紧急情况下，精确度仍有提高的空间。此外，处理紧急情况的影响可能会影响受访者对基于语言的解释的信任。未来的改进可以考虑增加数据集中与紧急情况处理相关的训练数据的比例。

根据模型在四个评价方面的平均得分（图11），DriveLLM-V在各个维度上都表现出了显著的优势，特别是在动态场景处理能力和自然语言解释的合理性方面表现出色，得分分别为4.24和4.03，这些结果突出了它在复杂场景中的强大决策响应能力和语言解释能力。此外，驾驶稳定性得分为4.08，表明DriveLLM-V在路径跟随和动作执行方面达到了较高的稳定性和连贯性。在整体用户体验方面，DriveLLM-V也以3.74的得分领先，反映了用户对该车型综合性能的认可。相比之下，虽然其他SOTA车型在某些维度上表现不错，这进一步验证了该方法在增强自动驾驶系统的智能性和可解释性方面的有效性。

关于用户信任度调查的警告：我们承认我们的调查问卷仅依赖于视频曝光;参与者既没有坐在车里，也没有与系统互动，因此分数反映了感知的连贯性，而不是真正的车内信任。尽管我们随机选择了视频顺序并隐藏了模型身份，但编辑风格的残余偏差，观众的注意力和个人驾驶习惯可能仍然存在。因此，我们将较高的DriveLLM-V分数仅解释为它的解释在屏幕上更容易理解，未来的工作将在沉浸式模拟器内和受控的骑行试验期间复制调查，其中可以捕获生理和行为信任标记。

5.3.消融实验

我们进行了消融实验，以验证各种方法对DriveLLM-V性能的贡献。消融条件包括使用原始车辆控制信号或拟议的VICS，是否通过EIVM使用增强的特征提取，以及是否使用原始的YOLOv 11或建议的具有C3 K2 S结构（CKS）的EIVM这些实验是在第3章所述的验证装置上进行的。消融实验的结果如表9所示。

实验结果表明，当仅使用原始控制信号时，模型的MAE和MSE值较高，在BLEU等文本生成指标上表现不佳，表明传统的速度-转向角控制信号不足以支持高精度的驾驶决策和行为解释，而引入VICS后，模型的MAE和MSE显著降低，BLEU和CIDEr指标均有所改善，表明VICS有效提高了控制信号的准确性，优化了模型的驾驶行为逻辑。

随着EIVM的进一步引入，（使用原始YOLOv11），模型的控制精度和文本生成质量进一步提高。特别是BLEU和CIDER指标的显著增强表明，EIVM通过增强视觉特征提取能力，提供了更准确的环境感知信息，有效支持驾驶决策的合理性和语言生成的清晰性，将原有的YOLOv11替换为改进的C3K2S模块后，模型性能达到最优，MAE和MSE分别降至1.21和1.98，而BLEU和CIDEr得分分别提高到28.58和98.36，说明C3K2S结构在特征融合和提取效率上的优化，进一步增强了视觉感知模块在复杂场景下的适应性和准确性。

组件灵敏度和误差分析：为了理解为什么基于车辆意图的控制信号（VICS）和C3 K2 S特征提取器可以改善表4中报告的消融增量之外的性能，我们进行了两项补充检查：（i）超参数扫描：对于VICS分支，我们以0.5 kN的步长将力归一化常数Fmax从4 kN改变到8 kN（保持所有其他参数固定）。MAE在默认值6 kN附近平滑地变化± 0.03，BLEU得分在± 0.4内变化，表明增益对合理的缩放选择而不是幸运常数是稳健的。（ii）定性误差审查。我们抽样了80个失败案例，其中基线（无VICS，无C3 K2 S）产生转向过冲（>5度）。在71%的车辆中，C3 K2 S变体正确定位香草骨干错过的小或远障碍物，防止过冲;在剩余的29%中，VICS文本提示明确地包含短语"轻轻刹车并保持车道"，模型遵循该短语，这些观察结果表明，C3 K2 S主要通过更紧密的对象定位做出贡献，而VICS提供了一个明确的语言偏向更平滑的驱动。

6. 结论和未来工作

6.1 总结

本研究提出了基于多模态大语言模型的自动驾驶框架DriveLLM-V。通过引入VICS和EIVM，系统在控制信号生成准确性、复杂场景适应性和自然语言解释性方面的性能显著提高。实验结果表明，DriveLLM-V的MAE为1.21，MSE为1.98，与DriveGPT 4和DriveMLM相比，分别减少了约20.4%和25.6%，并且优于其他SOTA模型。此外，在可解释文本生成方面，DriveLLM-V分别获得了28.58，98.36和0.55的BLEU，CIDER和METEOR分数，显著超过其他SOTA模型，并展示了出色的语义表达能力和用户可理解性。

首先，基于车辆意图的控制信号，通过将传统的控制信号重构为更具逻辑性和行为驱动的设计，不仅增强了驾驶行为的一致性，而且显著提高了控制信号预测的准确性。第二，外部集成视觉模态模型通过增强视觉特征提取能力，与多模态大语言模型建立有效协同，使复杂场景下的目标检测和环境理解更加精准，改进的C3K2S结构优化了EIVM内部视觉特征提取的效率和准确性，消融研究进一步验证了这些模块对系统性能的关键贡献，完整的框架在控制精度和可解释性方面都达到了最佳效果。

6.2 未来工作

目前的研究留下了几个限制，塑造了我们的下一步。（i）稀疏的紧急数据。DriveLLM-V主要在BDD-X分布上进行了微调;其在非危险试验中的较低得分表明，罕见的高风险模式代表性不足。因此，我们将建立一个长尾语料库的dash-cam紧急情况，并重播它在闭环模拟器课程微调。（ii）解释信任差距。用户研究是基于视频的，不能捕捉本能的信任体验在真实的车辆。我们计划用置信界限和因果标签来增强VICS，然后在沉浸式模拟器和全尺寸测试车上进行评估，看看更丰富的、不确定性感知的解释是否能转化为更高的驾驶员信任。（iii）模型可扩展性最后，我们将探索将Llama-3和EIVM交换为下一代视觉语言主干，这些主干保证更强的推理能力，同时将延迟保持在50 ms的预算内。