DiffVLA：视觉语言引导的扩散规划在自动驾驶中的创新与实践

在端到端自动驾驶领域，BEV 计算昂贵、动作多样性不足及复杂场景次优决策是关键挑战。RB 团队（Bosch、清华大学等联合）提出 DiffVLA 框架，融合 VLM 引导、混合稀疏 - 稠密感知与扩散规划模块，在 NavSim v2 私有测试集获 45.0 扩展 PDMS，2025 自动驾驶挑战赛表现优异，为端到端自动驾驶提供高效解决方案。

原文链接：https://arxiv.org/pdf/2505.19381

沐小含持续分享前沿算法论文，欢迎关注...

一、引言

1.1 研究背景与意义

端到端（End-to-End）自动驾驶因其全可微设计，能够将感知、预测、规划等模块化任务深度融合，通过统一优化追求最终驾驶目标，已成为自动驾驶领域极具潜力的研究方向。随着大规模人类驾驶示范数据的积累，从数据中学习类人驾驶策略的可能性大幅提升。

现有端到端方法如 UniAD、VAD 等，已实现将传感器数据直接输入模型并输出单模态轨迹，但仍面临三大核心挑战：

BEV（鸟瞰图）计算成本高昂，难以在实时场景中高效部署；
忽略驾驶行为的内在不确定性和多模态特性，无法覆盖复杂场景下的多样化决策需求；
在真实复杂场景中易出现次优决策，闭环评估下的鲁棒性和泛化能力不足。

本文提出的 DiffVLA（Vision-Language Guided Diffusion Planning）框架，通过融合视觉语言模型（VLM）、混合稀疏 - 稠密感知与扩散规划，针对性解决上述问题，在 2025 年自动驾驶挑战赛（Autonomous Grand Challenge 2025）及 NavSim v2 数据集的闭环评估中展现出卓越性能。

1.2 相关工作回顾

（1）端到端自动驾驶基础模型

早期端到端方法以单模态轨迹回归为核心，UniAD 通过规划导向的设计实现了感知 - 预测 - 规划的端到端整合；VAD 则采用矢量化场景表示提升计算效率。SparseDrive 进一步探索稀疏表示，提出对称稀疏感知模块和并行运动规划器，但未解决驾驶行为的多模态建模问题。

（2）扩散模型在规划中的应用

扩散模型凭借强大的生成能力，已被用于建模驾驶行为的多模态分布。部分研究通过锚定高斯分布设计加速去噪过程，提升扩散效率，但在多源信息融合和闭环鲁棒性上仍有提升空间。

（3）VLM 与自动驾驶的结合

近年来，研究开始将视觉语言模型引入端到端自动驾驶，如 Senna-VLM、OpenDriveVLA 等，通过多模态信息融合提升轨迹规划的准确性，但现有方法对 VLM 输出与场景信息的深层交互挖掘不足。

1.3 本文核心贡献

本文的创新点集中在三个维度，形成了完整的技术闭环：

提出混合稀疏 - 稠密扩散策略，兼顾感知效率与表示能力，解决 BEV 计算成本与场景理解精度的矛盾；
设计VLM 命令引导模块，通过深度交互 agent、地图实例与 VLM 输出，强化轨迹生成的语义指导；
构建分层信息编码的截断扩散规划器，以多模态锚点为先验，缩短扩散调度，提升规划效率与准确性。

在 NavSim v2 数据集的私有测试集上，该方法实现了 45.0 的扩展 PDMS（Planning and Driving Measurement Score），验证了其在复杂真实场景和反应式合成场景中的优越性。

二、整体框架设计

DiffVLA 的核心框架由三大模块构成：VLM 引导模块、混合感知模块、扩散基规划模块，各模块协同完成从多源输入到安全轨迹输出的全流程。框架整体结构如图 1 所示：

模块间数据流向:

多视图图像、导航指令等原始输入分别送入 VLM 引导模块和混合感知模块；
VLM 引导模块输出高层驾驶命令，与外部导航指令融合后传入扩散规划模块；
混合感知模块的稀疏分支和稠密分支分别输出显式场景信息和隐式 BEV 特征，共同作为规划模块的环境感知输入；
扩散规划模块基于融合后的指导信息和感知特征，生成多模态候选轨迹，经后处理后输出最终驾驶轨迹。

三、感知模块（Perception）

感知是自动驾驶的基础，其核心目标是精准获取智能体（agent）和地图信息，为后续规划提供可靠的场景表征。DiffVLA 采用双分支并行设计，同时挖掘显式特征与隐式特征，突破单一感知方法的局限。

3.1 设计理念

传统感知方法分为两c类：

基于投影的稠密 BEV 构建方法：能捕捉环境隐式特征，但对显式目标（如障碍物、车道线）的定位精度不足；
基于采样的稀疏感知方法：可精准提取显式实例信息，但缺乏对环境全局语义的理解。

本文的混合感知模块通过双分支设计，实现 "显式 + 隐式" 特征的互补融合，既保证目标检测和地图结构的准确性，又保留环境全局语义信息。

3.2 稀疏感知分支（Sparse Perception Branch）

（1）核心功能

负责提取显式场景信息，包括 3D 目标检测结果和在线地图生成数据，具体输出：

3D 边界框：包含目标的位姿、尺寸、航向角、速度等属性；
地图向量：每个地图元素（车道边界、中心线、停止线等）用 20 个地图点表示。

（2）技术实现

采用 Sparse4D v3 和 Sparsemext 中的采样策略，实现高效的 3D 目标检测和高清地图构建。输出结果经 MLP 编码后，生成显式目标嵌入（explicit object embedding）和地图嵌入（map embedding），用于后续碰撞检测、可行驶区域判断等规划约束检查。

3.3 稠密感知分支（Dense Perception Branch）

（1）核心功能

构建隐式 BEV 特征表示，为规划模块提供全局环境语义信息。

（2）技术实现

采用 BEVDet 中的 BEV 特征投影方法，将多视图图像特征投影到鸟瞰图空间。关键参数设置：

BEV 网格尺寸：128×128；
感知范围：在自车坐标系下，x 轴和 y 轴方向各 64 米；
特征聚合：融合 30 个周围智能体和 1 个自车的特征，为轨迹扩散过程提供隐式指导。

3.4 训练策略

感知模块采用两阶段训练流程，确保各分支的独立优化与协同适配：

第一阶段：单独训练稀疏感知分支，采用 3D 目标检测损失和地图元素检测损失，优化显式信息提取精度；
第二阶段：在稀疏分支训练完成后，将稠密感知分支与后续轨迹头（trajectory head）联合训练；
backbone 选择：两个分支均采用 VoV-99 作为特征提取骨干网络，保证特征提取能力的一致性。

四、VLM 引导模块（VLM Command Guidance Module）

4.1 设计目标

解决多模态信息融合问题，将视觉场景理解与自然语言指令（如导航指令）结合，生成高层驾驶命令，为规划模块提供语义级指导，弥补纯视觉感知在意图理解上的不足。

4.2 技术架构

基于 Senna-VLM 框架构建，包含四大核心组件，实现 "图像 - 文本 - 驾驶命令" 的端到端转换：

视觉编码器（Vision Encoder）

功能描述：处理多视图图像序列，提取图像特征

技术细节：采用 CLIP 的 ViTL/14 模型，输入为 NavSim 数据集的多视图图像序列（为图像数量，H/W 为图像高/宽）

驾驶视觉适配器（Driving Vision Adaptor）

功能描述：编码并压缩图像特征，生成适配 LLM 的图像tokens

技术细节：输出图像tokens （为单图tokens数，C 为 LLM 特征维度）

文本编码器（Text Encoder）

功能描述：编码用户指令和导航命令

技术细节：输出文本tokens （为文本令牌数）

大语言模型（LLM）

功能描述：融合图像与文本特征，生成高层驾驶决策

技术细节：采用 Vicuna-v1.5-7B 模型进行驾驶决策生成

4.3 输出与融合

（1）输出内容

VLM 模块输出两类关键信息：

候选轨迹：基于场景理解生成的初步轨迹建议；
高层驾驶命令：分解为横向控制（变道、转弯）和纵向控制（加速、制动）。

（2）命令融合

采用独热编码（one-hot encoding）将驾驶命令量化，与外部导航指令融合后，经命令编码器处理，生成语义指导信号，输入至扩散规划模块。

五、规划模块（Planning）

规划模块是 DiffVLA 的核心，通过截断扩散策略和分层信息编码，实现多模态、高效、安全的轨迹生成。

5.1 轨迹词汇表构建（Trajectory Vocabulary Construction）

为离散化自车的动作空间，构建轨迹词汇表，具体步骤：

数据采样：从 NavSim 训练集中提取所有轨迹数据；
聚类分组：采用 k-means 聚类算法，将轨迹划分为 N 个离散词汇；
词汇结构：每个词汇包含一组路径点，其中规划时间域（即预测未来 4 个时间步的轨迹）。

5.2 扩散规划核心设计

（1）扩散锚点生成

借鉴 DiffusionDrive 的思路，对轨迹词汇表 V 添加高斯噪声，生成轨迹锚点，其中锚点数量。锚点作为扩散过程的先验，为多模态轨迹生成提供初始候选。

（2）截断扩散策略（Truncated Diffusion Policy）

传统扩散模型需经过多步去噪过程，计算成本较高。本文采用缩短的扩散调度（shortened diffusion schedule），减少去噪步骤，同时保证轨迹生成质量，平衡效率与性能。

（3）分层信息编码与指导条件融合

规划模块的输入包含异质信息（隐式 BEV 特征、显式目标 / 地图嵌入、VLM 语义指导），采用分层信息编码策略整合为统一指导条件：

隐式指导：来自稠密 BEV 分支的全局语义特征；
显式指导：来自稀疏感知分支的目标与地图嵌入。

扩散模型的数学表达为：

其中：

：扩散轨迹解码器；
：第 k 个锚点的带噪轨迹；
：预测的目标路径点；
：路径点的分类分数（用于筛选最优轨迹）。

5.3 损失函数设计

轨迹头采用分类损失与回归损失结合的训练策略：

分类损失：基于正负样本选择策略（与 DiffusionDrive 一致），优化轨迹类别的区分能力；
回归损失：最小化预测轨迹与真实轨迹的路径点误差，保证轨迹精度。

六、后处理（Post Processing）

6.1 问题分析

观察到在高速行驶场景下，发现预测轨迹的碰撞率略高于其他场景，文中定位原因是高速场景下轨迹的预测分布与真实分布存在偏差。

6.2 解决方案

对预测轨迹实施 y 轴方向 2% 的减速调整（沿行驶方向的纵向减速）。该处理方式的优势：

有效降低高速场景下的碰撞风险；
对其他评估指标（如行驶进度、舒适性）影响极小，保证整体性能稳定。

七、实验设计与结果

7.1 实验设置

（1）数据集

采用 NavSim v2 数据集，该数据集的核心优势的在于提供闭环评估能力：

包含反应式背景交通参与者（reactive background traffic），模拟真实道路的动态交互；
提供真实感合成多视图相机图像，提升模型泛化能力；
支持鲁棒性和泛化性的全面评估。

（2）训练策略

采用两阶段训练流程，各模块的训练配置如表 1 所示：

训练细节补充：

优化器：AdamW；
学习率调度：余弦学习率衰减；
模型冻结策略：Stage-2 训练时，冻结 VLM 引导模块和稀疏感知模块的权重，仅训练稠密感知模块和扩散规划模块，避免预训练好的特征提取能力退化。

7.2 实验结果

DiffVLA 在 NavSim v2 竞赛的私有测试集上取得 45.007 的扩展 PDMS 分数，各细分指标表现如表 2 所示：

7.3 结果分析

（1）核心指标表现

扩展 PDMS 总分达到 45.007，在复杂闭环场景中展现出优异的综合性能，验证了混合感知、VLM 引导与扩散规划融合的有效性。

（2）细分指标解读

合规性指标：Stage-1 中交通灯合规率、行驶方向合规率均达到 100%，可行驶区域合规率 99.2857%，说明 VLM 引导模块能精准理解交通规则和导航指令；
安全性指标：Stage-1 无责任碰撞率 95.7143%，但 Stage-2 略有下降，推测是 Stage-2 引入更复杂的动态场景，后续可通过强化学习进一步优化；
舒适性指标：历史舒适度在 Stage-2 提升至 98.6339，说明扩散规划生成的轨迹平滑性较好；
进度指标：自车进度在两阶段中保持稳定（≈86），表明轨迹规划能有效平衡安全与效率。

八、局限性与未来展望

8.1 现有局限

受时间限制，本文采用分阶段独立训练 VLM、稀疏感知、稠密感知和规划头的方式，尚未探索将所有模块整合为端到端训练的可能性。端到端训练可能进一步挖掘模块间的协同潜力，提升整体性能。

8.2 未来方向

端到端联合训练：打破模块间的训练壁垒，实现感知 - 引导 - 规划的端到端优化；
动态锚点生成：根据场景复杂度自适应调整轨迹锚点数量，平衡计算成本与多模态覆盖度；
多模态 VLM 优化：扩展 VLM 的输入模态（如融合激光雷达数据），提升极端天气下的场景理解能力；
强化学习融合：将扩散规划与强化学习结合，进一步优化轨迹的安全性和长时域规划性能。

九、结论

DiffVLA 框架通过三大核心创新，构建了高效、鲁棒的端到端自动驾驶解决方案：

混合稀疏 - 稠密感知模块：兼顾显式目标定位与隐式语义理解，降低 BEV 计算成本；
VLM 命令引导模块：实现图像、文本与驾驶指令的深度融合，提升复杂场景的意图理解能力；
截断扩散规划模块：以多模态锚点为先验，通过分层信息编码实现高效、安全的轨迹生成。

实验结果表明，该框架在 NavSim v2 的闭环评估中取得 45.0 的扩展 PDMS 分数，在安全性、合规性、舒适性等多维度指标上表现优异，为复杂真实场景下的自动驾驶提供了新的技术思路。未来通过端到端训练、多模态融合等方向的优化，有望进一步提升模型的鲁棒性和泛化能力。