DiffVLA:视觉语言引导的扩散规划在自动驾驶中的创新与实践

在端到端自动驾驶领域,BEV 计算昂贵、动作多样性不足及复杂场景次优决策是关键挑战。RB 团队(Bosch、清华大学等联合)提出 DiffVLA 框架,融合 VLM 引导、混合稀疏 - 稠密感知与扩散规划模块,在 NavSim v2 私有测试集获 45.0 扩展 PDMS,2025 自动驾驶挑战赛表现优异,为端到端自动驾驶提供高效解决方案。

原文链接:https://arxiv.org/pdf/2505.19381

沐小含持续分享前沿算法论文,欢迎关注...

一、引言

1.1 研究背景与意义

端到端(End-to-End)自动驾驶因其全可微设计,能够将感知、预测、规划等模块化任务深度融合,通过统一优化追求最终驾驶目标,已成为自动驾驶领域极具潜力的研究方向。随着大规模人类驾驶示范数据的积累,从数据中学习类人驾驶策略的可能性大幅提升。

现有端到端方法如 UniAD、VAD 等,已实现将传感器数据直接输入模型并输出单模态轨迹,但仍面临三大核心挑战:

  • BEV(鸟瞰图)计算成本高昂,难以在实时场景中高效部署;
  • 忽略驾驶行为的内在不确定性和多模态特性,无法覆盖复杂场景下的多样化决策需求;
  • 在真实复杂场景中易出现次优决策,闭环评估下的鲁棒性和泛化能力不足。

本文提出的 DiffVLA(Vision-Language Guided Diffusion Planning)框架,通过融合视觉语言模型(VLM)、混合稀疏 - 稠密感知与扩散规划,针对性解决上述问题,在 2025 年自动驾驶挑战赛(Autonomous Grand Challenge 2025)及 NavSim v2 数据集的闭环评估中展现出卓越性能。

1.2 相关工作回顾

(1)端到端自动驾驶基础模型

早期端到端方法以单模态轨迹回归为核心,UniAD 通过规划导向的设计实现了感知 - 预测 - 规划的端到端整合;VAD 则采用矢量化场景表示提升计算效率。SparseDrive 进一步探索稀疏表示,提出对称稀疏感知模块和并行运动规划器,但未解决驾驶行为的多模态建模问题。

(2)扩散模型在规划中的应用

扩散模型凭借强大的生成能力,已被用于建模驾驶行为的多模态分布。部分研究通过锚定高斯分布设计加速去噪过程,提升扩散效率,但在多源信息融合和闭环鲁棒性上仍有提升空间。

(3)VLM 与自动驾驶的结合

近年来,研究开始将视觉语言模型引入端到端自动驾驶,如 Senna-VLM、OpenDriveVLA 等,通过多模态信息融合提升轨迹规划的准确性,但现有方法对 VLM 输出与场景信息的深层交互挖掘不足。

1.3 本文核心贡献

本文的创新点集中在三个维度,形成了完整的技术闭环:

  1. 提出混合稀疏 - 稠密扩散策略,兼顾感知效率与表示能力,解决 BEV 计算成本与场景理解精度的矛盾;
  2. 设计VLM 命令引导模块,通过深度交互 agent、地图实例与 VLM 输出,强化轨迹生成的语义指导;
  3. 构建分层信息编码的截断扩散规划器,以多模态锚点为先验,缩短扩散调度,提升规划效率与准确性。

在 NavSim v2 数据集的私有测试集上,该方法实现了 45.0 的扩展 PDMS(Planning and Driving Measurement Score),验证了其在复杂真实场景和反应式合成场景中的优越性。

二、整体框架设计

DiffVLA 的核心框架由三大模块构成:VLM 引导模块、混合感知模块、扩散基规划模块,各模块协同完成从多源输入到安全轨迹输出的全流程。框架整体结构如图 1 所示:

模块间数据流向:

  1. 多视图图像、导航指令等原始输入分别送入 VLM 引导模块和混合感知模块;
  2. VLM 引导模块输出高层驾驶命令,与外部导航指令融合后传入扩散规划模块;
  3. 混合感知模块的稀疏分支和稠密分支分别输出显式场景信息和隐式 BEV 特征,共同作为规划模块的环境感知输入;
  4. 扩散规划模块基于融合后的指导信息和感知特征,生成多模态候选轨迹,经后处理后输出最终驾驶轨迹。

三、感知模块(Perception)

感知是自动驾驶的基础,其核心目标是精准获取智能体(agent)和地图信息,为后续规划提供可靠的场景表征。DiffVLA 采用双分支并行设计,同时挖掘显式特征与隐式特征,突破单一感知方法的局限。

3.1 设计理念

传统感知方法分为两c类:

  • 基于投影的稠密 BEV 构建方法:能捕捉环境隐式特征,但对显式目标(如障碍物、车道线)的定位精度不足;
  • 基于采样的稀疏感知方法:可精准提取显式实例信息,但缺乏对环境全局语义的理解。

本文的混合感知模块通过双分支设计,实现 "显式 + 隐式" 特征的互补融合,既保证目标检测和地图结构的准确性,又保留环境全局语义信息。

3.2 稀疏感知分支(Sparse Perception Branch)

(1)核心功能

负责提取显式场景信息,包括 3D 目标检测结果和在线地图生成数据,具体输出:

  • 3D 边界框:包含目标的位姿、尺寸、航向角、速度等属性;
  • 地图向量:每个地图元素(车道边界、中心线、停止线等)用 20 个地图点表示。
(2)技术实现

采用 Sparse4D v3 和 Sparsemext 中的采样策略,实现高效的 3D 目标检测和高清地图构建。输出结果经 MLP 编码后,生成显式目标嵌入(explicit object embedding)和地图嵌入(map embedding),用于后续碰撞检测、可行驶区域判断等规划约束检查。

3.3 稠密感知分支(Dense Perception Branch)

(1)核心功能

构建隐式 BEV 特征表示,为规划模块提供全局环境语义信息。

(2)技术实现

采用 BEVDet 中的 BEV 特征投影方法,将多视图图像特征投影到鸟瞰图空间。关键参数设置:

  • BEV 网格尺寸:128×128;
  • 感知范围:在自车坐标系下,x 轴和 y 轴方向各 64 米;
  • 特征聚合:融合 30 个周围智能体和 1 个自车的特征,为轨迹扩散过程提供隐式指导。

3.4 训练策略

感知模块采用两阶段训练流程,确保各分支的独立优化与协同适配:

  1. 第一阶段:单独训练稀疏感知分支,采用 3D 目标检测损失和地图元素检测损失,优化显式信息提取精度;
  2. 第二阶段:在稀疏分支训练完成后,将稠密感知分支与后续轨迹头(trajectory head)联合训练;
  3. backbone 选择:两个分支均采用 VoV-99 作为特征提取骨干网络,保证特征提取能力的一致性。

四、VLM 引导模块(VLM Command Guidance Module)

4.1 设计目标

解决多模态信息融合问题,将视觉场景理解与自然语言指令(如导航指令)结合,生成高层驾驶命令,为规划模块提供语义级指导,弥补纯视觉感知在意图理解上的不足。

4.2 技术架构

基于 Senna-VLM 框架构建,包含四大核心组件,实现 "图像 - 文本 - 驾驶命令" 的端到端转换:

视觉编码器(Vision Encoder)

功能描述:处理多视图图像序列,提取图像特征

技术细节:采用 CLIP 的 ViTL/14 模型,输入为 NavSim 数据集的多视图图像序列 为图像数量,H/W 为图像高/宽)

驾驶视觉适配器(Driving Vision Adaptor)

功能描述:编码并压缩图像特征,生成适配 LLM 的图像tokens

技术细节:输出图像tokens 为单图tokens数,C 为 LLM 特征维度)

文本编码器(Text Encoder)

功能描述:编码用户指令和导航命令

技术细节:输出文本tokens 为文本令牌数)

大语言模型(LLM)

功能描述:融合图像与文本特征,生成高层驾驶决策

技术细节:采用 Vicuna-v1.5-7B 模型进行驾驶决策生成

4.3 输出与融合

(1)输出内容

VLM 模块输出两类关键信息:

  • 候选轨迹:基于场景理解生成的初步轨迹建议;
  • 高层驾驶命令:分解为横向控制(变道、转弯)和纵向控制(加速、制动)。
(2)命令融合

采用独热编码(one-hot encoding)将驾驶命令量化,与外部导航指令融合后,经命令编码器处理,生成语义指导信号,输入至扩散规划模块。

五、规划模块(Planning)

规划模块是 DiffVLA 的核心,通过截断扩散策略和分层信息编码,实现多模态、高效、安全的轨迹生成。

5.1 轨迹词汇表构建(Trajectory Vocabulary Construction)

为离散化自车的动作空间,构建轨迹词汇表 ,具体步骤:

  1. 数据采样:从 NavSim 训练集中提取所有轨迹数据;
  2. 聚类分组:采用 k-means 聚类算法,将轨迹划分为 N 个离散词汇;
  3. 词汇结构:每个词汇 包含一组路径点 ,其中规划时间域 (即预测未来 4 个时间步的轨迹)。

5.2 扩散规划核心设计

(1)扩散锚点生成

借鉴 DiffusionDrive 的思路,对轨迹词汇表 V 添加高斯噪声,生成轨迹锚点 ,其中锚点数量 。锚点作为扩散过程的先验,为多模态轨迹生成提供初始候选。

(2)截断扩散策略(Truncated Diffusion Policy)

传统扩散模型需经过多步去噪过程,计算成本较高。本文采用缩短的扩散调度(shortened diffusion schedule),减少去噪步骤,同时保证轨迹生成质量,平衡效率与性能。

(3)分层信息编码与指导条件融合

规划模块的输入包含异质信息(隐式 BEV 特征、显式目标 / 地图嵌入、VLM 语义指导),采用分层信息编码策略整合为统一指导条件

  • 隐式指导 :来自稠密 BEV 分支的全局语义特征;
  • 显式指导 :来自稀疏感知分支的目标与地图嵌入。

扩散模型的数学表达为:

其中:

  • :扩散轨迹解码器;
  • :第 k 个锚点的带噪轨迹;
  • :预测的目标路径点;
  • :路径点的分类分数(用于筛选最优轨迹)。

5.3 损失函数设计

轨迹头采用分类损失与回归损失结合的训练策略:

  • 分类损失:基于正负样本选择策略(与 DiffusionDrive 一致),优化轨迹类别的区分能力;
  • 回归损失:最小化预测轨迹与真实轨迹的路径点误差,保证轨迹精度。

六、后处理(Post Processing)

6.1 问题分析

观察到在高速行驶场景下,发现预测轨迹的碰撞率略高于其他场景,文中定位原因是高速场景下轨迹的预测分布与真实分布存在偏差。

6.2 解决方案

对预测轨迹实施 y 轴方向 2% 的减速调整(沿行驶方向的纵向减速)。该处理方式的优势:

  • 有效降低高速场景下的碰撞风险;
  • 对其他评估指标(如行驶进度、舒适性)影响极小,保证整体性能稳定。

七、实验设计与结果

7.1 实验设置

(1)数据集

采用 NavSim v2 数据集,该数据集的核心优势的在于提供闭环评估能力:

  • 包含反应式背景交通参与者(reactive background traffic),模拟真实道路的动态交互;
  • 提供真实感合成多视图相机图像,提升模型泛化能力;
  • 支持鲁棒性和泛化性的全面评估。
(2)训练策略

采用两阶段训练流程,各模块的训练配置如表 1 所示:

训练细节补充:

  • 优化器:AdamW;
  • 学习率调度:余弦学习率衰减;
  • 模型冻结策略:Stage-2 训练时,冻结 VLM 引导模块和稀疏感知模块的权重,仅训练稠密感知模块和扩散规划模块,避免预训练好的特征提取能力退化。

7.2 实验结果

DiffVLA 在 NavSim v2 竞赛的私有测试集上取得 45.007 的扩展 PDMS 分数,各细分指标表现如表 2 所示:

7.3 结果分析

(1)核心指标表现

扩展 PDMS 总分达到 45.007,在复杂闭环场景中展现出优异的综合性能,验证了混合感知、VLM 引导与扩散规划融合的有效性。

(2)细分指标解读
  • 合规性指标:Stage-1 中交通灯合规率、行驶方向合规率均达到 100%,可行驶区域合规率 99.2857%,说明 VLM 引导模块能精准理解交通规则和导航指令;
  • 安全性指标:Stage-1 无责任碰撞率 95.7143%,但 Stage-2 略有下降,推测是 Stage-2 引入更复杂的动态场景,后续可通过强化学习进一步优化;
  • 舒适性指标:历史舒适度在 Stage-2 提升至 98.6339,说明扩散规划生成的轨迹平滑性较好;
  • 进度指标:自车进度在两阶段中保持稳定(≈86),表明轨迹规划能有效平衡安全与效率。

八、局限性与未来展望

8.1 现有局限

受时间限制,本文采用分阶段独立训练 VLM、稀疏感知、稠密感知和规划头的方式,尚未探索将所有模块整合为端到端训练的可能性。端到端训练可能进一步挖掘模块间的协同潜力,提升整体性能。

8.2 未来方向

  1. 端到端联合训练:打破模块间的训练壁垒,实现感知 - 引导 - 规划的端到端优化;
  2. 动态锚点生成:根据场景复杂度自适应调整轨迹锚点数量,平衡计算成本与多模态覆盖度;
  3. 多模态 VLM 优化:扩展 VLM 的输入模态(如融合激光雷达数据),提升极端天气下的场景理解能力;
  4. 强化学习融合:将扩散规划与强化学习结合,进一步优化轨迹的安全性和长时域规划性能。

九、结论

DiffVLA 框架通过三大核心创新,构建了高效、鲁棒的端到端自动驾驶解决方案:

  1. 混合稀疏 - 稠密感知模块:兼顾显式目标定位与隐式语义理解,降低 BEV 计算成本;
  2. VLM 命令引导模块:实现图像、文本与驾驶指令的深度融合,提升复杂场景的意图理解能力;
  3. 截断扩散规划模块:以多模态锚点为先验,通过分层信息编码实现高效、安全的轨迹生成。

实验结果表明,该框架在 NavSim v2 的闭环评估中取得 45.0 的扩展 PDMS 分数,在安全性、合规性、舒适性等多维度指标上表现优异,为复杂真实场景下的自动驾驶提供了新的技术思路。未来通过端到端训练、多模态融合等方向的优化,有望进一步提升模型的鲁棒性和泛化能力。

相关推荐
Wai-Ngai2 小时前
自动驾驶控制算法——模型预测控制(MPC)
人工智能·机器学习·自动驾驶
QianCenRealSim2 小时前
FSD入华“加速”中国自动驾驶产业的推动与重构
人工智能·重构·自动驾驶
AI Planner&Control2 小时前
自动驾驶控制算法——车辆七自由度动力学模型
自动驾驶
韩曙亮2 小时前
【自动驾驶】Autoware 三大版本 ( Autoware.AI | Autoware.Auto | Autoware Core/Universe )
人工智能·机器学习·自动驾驶·autoware·autoware.ai·autoware.auto
Bol52612 小时前
「“嵌”入未来,“式”界无限」从智能家居到工业4.0,从可穿戴设备到自动驾驶,嵌入式技术正以前所未有的深度和广度,悄然重塑我们的世界
人工智能·自动驾驶·智能家居
veritascxy2 小时前
PyTorch-CUDA镜像支持自动驾驶感知模块训练
pytorch·自动驾驶·cuda
emacs5lisp2 小时前
基于强化学习的自动驾驶控制
神经网络·自动驾驶·强化学习·carla·智能体
FL162386312918 小时前
自动驾驶场景驾驶员注意力安全行为睡驾分心驾驶疲劳驾驶检测数据集VOC+YOLO格式5370张6类别
人工智能·yolo·自动驾驶
SYNKROTRON19 小时前
方案解读 | 精准感知的基石:OASIS CALIBER 传感器标定方案
自动驾驶·传感器标定