VADv2:基于概率规划的端到端矢量化自动驾驶

一、引言

在自动驾驶技术的演进历程中,端到端方案凭借其能直接从大规模人类驾驶演示中学习类人驾驶策略的优势,成为备受关注的研究方向。然而,驾驶场景中普遍存在的不确定性与规划的非确定性,给从演示数据中提取可靠驾驶知识带来了巨大挑战。例如,跟车场景下驾驶员可选择保持跟车或变道超车,会车场景中可选择让行或超车,这些场景中驾驶动作(包括时机和速度)受诸多潜在因素影响,呈现出高度随机性。

现有基于学习的规划方法多采用确定性范式直接回归动作(如未来轨迹或控制信号),这种范式假设环境与动作间存在确定性关联,显然与实际驾驶场景不符。当可行解空间为非凸时,确定性建模难以应对,可能输出中间动作引发安全问题,且易倾向于输出训练数据中占比最高的轨迹(如直行、停车),导致规划性能不佳。

为解决上述问题,华中科技大学与地平线机器人联合提出 VADv2,这是首个将概率建模应用于连续规划动作空间的端到端驾驶模型。该模型以多视角图像序列为输入,通过流式处理将传感器数据转换为环境 token embeddings,输出动作的概率分布并采样动作控制车辆。仅依赖相机传感器,VADv2 在 CARLA Town05 基准测试中实现了当前最优的闭环性能,且无需基于规则的包装器即可稳定运行。

原文链接:https://arxiv.org/pdf/2402.13243

项目主页:https://hgao-cv.github.io/VADv2/

代码链接:https://github.com/hustvl/VAD

沐小含持续分享前沿算法论文,欢迎关注...

二、相关工作

2.1 感知

感知是自动驾驶的首要环节,场景的统一表示对于下游任务集成至关重要。近年来,鸟瞰图(BEV)表示已成为主流策略,能够有效实现场景特征编码和多模态数据融合。LSS 作为开创性工作,通过显式预测图像像素深度实现透视视图到 BEV 的转换;BEVFormer 则通过设计时空注意力机制避免显式深度预测,取得了出色的检测性能,后续工作通过优化时序建模和 BEV 转换策略持续提升下游任务性能。

在矢量化映射方面,HDMapNet 通过后处理将车道分割结果转换为矢量地图;VectorMapNet 以自回归方式预测矢量地图元素;MapTR 引入置换等价性和分层匹配策略,显著提升了映射性能;LaneGAP 则针对车道图提出了路径级建模方法。

2.2 运动预测

运动预测的目标是预测驾驶场景中其他交通参与者的未来轨迹,为自车规划提供支持。传统方法利用历史轨迹和高清地图等输入进行预测,而近年来端到端运动预测方法将感知与运动预测联合执行。在场景表示上,部分工作采用栅格化图像表示并结合 CNN 网络进行预测,另一些则采用矢量化表示并利用图神经网络(GNN)或 Transformer 模型提取特征和预测运动。部分方法将未来运动视为密集占用和流场而非智能体级别的未来路径点,还有一些采用高斯混合模型(GMM)回归多模态轨迹,但模态数量有限。

2.3 规划

基于学习的规划方法凭借数据驱动特性,随着数据量增加展现出巨大潜力。早期尝试采用纯黑盒模式,直接利用传感器数据预测控制信号,但缺乏可解释性且难以优化。另有大量研究结合强化学习与规划,通过在闭环仿真环境中自主探索驾驶行为,实现甚至超越人类水平的驾驶性能,但在仿真与现实差距弥合及安全问题上仍面临挑战。

模仿学习是另一重要研究方向,模型通过学习专家驾驶行为实现良好规划性能并形成类人驾驶风格。近年来,端到端自动驾驶兴起,将感知、运动预测和规划集成到单一模型中,形成全数据驱动方案。UniAD 巧妙集成多个感知和预测任务以提升规划性能;VAD 则探索了矢量化场景表示在规划中的潜力,摆脱了对密集地图的依赖。

2.4 自动驾驶中的大语言模型

大语言模型(LLMs)展现出的可解释性和逻辑推理能力,为自动驾驶领域提供了新的思路。现有研究主要分为两类:一类利用 LLMs 通过问答(QA)任务实现驾驶场景理解与评估;另一类在基于 LLM 的场景理解基础上进一步集成规划,如 DriveGPT4 接收历史视频和文本输入,经编码后输入 LLM 预测问题答案和控制信号;LanguageMPC 则以语言描述形式输入历史真实感知结果和高清地图,通过思维链分析理解场景并从预定义集合中预测规划动作。

VADv2 从 GPT 等大语言模型中汲取灵感,应对不确定性问题。语言建模中,给定特定上下文,下一个词的选择具有非确定性和概率性,LLM 从大规模语料库中学习上下文条件下的词概率分布并采样。受此启发,VADv2 将规划策略建模为环境条件下的非平稳随机过程,通过离散化动作空间生成规划词汇表,基于大规模驾驶演示逼近概率分布,并在每个时间步从分布中采样动作控制车辆。

三、VADv2核心技术框架

VADv2 的整体框架如图 2 所示,核心流程包括场景编码、概率规划、训练与推理四个关键环节,以下将逐一详细解读。

注:VADv2 以流式方式接收多视角图像序列输入,将传感器数据转换为环境 token embeddings,输出动作概率分布并采样动作控制车辆。大规模驾驶演示和场景约束用于监督预测分布。

3.1 场景编码器

图像中的信息具有稀疏性和低层次性,为了提取高层语义信息,VADv2 设计了场景编码器,将传感器数据转换为实例级 tokens embeddings ,包含四类 tokens:map tokens、agent tokens、traffic element tokens 和 image tokens,同时将导航信息和自车状态通过 MLP 编码为 embeddings

3.1.1 Map Tokens

借鉴 MapTR 系列工作,VADv2 利用一组 map tokens 预测地图的矢量化表示,包括车道中心线、车道分隔线、道路边界和人行横道。通过对应监督信号确保其明确编码地图相关高层信息,为规划提供道路结构约束。

3.1.2 Agent Tokens

基于 BEVFormer 和相关运动预测工作,agent tokens 用于预测其他交通参与者的运动信息,包括位置、朝向、尺寸、速度和多模态未来轨迹。通过检测损失和运动预测损失进行监督,确保准确捕捉周围智能体的动态行为。

3.1.3 Traffic Element Tokens

交通元素在规划中起着关键作用,VADv2 将传感器数据转换为 traffic element tokens,用于预测交通元素状态。在 CARLA 仿真环境中,主要考虑交通信号灯(黄、红、绿)和停车标志两类交通信号:

  • 交通信号灯 tokens:输入 MLP 预测信号灯状态及是否对自车产生影响;
  • 停车标志 tokens:输入 MLP 预测停车标志区域与自车的重叠程度。通过焦点损失(Focal Loss)监督这些预测任务。
3.1.4 Image Tokens

Image tokens 作为场景表示的补充,包含丰富的原始信息,与上述实例级 tokens 形成互补,为规划提供更全面的环境描述。

3.2 概率规划

概率规划是 VADv2 的核心创新点,旨在通过建模环境条件下的非平稳随机过程 (其中 为驾驶环境的历史和当前观测, 为候选规划动作),应对规划中的不确定性。

3.2.1 动作空间离散化

规划动作空间是高维连续时空空间 (T 为未来时间步数量),直接拟合连续空间不可行。因此,VADv2 采用以下步骤进行离散化:

  1. 收集驾驶演示中的所有规划动作(轨迹);
  2. 采用最远轨迹采样策略选择 N 个代表性动作组成规划词汇表
  3. 默认 ,且词汇表中的每条轨迹均来自真实驾驶演示,天然满足自车的运动学约束(转换为转向、油门、刹车等控制信号时不会超出可行范围)。

每个动作表示为路径点序列 ,其中每个路径点对应一个未来时间戳。假设动作概率 关于 连续,且对微小偏差不敏感,即

3.2.2 概率场建模

受 NeRF(神经辐射场)建模 5D 空间连续辐射场的启发,VADv2 采用概率场建模动作空间到概率分布的连续映射 ,具体步骤如下:

  1. 动作编码:将每个轨迹 编码为高维规划 token embeddings 。对每个路径点的坐标 pos(x 或 y),通过位置编码函数 映射到高维空间:

    其中 为位置编码的维度, 表示拼接操作。最终 由所有路径点的编码结果拼接得到:

  2. 上下文交互与概率输出:通过级联 Transformer 解码器实现规划 token 与环境 token 的交互,并结合导航信息 embedding 和自车状态 embedding ,通过 MLP 输出动作概率:

    其中 Transformer 的注意力机制设置为 ,确保规划动作与环境信息的有效对齐。

3.2.3 概率规划的优势
  1. 丰富的监督信息:不同于确定性建模仅为目标动作提供稀疏监督,概率规划可为规划词汇表中的所有候选动作提供监督(正样本和负样本),监督信息更全面;
  2. 推理灵活性:输出多模态规划结果,易于与基于规则和优化的规划方法结合,且可灵活添加新的候选动作到词汇表中进行评估;
  3. 不确定性建模:有效捕捉规划中的不确定性,避免确定性模型在非凸可行解空间中的次优决策。

3.3 训练

VADv2 的训练目标包含三类损失函数,总损失为:

3.3.1 分布损失(

用于从大规模驾驶演示中学习动作的概率分布,采用 KL 散度最小化预测分布与数据分布的差异:

训练阶段,将真实轨迹作为正样本加入规划词汇表,其他轨迹作为负样本,并为负样本分配不同权重(与真实轨迹接近的负样本惩罚较轻)。

3.3.2 冲突损失(

利用驾驶场景约束注入驾驶先验知识,正则化预测分布。若规划词汇表中的某个动作与其他智能体的未来运动或道路边界冲突,则将其视为负样本,并施加较大损失权重以降低该动作的概率。

3.3.3 场景 Token 损失(

为确保各类场景 tokens 准确编码对应高层信息,分别设计针对性损失:

  1. Map Token 损失:采用与 MapTRv2 一致的损失函数, 损失用于地图点回归,焦点损失用于地图分类;
  2. Agent Token 损失:包含检测损失和运动预测损失。 损失用于智能体属性(位置、朝向、尺寸等)回归,焦点损失用于智能体分类;对于匹配到真实智能体的预测,生成 K 条未来轨迹,选择最终位移误差(minFDE)最小的轨迹作为代表性预测,采用 损失计算轨迹回归损失,焦点损失用于多模态运动分类;
  3. Traffic Element Token 损失:焦点损失用于监督交通信号灯状态预测、停车标志重叠度预测等任务。

3.4 推理

3.4.1 闭环推理基础策略

在闭环推理中,最直接的策略是在每个时间步采样概率最高的动作,通过 PID 控制器将选中的轨迹转换为控制信号(转向、油门、刹车)。

3.4.2 鲁棒推理策略

在实际应用中,为充分利用概率分布的优势,可采用更鲁棒的策略:

  1. 采样 Top-K 个动作作为候选;
  2. 利用基于规则的包装器过滤候选动作;
  3. 通过基于优化的后处理器优化候选动作;
  4. 动作概率可作为切换传统规划与控制(PnC)和基于学习的 PnC 的判断条件(概率低于阈值时切换到传统方法以确保安全)。

4 实验

4.1 实验设置

4.1.1 仿真环境与基准测试

采用广泛使用的 CARLA 模拟器进行性能评估,选择 Town05 Long 和 Town05 Short 两个基准测试集:

  • Town05 Long:包含 10 条路线,每条路线长约 1km,用于验证模型的综合驾驶能力;
  • Town05 Short:包含 32 条路线,每条路线长 70m,聚焦于特定场景(如路口前变道)的性能评估。
4.1.2 训练数据收集

利用 CARLA 的官方自动驾驶智能体,在 Town03、Town04、Town06、Town07 和 Town10 中随机生成驾驶路线收集训练数据:

  • 采样频率:2Hz;
  • 数据量:约 300 万帧;
  • 每帧数据包含:6 相机环视图像、交通信号、其他交通参与者信息、自车状态;
  • 矢量地图:通过预处理 CARLA 提供的 OpenStreetMap 格式地图获得,仅在训练时作为真实值提供,闭环评估时不使用任何高清地图。
4.1.3 评估指标

闭环评估指标(CARLA 官方指标):

  • 路线完成率(Route Completion):智能体完成路线距离的百分比;
  • 违规分数(Infraction Score):路线中违规程度的量化(违规类型包括闯红灯、碰撞行人等,每种违规有对应惩罚系数,违规越多分数越低);
  • 驾驶分数(Driving Score):路线完成率与违规分数的乘积,为主要评估指标。

开环评估指标:

  • L2 距离:衡量学习到的策略与专家演示的相似度;
  • 碰撞率:评估安全性;
  • 用于消融实验(计算速度快、稳定性高),验证集由 CARLA 官方智能体在 Town05 Long 上生成,结果为所有验证样本的平均值。

4.2 与现有最优方法的对比

4.2.1 Town05 Long 基准测试

表 1 展示了 VADv2 与现有方法在 Town05 Long 上的闭环评估结果。VADv2 取得了 85.1 的驾驶分数、98.4% 的路线完成率和 0.87 的违规分数,表现突出:

  • 相较于之前的最优方法 [49](采用相机 + 激光雷达),VADv2 在路线完成率更高的同时,驾驶分数提升了 9.0;
  • 相较于仅使用相机的最优方法 [45],驾驶分数大幅提升 16.8,充分证明了概率规划和矢量化表示的有效性。
4.2.2 Town05 Short 基准测试

表 2 展示了 VADv2 在 Town05 Short 上的表现(该基准更侧重复杂场景下的特定驾驶行为评估)。与之前的方法 [23] 相比,VADv2 的驾驶分数提升了 25.3,路线完成率提升了 5.7,验证了其在复杂场景(如拥堵车流中变道、路口前变道)的综合驾驶能力。

4.3 消融实验

为验证 VADv2 各关键模块的作用,设计了消融实验,结果如表 3 所示(评估指标为开环 L2 距离和碰撞率,数值越低性能越好):

  1. 无分布损失(ID 1):模型缺乏专家驾驶行为的监督,规划准确性大幅下降,L2 距离和碰撞率显著升高;
  2. 无冲突损失(ID 2):失去驾驶场景约束的先验知识,规划性能受损;
  3. 缺失任意场景 token(ID 3-ID 6):map token、agent token、traffic element token 或 image token 的缺失,都会导致规划性能下降,说明各类 tokens 提供的信息具有互补性,共同支撑有效规划;
  4. 全模块模型(ID 7):整合所有设计模块,取得最优性能,验证了整体框架的合理性。

4.4 可视化结果

图 3 展示了 VADv2 在不同驾驶场景下的定性结果:

  1. 第一幅图:展示了不同行驶速度下的多模态规划轨迹,模型能根据速度自适应生成合理的候选轨迹;
  2. 第二幅图:车道变换场景中,模型预测了缓慢前行和多模态左转轨迹,覆盖了可能的驾驶决策;
  3. 第三幅图:路口右转场景中,模型为直行和右转两种动作生成了多条轨迹,体现了规划的灵活性;
  4. 第四幅图:目标车道有车辆的变道场景中,模型预测了多条合理的变道轨迹,避免与前车碰撞,验证了其安全性。

注:从左到右依次为不同速度下的多模态轨迹、车道变换场景的左转轨迹、路口右转场景的多动作轨迹、目标车道有车的变道轨迹。

5 结论与未来工作

VADv2 提出了一种基于概率规划的端到端矢量化自动驾驶方案,通过将规划策略建模为环境条件下的非平稳随机过程,有效应对了驾驶场景中的不确定性。模型通过场景编码器提取多类型环境 token embeddings,结合动作空间离散化和概率场建模,实现了动作概率分布的准确预测。在 CARLA 模拟器的 Town05 基准测试中,VADv2 仅依赖相机传感器就取得了当前最优的闭环性能,且无需基于规则的包装器即可稳定运行,充分验证了概率规划范式的可行性。

未来工作将聚焦于探索该方法在更复杂真实世界场景中的有效性。真实道路环境面临更多不可预见的因素(如突发交通事件、极端天气等),如何进一步优化概率建模以适应这些场景,提升模型的鲁棒性和安全性,将是后续研究的核心方向。此外,如何减少训练数据依赖、提升模型的泛化能力,以及将激光雷达等多模态传感器融合到现有框架中,也值得深入探索。

相关推荐
提娜米苏2 小时前
[论文笔记] End-to-End Audiovisual Fusion with LSTMs
论文阅读·深度学习·lstm·语音识别·论文笔记·多模态
m0_650108242 小时前
DiffusionDrive:面向端到端自动驾驶的截断扩散模型
论文阅读·扩散模型·端到端自动驾驶·阶段扩散策略·高级联扩散解码器·cvpr2025
m0_650108243 小时前
DiffVLA:视觉语言引导的扩散规划在自动驾驶中的创新与实践
自动驾驶·扩散模型·多模态融合·端到端规划·混合稀疏-稠密感知模块·vlm命令引导·截断扩散
Wai-Ngai3 小时前
自动驾驶控制算法——模型预测控制(MPC)
人工智能·机器学习·自动驾驶
提娜米苏3 小时前
[论文笔记] 基于 LSTM 的端到端视觉语音识别 (End-to-End Visual Speech Recognition with LSTMs)
论文阅读·深度学习·计算机视觉·lstm·语音识别·视觉语音识别
QianCenRealSim3 小时前
FSD入华“加速”中国自动驾驶产业的推动与重构
人工智能·重构·自动驾驶
m0_650108243 小时前
BEVDet:鸟瞰图视角下的高性能多相机 3D 目标检测
论文阅读·bevdet·bev视角·3d目标检测范式·多任务统一框架·bev语言分割
AI Planner&Control4 小时前
自动驾驶控制算法——车辆七自由度动力学模型
自动驾驶
韩曙亮4 小时前
【自动驾驶】Autoware 三大版本 ( Autoware.AI | Autoware.Auto | Autoware Core/Universe )
人工智能·机器学习·自动驾驶·autoware·autoware.ai·autoware.auto