VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

摘要

从大规模驾驶示范中学习类人驾驶策略具有良好的前景，但规划中的不确定性与非确定性特征使其颇具挑战。现有的基于学习的规划方法遵循确定性范式，直接回归具体动作，因而难以应对不确定性问题。在本工作中，我们提出了一种用于端到端自动驾驶的概率规划模型 ，名为 VADv2。我们采用概率场函数来建模从动作空间到概率分布的映射关系。鉴于规划动作空间是一个难以处理的高维连续时空空间，我们首先将规划动作空间离散化为一个庞大的规划词汇表，随后将该词汇表标记化为规划令牌（tokens）。规划令牌与场景令牌进行交互，并输出动作的概率分布。我们利用海量驾驶示范对该概率分布进行监督学习。VADv2 在 CARLA Town05 基准测试中实现了最先进的闭环性能，显著优于现有方法，并且在最新的 Bench2Drive 基准测试中也处于领先地位。此外，我们在 NAVSIM 以及一个基于大规模 3D高斯泼溅（3DGS）的基准测试上进行了全面评估，证明了其在实际应用场景中的有效性。代码已开源：https://github.com/hustvl/VAD。

1 引言

端到端自动驾驶是当前重要的研究课题。现实场景中易于获取大规模的人类驾驶示范数据。从这些丰富的示范数据中提取出类人的车辆控制策略极具潜力。然而，规划中的不确定性和非确定性特征使得从驾驶示范中提取驾驶知识变得颇具挑战。为了阐明这种不确定性，图 1 展示了两种场景并解释如下：1) 跟随前车：人类驾驶者会表现出多种合理的驾驶 maneuver（机动操作），例如保持当前车道或变道超车。2) 与对向车辆交互：人类驾驶者面临两种潜在的驾驶 maneuver，即让行或超车。从统计学角度来看，这些动作（包括时机和速度）具有高度的随机性，受到众多无法被准确建模的潜在因素影响。

现有的基于学习的规划方法（Jiang 等人，2023；Hu 等人，2022c；Jia 等人，2023b；Prakash 等人，2021b；Hu 等人，2022a；Zhang 等人，2021）遵循确定性范式，直接回归具体动作。其回归目标在 (Jiang 等人，2023; Hu 等人，2022c; Jia 等人，2023b; Prakash 等人，2021b) 中为未来轨迹，在 (Hu 等人，2022a; Zhang 等人，2021) 中为控制信号（加速度和转向）。这种范式假设驾驶场景与动作之间存在确定性关系 ，然而事实并非如此。人类驾驶行为的方差导致了回归目标的不确定性 。特别是当可行解空间非凸时，即存在多个可行解（见图 1），确定性建模可能无法妥善处理此类情况，从而产生中间态动作，带来潜在的安全风险。

在本文中，我们提出概率规划 （probabilistic planning）以应对规划中的不确定性。我们将规划策略建模为一种场景条件的非平稳随机过程，形式化为 p(a∣o)p(a|o)p(a∣o)，其中 ooo 是驾驶场景的历史和当前观测值，aaa 是候选的规划动作。与确定性规划相比，概率规划对规划中的不确定性具有更强的鲁棒性，并且能够建模非凸的可行解空间，从而实现更准确、更安全的规划。

我们采用概率场函数来建模从规划动作空间到概率分布的映射。由于动作空间是一个高维的连续时空空间，难以直接处理，我们首先将规划动作空间离散化为一个庞大的规划词汇表（planning vocabulary），然后将该词汇表标记化为规划令牌（planning tokens）。规划令牌与场景令牌（scene tokens）进行交互，并输出动作的概率分布。利用大规模驾驶演示数据对该分布进行监督。

概率规划还有两个其他优势。首先，与必须基于场景信息回归最优动作的确定性规划不同，概率规划建模了每个动作与驾驶场景之间的相关性。它仅需对不同动作进行排序，并采样一个高评分动作即可。这种建模方式更为简单。此外，概率规划在推理阶段具有灵活性。它输出多模态的规划结果，并易于与基于规则和优化方法的规划方法相结合。由于我们对整个动作空间建模分布，因此可以灵活地将其他候选规划动作添加到规划词汇表中并进行评估。

基于概率规划，我们提出了 VADv2，这是一种端到端的驾驶模型。它以流式方式输入环绕视角图像序列，对传感器数据和规划动作空间进行令牌化，输出动作的概率分布，并采样一个动作来控制车辆。仅使用摄像头传感器，VADv2 在 CARLA Town05 基准测试上实现了最先进的闭环性能，显著优于现有方法，并在最近的 Bench2Drive 基准测试中保持领先。它在 NAVSIM 和我们基于 3DGS 的基准测试上也展现了强大的规划性能。VADv2 在完全端到端的方式下稳定运行，即使没有作为后处理步骤以避免违规的基于规则的包装器也是如此。

我们的贡献总结如下：

我们提出概率规划以应对规划的不确定性和非确定性本质。我们设计了一个概率场，将动作空间映射到概率分布，并从大规模驾驶演示中学习动作分布。
基于概率规划，我们提出了 VADv2，这是一种端到端的驾驶模型，它对传感器数据和规划动作空间进行令牌化以实现交互，输出动作的概率分布，并采样一个动作来控制车辆。
VADv2 在多个基准测试的闭环和开环设置中均实现了最先进的规划性能。大量的闭环仿真和真实世界部署结果验证了其在车辆控制中的有效性和稳定性。

2 相关工作

感知。 感知是实现自动驾驶的第一步，统一的驾驶场景表示有利于轻松集成到下游任务中。鸟瞰图（BEV）表示近年来已成为一种常见策略，实现了有效的场景特征编码和多模态数据融合。LSS (Philion & Fidler, 2020) 是一项开创性工作，通过显式预测图像像素的深度，实现了从透视视图到 BEV 的转换。另一方面，BEVFormer (Li et al., 2022c) 通过设计空间和时间注意力机制避免了显式深度预测。后续工作 (Li et al., 2022b; Wang et al., 2023a) 持续优化时间建模和 BEV 转换策略。在向量化映射方面，HDMapNet (Li et al., 2022a) 通过后处理将车道分割转换为向量地图。VectorMapNet (Liu et al., 2022) 以自回归方式预测向量地图元素。MapTR (Liao et al., 2022; 2023b) 引入了置换等价性和分层匹配策略，显著提高了映射性能。LaneGAP (Liao et al., 2023a) 为车道图引入了路径级建模。

运动预测。 运动预测旨在预测其他交通参与者的未来轨迹，辅助自车做出明智的规划决策。传统的运动预测方法利用历史轨迹和高精度地图等输入来预测未来轨迹 (Gao et al., 2020; Liu et al., 2021)。然而，最近的一些端到端方法 (Gu et al., 2022; Jiang et al., 2022) 联合执行感知和运动预测。一些工作 (Hu et al., 2021; Zhang et al., 2022) 将未来运动表示为密集占据和流场，而另一些工作 (Gu et al., 2022; Jiang et al., 2022) 则预测智能体级别的多模态轨迹。另一类工作将轨迹预测重新表述为分类问题，而非回归任务。Trajeglish (Philion et al., 2023) 引入了 K-圆盘采样来构建紧凑的一步运动词汇表，与 k-means 相比实现了更低的离散化误差。MotionLM (Seff et al., 2023) 将每个单步动作分解为纵向和横向分量，并应用轴对齐的均匀量化。虽然这种单步建模实现了紧凑的表示和小词汇表，但迭代展开（iterative rollout）可能导致误差累积，并可能产生违反物理约束的轨迹。相比之下，VADv2 中的每个动作令牌代表完整的轨迹，确保物理上可行的运动基元，并实现无误差累积的一次性规划。

规划。 学习型的规划因其数据驱动的性质以及随着数据量增加而表现出的令人印象深刻的性能，最近显示出巨大的潜力。早期的尝试 (Codevilla et al., 2019; Prakash et al., 2021a) 采用完全的黑盒方法，即直接使用传感器数据预测控制信号。然而，这种策略缺乏可解释性且难以优化。此外，还有大量研究将强化学习与规划相结合 (Zhang et al., 2021; Gao et al., 2025)，通过在闭环仿真环境中自主探索驾驶行为来优化规划。模仿学习 (Chekroun et al., 2021; Hu et al., 2022b; Ma et al., 2025) 是另一个研究方向，模型通过学习专家驾驶行为来实现良好的规划性能，并发展出接近人类驾驶员的驾驶风格。

UniAD (Hu et al., 2022c) 整合了多种感知和预测任务以增强规划性能。VAD (Jiang et al., 2023) 探索了向量化场景表示在规划中的潜力，并摆脱了对密集地图的依赖。Diffusion Planner (Zheng et al., 2025) 通过迭代扩散联合预测自车和其他智能体的运动，但它依赖于真实感知和高精度地图。DiffusionDrive (Liao et al., 2025) 通过截断扩散加速去噪过程；然而，有限且预定义的轨迹锚点可能会限制生成质量，而增加锚点数量会引入额外的计算成本。GoalFlow (Xing et al., 2025) 将规划分解为目标点选择，随后通过流匹配生成轨迹，但仅依赖单个目标点可能会影响轨迹多样性，且其手工制作的轨迹选择规则限制了通用性和可扩展性。

自动驾驶中的大型语言模型。 最近的研究探索了 LLM 与自动驾驶的结合 (Sha et al., 2023; Xu et al., 2023)。一类工作利用 LLM 通过问答进行驾驶场景理解和评估 (Chen et al., 2023; Sima et al., 2024)。另一种方法更进一步，直接利用 LLM 进行规划 (Wang et al., 2023b; 2024)。然而，当前的基于 LLM 的规划方法不可避免地受到推理速度有限的制约，这限制了它们在自动驾驶应用中实时部署的实用性。VADv2 受到 GPT (Achiam et al., 2023) 的启发以应对不确定性问题 ，该问题在语言建模中也同样存在。给定特定上下文，下一个词是非确定性的，LLM 从大规模语料库中学习基于上下文的下一个词的概率分布，并从分布中采样一个词。受 LLM 启发，VADv2 将规划策略建模为场景条件的非平稳随机过程。VADv2 将动作空间离散化以生成规划词汇表，基于大规模驾驶演示近似概率分布，并在每个时间步从分布中采样一个动作来控制车辆。

图 2: VADv2 的整体架构。 VADv2 以流式方式输入多视角图像序列，对传感器数据和规划动作空间进行令牌化，输出动作的概率分布，并采样一个动作来控制车辆。大规模驾驶演示和场景约束用于监督预测分布。

3 VADv2

VADv2 的整体框架如图 2 所示。VADv2 以流式方式接收多视图图像序列作为输入，将传感器数据转换为场景 token 嵌入（token embeddings），输出动作的概率分布，并采样一个动作来控制车辆。大规模驾驶演示数据和场景约束被用于监督预测的概率分布。

3.1 场景编码器 (SCENE ENCODER)

VADv2 使用场景编码器将传感器数据转换为实例级别的 token 嵌入 Escene∈RM×DE_{scene} \in \mathbb{R}^{M \times D}Escene∈RM×D，以显式地提取高级信息，其中 MMM 是场景 token 的数量，DDD 是特征维度。具体而言，EsceneE_{scene}Escene 包括四种类型的场景 token：地图 token（map tokens）、智能体 token（agent tokens）、交通元素 token（traffic element tokens）和图像 token（image tokens）。

BEV 编码器。 首先采用 BEV 编码器（Li et al., 2022c）将透视视图中的多视图图像特征转换为鸟瞰图（Bird's Eye View, BEV），在 BEV 空间中生成特征图。该特征图作为学习实例级别的地图和智能体特征的基础。

地图 Token。 引入一组地图 token（Liao et al., 2023b）以从 BEV 特征图中学习驾驶场景的向量化地图元素，包括车道中心线、车道分隔线、道路边界和人行横道。

智能体 Token。 此外，采用一组智能体 token（Jiang et al., 2023）来预测交通参与者的运动信息，包括位置、朝向、尺寸、速度以及未来轨迹。

交通元素 Token。 交通信号在规划中也起着至关重要的作用。在 CARLA 中，我们考虑两种类型的交通信号：交通信号灯和停车标志。从主干网络中提取的前视图图像特征进一步通过 MLP 编码为交通元素 token，随后用于预测交通信号灯的状态。

图像 Token。 除了上述实例级别的 token 外，前视图图像特征也被用作图像 token。这些图像 token 为规划提供更密集的场景特征，捕捉丰富的信息，以补充实例级别的 token。

地图 token、智能体 token 和交通元素 token 通过相应的监督信号进行监督，以确保它们显式地编码相应的高级信息。此外，导航信息和自车状态也通过 MLP 编码为嵌入 (Enavi,EstateE_{navi}, E_{state}Enavi,Estate)。总之，场景编码器将稀疏的传感器数据转换为更紧凑的高级场景特征 (Escene,Enavi,EstateE_{scene}, E_{navi}, E_{state}Escene,Enavi,Estate)，这些特征构成了后续规划模块的基础。

3.2 概率规划 (PROBABILISTIC PLANNING)

我们提出概率规划以应对规划中的不确定性。我们将规划策略建模为以场景为条件的非平稳随机过程，形式化为 p(a∣o)p(a|o)p(a∣o)，其中 ooo 是观察到的场景信息，aaa 是动作，表示为未来规划轨迹的路径点序列：

o=(Escene,Enavi,Estate),a=(x1,y1,x2,y2,...,xT,yT).(1) o = (E_{scene}, E_{navi}, E_{state}), \quad a = (x_1, y_1, x_2, y_2, \dots, x_T, y_T). \quad (1) o=(Escene,Enavi,Estate),a=(x1,y1,x2,y2,...,xT,yT).(1)

TTT 是路径点的数量。每个路径点 (xi,yi)(x_i, y_i)(xi,yi) 对应于未来的时间戳 tit_iti。

我们基于大规模驾驶演示来近似规划动作空间的概率分布，并在每个时间步从该分布中采样一个动作来控制车辆。

规划动作空间是一个高维的连续时空空间，难以直接处理。因此，我们将规划动作空间离散化为一个大的规划词汇 V={ai}i=1NV = \{a_i\}_{i=1}^NV={ai}i=1N，其中 NNN 是词汇大小。具体而言，我们收集驾驶演示中的所有规划动作作为规划动作集合 SSS，并采用最远轨迹采样法（furthest trajectory sampling）选择 NNN 个代表性动作作为规划词汇。词汇采样算法如算法 1 所示。

算法 1：规划词汇采样

输入： 规划动作集合 SSS，规划词汇大小 NNN

输出： 规划词汇 VVV

初始化： V←∅V \leftarrow \emptysetV←∅

text 复制代码

for i = 1 to N - 1 do
    if V == ∅ then
        random select an action a in S
        V ← V ∪ {a}          // 将动作添加到规划词汇中
        S ← S \ {a}          // 从规划动作集合中移除动作
    end
    max_dis = 0
    for trajectory a in S do
        dis = calculate_distance(a, V)
        if dis > max_dis then
            max_dis = dis
            â = a            // 更新当前最远的轨迹
        end
    end
    V ← V ∪ {â}
end
Return: V

注：calculate_distance 将计算动作 aaa 的端点与集合 VVV 中所有动作的端点之间的距离。它将返回这些距离中的最小值作为结果。

VVV 中的每个规划动作均从驾驶演示中采样，因此自然满足自车的运动学约束，这意味着当动作转换为控制信号（转向、油门和刹车）时，控制信号的值不会超出可行范围。默认情况下，NNN 设置为 4096。

假设概率 p(a)p(a)p(a) 关于 aaa 是连续的，且对 aaa 的微小扰动不敏感，即 lim⁡Δa→0(p(a)−p(a+Δa))=0\lim_{\Delta a \to 0} (p(a) - p(a + \Delta a)) = 0limΔa→0(p(a)−p(a+Δa))=0。受 NeRF（Mildenhall et al., 2020）的启发，该模型对 5D 空间上的连续辐射场进行建模，我们也借助概率场来建模从动作空间到概率分布的连续映射。

具体而言，我们首先将每个动作（轨迹路径点）编码为高维规划 token 嵌入 E(a)E(a)E(a)：

E(a)=(Γ(xi),Γ(yi))i=1T,Γ(pos)=(γ(pos,j))j=0L−1,γ(pos,j)=(cos⁡(pos/100002πj/L),sin⁡(pos/100002πj/L)).(2) E(a) = \left(\Gamma(x_i), \Gamma(y_i)\right){i=1}^T, \quad \Gamma(pos) = \left(\gamma(pos, j)\right){j=0}^{L-1}, \quad \gamma(pos, j) = \left(\cos(pos/10000^{2\pi j/L}), \sin(pos/10000^{2\pi j/L})\right). \quad (2) E(a)=(Γ(xi),Γ(yi))i=1T,Γ(pos)=(γ(pos,j))j=0L−1,γ(pos,j)=(cos(pos/100002πj/L),sin(pos/100002πj/L)).(2)

Γ\GammaΓ 是一个编码函数，将每个从 R\mathbb{R}R 到 R2L\mathbb{R}^{2L}R2L 的坐标映射到高维嵌入空间，并分别应用于轨迹 aaa 的每个坐标值。pospospos 表示位置（指路径点的 xxx 或 yyy 坐标）。我们使用这些函数将连续坐标映射到更高维的空间，以更好地逼近高频场函数。

然后，一个级联 Transformer 解码器 ϕ\phiϕ 与场景信息 EsceneE_{scene}Escene 交互，并结合导航 EnaviE_{navi}Enavi 和自车状态 EstateE_{state}Estate，预测每个动作的概率：

p(a)=σ(MLP(ϕ(E(a),Escene)+Enavi+Estate)).(3) p(a) = \sigma(\text{MLP}(\phi(E(a), E_{scene}) + E_{navi} + E_{state})). \quad (3) p(a)=σ(MLP(ϕ(E(a),Escene)+Enavi+Estate)).(3)

σ\sigmaσ 是 Sigmoid 函数。在 Transformer 解码器 ϕ\phiϕ 中，E(a)E(a)E(a) 作为查询（query），EsceneE_{scene}Escene 作为键（key）和值（value）。E(a)E(a)E(a)、EnaviE_{navi}Enavi、EstateE_{state}Estate 和 MLP 的输出具有相同的维度 (1×D)(1 \times D)(1×D)。

3.3 训练 (TRAINING)

我们使用三种监督信号对 VADv2 进行训练：分布损失（distribution loss）、冲突损失（conflict loss）和场景 token 损失（scene token loss）。

分布损失。 我们从大规模驾驶演示中学习概率分布。使用 KL 散度来最小化预测分布与数据分布之间的差异：

Ldistribution=DKL(pdata∣∣ppred)=∑a∈Vpdata(a)⋅log⁡pdata(a)ppred(a),(4) L_{distribution} = D_{KL}(p_{data} || p_{pred}) = \sum_{a \in V} p_{data}(a) \cdot \log \frac{p_{data}(a)}{p_{pred}(a)}, \quad (4) Ldistribution=DKL(pdata∣∣ppred)=a∈V∑pdata(a)⋅logppred(a)pdata(a),(4)

其中 pdata(a)p_{data}(a)pdata(a) 通过演示中的出现频率进行估计。由于 pdata(a)p_{data}(a)pdata(a) 是固定的，pdata(a)⋅log⁡pdata(a)p_{data}(a) \cdot \log p_{data}(a)pdata(a)⋅logpdata(a) 是一个常数，可以省略。因此，最小化 KL 散度等价于优化交叉熵损失：

Ldistribution=−∑a∈Vpdata(a)⋅log⁡ppred(a).(5) L_{distribution} = - \sum_{a \in V} p_{data}(a) \cdot \log p_{pred}(a). \quad (5) Ldistribution=−a∈V∑pdata(a)⋅logppred(a).(5)

对于演示中的每一帧，我们选择规划词汇中与真实动作（ground-truth action）L2 距离最小的动作。该最佳匹配的动作被赋予标签 1，所有其他动作被赋予标签 0。在所有帧上，通过计算每个动作作为最佳匹配的次数，并除以总帧数，来估计动作 aaa 的出现频率 pdata(a)p_{data}(a)pdata(a)。这种建模方式类似于大语言模型中的标准形式，其中真实 token 标记为 1，其他为 0，并使用交叉熵损失来最小化预测分布与经验分布之间的差异。

冲突损失。 驾驶场景约束用于帮助模型学习重要的驾驶先验，并正则化预测的动作分布。具体而言，如果规划词汇中的某个动作与其他智能体的真实未来运动或道路边界发生冲突，则将其视为负样本，并应用相应的损失以降低其概率：

Lconflict=∑a∈V1conflict(a)⋅log⁡ppred(a).(6) L_{conflict} = \sum_{a \in V} 1_{conflict}(a) \cdot \log p_{pred}(a). \quad (6) Lconflict=a∈V∑1conflict(a)⋅logppred(a).(6)

1conflict(a)1_{conflict}(a)1conflict(a) 是指示函数，如果 aaa 发生冲突，其值为 1，否则为 0。

场景 Token 损失。 地图、智能体和交通元素 token 通过相应的监督信号进行监督，以确保它们显式地编码相关的高级信息。

地图 token 的损失与 MapTRv2（Liao et al., 2023b）相同。采用 L1 损失来计算预测地图点与真实地图点之间的回归损失。使用 Focal 损失作为地图分类损失。

智能体 token 的损失由检测损失和运动预测损失组成（Jiang et al., 2023）。采用 L1 损失作为回归损失来预测智能体属性（位置、朝向、尺寸等），并使用 Focal 损失来预测智能体类别。对于每个与真实智能体匹配的智能体，我们预测 KKK 条未来轨迹，并使用具有最小最终位移误差（minFDE）的轨迹作为代表性预测。然后，计算该代表性预测与真实轨迹之间的 L1 损失轨迹与真实轨迹之间的运动回归损失。此外，采用焦点损失（Focal Loss）作为多模态运动分类损失。

交通元素标记由两部分组成：交通灯标记和停止标志标记。一方面，我们将交通灯标记送入多层感知机（MLP）以预测交通灯的状态（黄灯、红灯和绿灯）以及交通灯是否对自车产生影响。另一方面，停止标志标记也被送入多层感知机（MLP）以预测停止标志区域与自车之间的重叠程度。这些预测均使用焦点损失（Focal Loss）进行监督。最终损失可表示为：

L=Ldistribution+Lconflict+Ltoken(7)L = L_{\text{distribution}} + L_{\text{conflict}} + L_{\text{token}} \tag{7}L=Ldistribution+Lconflict+Ltoken(7)

3.4 推理过程

在闭环推理中，从分布中提取驾驶策略具有较强的灵活性。直观地讲，我们在每个时间步采样具有最高概率的动作，并通过PID控制器将所选动作转换为控制信号（转向、油门和制动）。

在现实世界的应用中，存在更为鲁棒的策略以充分利用概率分布。一种良好的实践方法是：采样前K个高概率动作作为候选方案，然后采用基于规则的包装器对候选方案进行筛选，并使用基于优化的后置求解器进行细粒度的轨迹优化。此外，动作的概率反映了端到端模型的可信程度，可作为判断条件，用于在传统的基于规则的规划与控制和学习型的规划与控制之间进行切换。

4 实验

4.1 实验设置

CARLA 基准。我们首先使用 CARLA（Dosovitskiy 等人，2017）模拟器来评估 VADv2 的性能。我们在广泛采用的 Town05 场景上进行闭环评估Bench2Drive Jia 等人（2024）基准。具体而言，每个基准包含若干预定义的驾驶路线。闭环推理的仿真和控制频率为 10 Hz。VADv2 以流式方式输入多视角图像序列，并预测未来 3 秒的轨迹。该轨迹由 6 个航点组成（即 T = 6）。相邻两个航点之间的时间间隔为 0.5 秒。VADv2 的默认特征维度 D 设置为 256。所有实验均基于 16 块 NVIDIA 4090 GPU 进行。

CARLA 数据。针对 Town05 基准的驾驶演示数据生成，我们使用 CARLA 官方自动驾驶智能体，通过在 Town03、Town04、Town06、Town07 和 Town10 中随机生成驾驶路线来收集训练数据。我们收集了大约 300 万个片段用于训练。对于每个片段，我们保存了过去 1.6 秒内以 10 Hz 采样的 6 相机环视图像序列，以及交通信号灯、交通参与者和自车状态信息。此外，我们通过预处理 CARLA 提供的 OpenStreetMap (Haklay & Weber, 2008) 格式地图，为在线地图模块的训练获取矢量化地图。这些地图仅在训练期间作为真实标签使用，而 VADv2 在评估中不使用高精地图。

NAVSIM 和基于 3DGS 的基准。为进一步验证模型在现实世界场景中的泛化能力，我们还在 NAVSIM、NAVSIMv2 (Dauner 等人, 2024) 以及一个大规模的基于 3D Gaussian Splatting (3DGS) (Kerbl 等人, 2023) 的基准上对 VADv2 进行了评估。我们收集了 2000 小时的真实人类驾驶演示数据用于训练，并利用 337 个重建的 3D Gaussian Splatting (3DGS) 环境进行闭环评估。每个环境包含一个 8 秒的场景，捕捉密集交通中具有潜在碰撞风险的交互情况，从而提供具有代表性的现实世界驾驶行为和多智能体交互片段。

照片级真实的 3DGS 重建实现了准确的智能体轨迹建模和动态环境渲染，提供了一个与真实驾驶条件高度相似的测试平台。由于篇幅限制，关于基于 3DGS 的基准的更多细节请参见附录 A。我们还将在真实车辆上部署 VADv2，相关结果见补充材料。

5 结论与局限性

在本研究中，我们提出了 VADv2，一种基于概率规划的端到端驾驶模型。该模型在 CARLA 模拟器中运行稳定，并取得了最先进的闭环性能，显著优于现有方法。在 NAVSIM 和基于 3DGS 的基准测试上进行的综合实验进一步验证了其在复杂驾驶场景中的有效性和鲁棒性。本研究主要证实了该概率规划范式的可行性。

目前，模拟器以及基于 3DGS 的闭环环境仍存在一定局限，例如智能体行为较为简单、场景真实度不足，这些因素可能制约 VADv2 的性能表现。在未来的工作中，我们计划探索如何利用大规模专家驾驶数据以进一步提升规划性能，并弥合仿真环境与真实世界部署之间的差距。

附录

A.2 更多消融实验

词汇表大小。我们在表10中针对词汇表大小进行了消融实验。随着词汇表规模的增大，L2误差和碰撞率指标均有所改善。更大的词汇表能够以更少的离散化误差更好地表征动作空间。

训练片段数量。表11展示了用于训练端到端模型的驾驶演示片段数量的消融实验结果。正如预期，随着数据量的增加，模型的L2误差和碰撞率指标均得到改善。

概率式与确定性方法。在Town05 Long基准上的消融结果（表12）表明，在开环评估中，确定性规划与概率式规划的表现相似。然而，在闭环设置下，概率式规划在稳定性和性能方面显著优于确定性规划，而确定性规划在面对规划不确定性时表现不佳。

词汇表采样策略。在表13中，我们报告了不同词汇表采样策略下的离散误差和规划性能。对于NAVSIM中的每个训练样本，我们选取了词汇表生成 L2 距离最小的轨迹，并据此计算每个时间步的 L2 误差。我们分别计算平均 L2 误差和最大 L2 误差，并在所有样本上进行平均。策略的选择仅带来微小差异，其中最远轨迹采样（Furthest Trajectory Sampling, FTS）实现了最佳的动作空间覆盖，并取得了最强的性能结果。我们还通过对 nuScenes 训练集中的轨迹进行采样来构建词汇表，并在 NAVSIM 上进行评估，结果显示性能相当，表明 VADv2 能够有效泛化到不同的场景。

A.3 基于 3DGS 基准测试的更多评估细节

表 14 展示了我们数据集中多样且具挑战性的测试场景，从而支持更为稳健的评估。我们还评估了在不同天气条件下基于 3DGS 的重建效果，在晴天、雨天和夜间场景下的峰值信噪比（PSNR）指标分别为 29.5、28.8 和 28.2，展现了领先水平的性能。