MindDrive：融合世界模型与视觉语言模型的端到端自动驾驶框架

端到端自动驾驶（E2E-AD）已成为自动驾驶领域的主流研究范式，其中轨迹规划是决定系统性能的核心环节。现有研究主要分为两类：一类以轨迹生成为核心，专注于生成高质量轨迹但决策机制简单；另一类以轨迹选择为核心，具备多维度评估能力但生成能力不足。为此，本文提出 MindDrive 框架，创新性地整合了高质量轨迹生成与全面决策推理，构建了 "假设仿真 - 候选生成 - 多目标权衡" 的结构化推理范式。该框架通过基于世界动作模型（WAM）的未来感知轨迹生成器（FaTG）实现基于自车状态的 "假设" 仿真，预测未来场景并生成具有前瞻性的轨迹候选；借助视觉语言模型（VLM）驱动的评估器（VLoE），从安全、舒适、效率等维度进行多目标评估，实现符合人类驾驶意图的决策。在 NAVSIM-v1 和 NAVSIM-v2 基准测试中，MindDrive 在多维度驾驶指标上均达到当前最优性能，显著提升了自动驾驶的安全性、合规性和泛化能力，为可解释性和认知引导的自动驾驶提供了可行路径。

原文链接：https://arxiv.org/pdf/2512.04441

代码链接：暂无

沐小含持续分享前沿算法论文，欢迎关注...

1. 引言

1.1 端到端自动驾驶研究背景

近年来，端到端自动驾驶（E2E-AD）取得了显著进展，成为自动驾驶研究中最具前景的方向之一。该范式将感知、预测和规划整合到一个可微分的统一框架中，有效减少了误差传播，提升了跨任务协同性。早期研究主要聚焦于感知层面，旨在提升场景理解能力；Think Twice 则将研究重心转向规划层面，揭示了规划解码器的架构、容量和推理能力对系统整体性能的关键影响。

作为开创性工作，UniAD 通过密集的 "感知 - 预测 - 规划" 级联，将多个子任务融入单一训练流程。随后，一系列轻量化 E2E-AD 方法采用向量化或稀疏表示，高效建模车道、交叉口和动态智能体，降低了计算成本。近年来，研究进一步聚焦于规划阶段，将各种生成范式与共享时空特征的 Transformer-based 规划头相结合，以提升轨迹质量。随着 E2E-AD 系统中感知模块的日益成熟，研究焦点已从场景理解逐步转向高效、安全、舒适的轨迹规划，使规划成为当前 E2E-AD 研究的核心议题。

1.2 现有规划方法的分类与局限

现有规划研究根据核心焦点可分为两大类：轨迹生成导向方法和轨迹选择导向方法。

轨迹生成导向方法（如图 1 (a) 所示）致力于提升规划轨迹的多样性和适应性。代表性工作如 VADv2、GaussianAD 和 DiffusionDrive，分别采用多模态自回归建模、概率分布或扩散机制，捕捉驾驶行为的随机性和复杂交通动态。除多模态特性外，近期研究还强调轨迹生成中的时间连贯性，Bridging Past and Future 和 MomAD 等方法利用历史运动线索提升时间稳定性和行为一致性，确保与长期驾驶意图对齐。此外，大型语言模型和视觉语言模型的出现提供了新的生成范式，使高层语义和场景推理能够直接融入轨迹生成过程。

轨迹选择导向方法（如图 1 (b) 所示）则专注于评估预生成的轨迹候选，筛选出最优可行轨迹。早期工作如 WoTE 和 Hydra-MDP 训练神经评分模型，模拟数据集级别的基准指标，通过监督学习逼近大型驾驶数据集定义的替代分数，从而替代手工设计的基于规则的评估器。近期研究如 SimpleVSF 扩展了该范式，引入 VLM 增强评分机制，利用视觉语言模型为神经评分网络提供更丰富的驾驶场景上下文和语义理解。

尽管上述方法极大地扩展了现代规划系统的建模能力，为轨迹决策奠定了坚实基础，但仍存在显著局限：

轨迹生成导向方法将大量建模资源用于生成高质量候选轨迹，但最终选择通常依赖简单的 MLP 头、启发式规则或粗糙的评分策略，缺乏对安全、舒适、效率和规则合规性的多目标评估。即使候选集中存在优秀轨迹，系统也可能无法选中，导致次优决策。
轨迹选择导向方法投入大量资源构建复杂评分器，但依赖传统或轻量化机制生成候选轨迹。无论评分器的表达能力多么强大，其性能本质上受限于候选空间的覆盖范围和质量 ------ 强大的评估器无法挽救薄弱的生成器。

总体而言，现有方法虽均遵循 "生成 - 选择" 的规划流程，但研究通常仅聚焦于流程的一侧，导致两个阶段存在内在不平衡，这是现有规划流程的核心局限。因此，即使拥有强大的生成模型或评估器，E2E-AD 系统仍难以充分利用统一建模和联合决策的优势，为更平衡、更集成的规划框架留下了巨大改进空间。

1.3 MindDrive 框架的核心动机与贡献

在复杂驾驶场景中，具有高度认知能力的人类驾驶员会以结构化、前瞻性的方式进行推理：生成候选选项、模拟其未来演变和风险，并通过多目标权衡选择最优方案。要在自动驾驶中实现类人推理，既需要预测场景可能演变的能力，也需要以结构化方式比较多个行为选项的推理能力。世界模型的引入为这种预测性场景想象提供了可行路径，使系统能够探索未来可能的发展；同时，大型语言模型的推理能力提供了高层语义和上下文推理支持，助力更明智的候选行为评估。

基于此，本文提出 MindDrive------ 一个融合前瞻性轨迹生成和全面候选轨迹选择的协调规划框架。其核心贡献如下：

提出 MindDrive 框架，以协调设计的方式整合高质量轨迹生成和全面决策推理，解决现有方法中生成与选择不平衡的问题。
引入由世界动作模型（WAM）驱动的未来感知轨迹生成器（FaTG），模拟候选轨迹的时空演变，实现具有预测性和前瞻性的规划。
设计 VLM 导向的评估器（VLoE），利用视觉语言模型的语义推理和泛化能力，从安全、舒适、效率等多个维度评估候选轨迹。
在 NAVSIM-v1 和 NAVSIM-v2 基准测试中进行了大量实验，证明 MindDrive 相较于当前最优 E2E-AD 方法，性能得到了显著提升。

注：(a) 轨迹生成导向方法 $6,7,18,11$ 投入大量资源生成多样化轨迹，但依赖弱选择器（通常是简单的 MLP 或 softmax 头），导致最终决策次优；(b) 轨迹选择导向方法 $16,15,17$ 提供多指标评估（安全、效率、舒适），但依赖有限的候选生成，限制了整体规划性能；(c) 本文提出的 MindDrive 整合了基于世界模型的轨迹生成和 VLM 驱动的多目标推理，在协调设计中实现高质量生成和全面选择。

2. 相关工作

2.1 端到端自动驾驶

随着端到端自动驾驶中感知技术的逐步成熟，研究焦点已逐渐转向规划层面。ThinkTwice 强调规划模块的设计对系统整体性能具有决定性作用，这激发了一系列以规划为中心的系统性探索。近期研究主要沿着三个相互关联的方向发展：

第一个方向致力于实现预测与规划的深度耦合。例如，SparseDrive 采用并行架构，联合优化预测和规划；PPAD 在每个时间步对周围智能体的意图和自车规划进行迭代更新，弥补了级联流程中固有的反馈缺失和博弈论交互不足的问题。

第二个方向聚焦于多模态轨迹生成。VADv2 将轨迹生成从单输出回归重构为离散的 "词汇表和采样分布" 范式，丰富了候选轨迹的多样性；DiffusionDrive 利用扩散模型的多模态特性提升轨迹多样性，并引入截断扩散策略缓解推理效率问题；GoalFlow 采用带有目标点机制的流匹配，进一步提升多模态轨迹的质量和一致性。

第三个方向关注确保规划的时间连贯性。MomAD 引入轨迹和感知动量机制，生成更平滑、更可执行的规划；BridgeAD 通过多步时间查询明确建模历史和未来上下文，增强端到端框架中规划的时间连贯性。

2.2 用于端到端自动驾驶的世界模型

世界模型旨在通过显式建模时间动态来预测环境演变，使系统能够在实际执行前有效 "预演未来"。根据空间建模方式，现有方法可分为三类：

第一类强调 3D 占用率建模。OccWorld 采用 3D 语义占用率作为统一表示，通过 VQVAE 将场景离散化为Tokens，并利用自回归 Transformer 进行时间推演，从中解码出自车轨迹。

第二类在 BEV 空间中模拟未来状态。WoTE 将当前 BEV 状态和多个候选轨迹联合输入世界模型，递归预测未来 BEV 语义，并将其整合到在线奖励模型中对轨迹进行评分和选择。

第三类在 latent 空间中建模世界。LAW（Latent World Model）从当前场景特征和自车动作预测下一步 latent 表示，以自监督方式联合优化 latent 特征学习和轨迹预测；World4Drive 构建基于 latent 世界模型的选择器，预测每个候选的未来 latent 状态，并通过比较预测 latent 与实际 / 重建 latent 来选择控制轨迹；Think2Drive 在基于模型的强化学习框架中进一步采用 latent 世界模型，利用世界模型进行环境转换学习，使其既能作为内在奖励，又能作为训练规划器的快速模拟器；Raw2Drive 在 Think2Drive 的基础上构建双流 latent 世界模型，对齐特权特征和原始传感器动态，对齐后的原始模型既作为内在奖励源，又作为快速模拟器，提升了基于模型的强化学习的训练效率和泛化能力。

2.3 用于端到端自动驾驶的LLM 模型

基于大型语言模型（LLMs）的模型（LLM-based models）嵌入了先进的推理能力，能够实现更全面的交通场景理解，并提升 E2E-AD 的可解释性。它们对长尾场景的强泛化能力引起了广泛关注。在 E2E-AD 中，基于 LLM 的模型主要以两种形式存在：视觉语言模型（VLM）和视觉 - 语言 - 动作模型（VLA）。

在 VLM 增强的 E2E-AD 系统中，已出现三种集成模式，其特征在于推理与规划之间的不同耦合程度：

分层设计：例如 Senna 将 VLM 生成的高层元动作或语义规划（如 "加速"、"左转"）输入端到端规划器（如 VADv2 风格），以合成精确轨迹；LMDrive 等零样本 LLM 辅助方案在不进行闭环微调的情况下注入周期性高层指令，以提升泛化能力。
协作设计：受人类认知中 "左右脑协同" 的启发，让 VLM 充当审慎模块。FASIONAD++ 触发 VLM 推理作为慢系统，约束快速 E2E-AD 规划器，缓解信息瓶颈；DriveVLM 等系统则并行运行 VLM 和 E2E-AD 分支，以提升效率并提供冗余安全保障。
整体设计：ORION 引入生成式规划器，直接以 VLM 语义推理为条件，并将其与轨迹动作空间对齐，实现条件轨迹生成。

将 VLM 扩展到直接动作生成，VLA 通过将视觉和语言直接映射到动作来闭环，允许基于 LLM 的策略输出路径点或控制输入。OpenEMMA 是早期代表性工作，通过 LLM 策略将多模态上下文转换为驾驶动作，架起了视觉 - 语言理解与动作控制之间的桥梁；OmniDrive 通过整合 3D 场景建模、语言推理和轨迹生成，进一步从视觉 - 语言理解推进到动作生成，利用专家轨迹进行监督训练和 QA 标注；AutoVLA 将连续轨迹离散化为动作Tokens，形成候选轨迹簇，然后应用强化学习策略评分来选择最优候选轨迹用于车辆控制。

3. 方法论

3.1 整体架构

如图 2 所示，MindDrive 是一个整合世界建模和视觉语言模型的一体化框架，用于 E2E-AD 中的轨迹生成和评估。该框架包含三个核心阶段：感知模块、轨迹生成模块和轨迹选择模块。

注：MindDrive 整合了世界模型和视觉语言模型，以协调设计的方式结合高质量轨迹生成和全面决策推理。在感知模块中，多视图相机和激光雷达输入被融合为 BEV 特征，同时提取自车状态和初始动作意图作为自车表示；未来感知轨迹生成器（FaTG）将自车表示嵌入 BEV 特征，构建场景变体，并利用世界动作模型（WAM）对其进行 "假设" 仿真，建模并预测未来演变；随后，VLM 导向评估器（VLoE）首先通过 LaST-Former 处理来自提示词的多模态token和 FaTG 的输出，生成推理token，然后通过 VLM-Critic 对每个轨迹进行安全、舒适、效率和合规性评分；最终根据聚合的多目标分数选择最优轨迹。

3.1.1 感知模块

借鉴 TransFuser，该模块利用多模态传感器输入，包括多视图 RGB 图像和激光雷达点云。视觉和激光雷达特征通过各自的骨干网络提取，并通过多模态编码器融合，形成 BEV 特征表示。在此阶段，还会提取自车表示，包括车辆状态（如驾驶指令、速度、加速度）和源自轨迹锚点的初始动作意图。该表示刻画了当前驾驶状态，并为构建场景变体表示提供辅助线索。

3.1.2 轨迹生成模块

未来感知轨迹生成器（FaTG）由世界动作模型（WAM）和轨迹解码器组成。每个场景变体基于不同动作意图下的当前 BEV 特征构建。以这些变体为条件，WAM 执行 "假设" 推演，演变出合理的未来场景状态；轨迹解码器随后整合当前和预测特征，生成多样化的轨迹候选。

3.1.3 轨迹选择模块

核心机制是视觉 - 语言导向评估器（VLoE），其对轨迹候选进行评估并分配多目标分数。VLoE 由 LaST-Former 和 VLM-Critic 组成：LaST-Former 将语言、场景和轨迹token对齐为推理token；VLM-Critic 通过语言引导推理处理这token，生成特定目标的指标token（如安全、舒适、可驾驶性）；轻量化评分头将这些指标聚合为综合分数，据此选择最终轨迹。

3.2 未来感知轨迹生成器（FaTG）

在大多数规划流程中，生成候选轨迹起着关键作用，因为更高质量的候选通常会带来更可靠的决策。然而，现有方法在生成候选轨迹时，通常仅依赖对周围智能体的当前状态预测，未能考虑基于自车状态的未来演变 ------ 即环境在不同自车决策下的变化情况。为提升候选质量，本文引入世界模型，使系统能够模拟合理的未来场景，从而使生成器具备显式的前瞻性。因此，未来感知轨迹生成器（FaTG）包含两个关键模块：世界动作模型（WAM）（模拟基于不同自车动作的场景演变）和轨迹解码器（通过联合利用当前和预测的未来状态生成规划轨迹）。

3.2.1 世界动作模型（WAM）

为实现未来感知的轨迹生成，本文引入世界动作模型（如图 3 所示），能够模拟场景演变并预测多样化结果。该模块采用 "空间 - 时间 - 空间" 的三明治设计，其中 Transformer 建模空间依赖关系，Mamba 捕捉时间动态，实现未来场景表示的渐进式空间编码、时间推演和空间重建。在训练过程中，WAM 由模拟器生成的当前和未来 BEV 语义地图特征监督，这些特征作为场景推演学习的真实场景变体表示。

注：该模块采用 "空间 - 时间 - 空间" 的三明治设计，Transformer 建模空间依赖关系，Mamba 捕捉时间动态，实现未来场景表示的渐进式空间编码、时间推演和空间重建。训练过程中，WAM 由模拟器生成的当前和未来 BEV 语义地图特征监督，这些特征作为场景推演学习的真实场景变体表示。

（1）场景变体特征构建

为表示同一当前状态下的多种假设演变，本文基于不同的自车意图构建多样化的场景变体特征。具体而言，通过对训练数据集中的所有专家轨迹应用 K-Means 聚类，得到一组 N 个轨迹锚点。

采用自注意力编码器处理每个锚点的特征，将得到的 latent 表示与自车状态特征拼接，并通过 MLP 生成动作token ，该token编码了自车的初始意图。

设表示从多模态编码器提取的 BEV 特征图，其中 H 和 W 分别表示 BEV 网格的空间高度和宽度，C 为特征通道数。为将动作意图注入该空间表示，通过双线性插值将每个动作token 分布到上。根据锚点轨迹上某点的自车中心坐标 (x,y)，将其投影到 BEV 像素索引：

其中和分别表示 BEV 在纵向和横向的覆盖范围（以米为单位）。然后，将动作token 以双线性权重注入其四个相邻像素：

其中表示根据自车连续位置 (h,w) 与其四个周围离散网格点之间的相对距离计算的双线性插值权重，上标 n 表示投影到 BEV 特征图上的第 n 个动作token。

形式上，该过程可表示为：

其中 Φ(⋅) 表示将自车动作token 融合到 BEV 特征图中的双线性注入函数。

注入所有动作token后，得到场景变体特征张量：

其中每个对应基于特定自车意图的假设场景状态。这些场景变体特征作为后续基于世界模型的场景演变输入。

（2）世界模型推演

为模拟未来驾驶场景的演变，本文基于 "空间 - 时间 - 空间" 的三明治架构执行世界模型推演：首先编码空间依赖关系，然后对场景动态进行时间推理，最后细化未来场景的空间表示。

在推演过程中，场景变体特征首先通过 Transformer 编码器处理，捕捉自车与周围环境在场景表示中的动态交互。时间步的 latent 表示编码了连贯的空间场景状态：

随后，通过两个 Mamba 块堆叠进行时间推理，每个 Mamba 块前都有预归一化层，并通过残差连接确保训练稳定和时间传播平滑。给定来自 Transformer 编码器的空间 latent 特征，Mamba 堆叠中的时间更新公式为：

其中上标 (1) 和 (2) 表示第一个和第二个 Mamba 块产生的中间 latent 状态。

每个 Mamba 块采用选择性状态空间机制，以线性计算复杂度有效建模时间依赖关系。预归一化层稳定了梯度流，防止多步推演中的过度平滑；残差连接保留了源自 Transformer 特征的空间连贯性。这种分层设计使模型能够逐步捕捉时间动态，为下游场景解码提供时间富集的 latent 表示。此外，时间推理模块以循环方式逐步预测 k 个时间步的未来场景状态。

最后，另一个 Transformer 层细化时间演变后的状态，并将其投影回场景特征空间，生成未来场景变体特征：

通过多次推演迭代，模型生成一系列演变的场景表示，每个表示都反映了一种潜在的未来演变。这种可微分仿真使规划器能够预测长期结果，支持未来感知的轨迹生成。

3.2.2 轨迹解码器

获得时间推演后的场景表示后，轨迹解码器通过将自车动作token与来自当前和预测未来场景的上下文特征相关联，生成候选规划轨迹。

（1）场景特征增强

对于每个候选 n，解码器从当前和预测未来时间步中检索相应的场景特征（记为和），并将其拼接形成增强的时空嵌入：

该嵌入为轨迹推理提供了丰富的上下文线索。

（2）候选轨迹生成

每个动作token通过多头交叉注意力（MHCA）层关注增强的场景特征，并将结果解码为修正锚点轨迹的偏移量：

其中 MHCA (・) 表示动作token （查询）与增强场景特征（键 / 值）之间的多头交叉注意力操作，是轨迹解码头，输出中的偏移量。

在解码阶段，模型利用当前场景表示和预测未来场景提供的时空上下文，增强规划推理能力，并生成一组基于初始动作意图的未来感知轨迹候选。

3.3 VLM 导向评估器（VLoE）

虽然轨迹解码器生成了多样化的候选，但评估其合理性和安全性需要超越几何可行性的高层推理。为此，本文引入 VLM 导向评估器（VLoE）（如图 4 所示），利用语言 - 场景 - 轨迹对齐实现可解释、推理驱动的评估。VLoE 包含两个组件：用于多模态融合的 LaST-Former 和用于语言引导评估的 VLM-Critic。

注：LaST-Former 通过哨兵插入机制将提示词中的语言token与来自 FaTG 的轨迹和场景token融合，对齐其语义并生成统一的推理token；VLM-Critic 扩展了 VLM，增加了一个额外的分数token，将与评分相关的特征聚合为评估器隐藏状态，评分头将这些状态转换为多目标轨迹分数。

3.3.1 LaST-Former

如图 4 上半部分所示，LaST-Former 通过整合场景token、轨迹token和语言线索，构建对齐的多模态表示，用于推理驱动的轨迹评估。它包含两个关键组件：token编码（将多步场景特征和动作token聚合为紧凑嵌入）和哨兵插入（将该上下文统一为下游评估的推理序列）。

（1）token编码

来自多个未来推演步骤的场景token沿时间维度拼接，编码驾驶环境的空间和时间变化，形成统一的场景token：

二维卷积网络（Conv2D）沿空间维度压缩场景token，得到一维紧凑嵌入序列；随后，由轻量化 Linear-ReLU-Norm 块组成的投影层执行特征转换和归一化；得到的嵌入通过多头交叉注意力（MHCA）块进一步细化：

其中 N 表示场景token的数量，Proj 表示 MLP 头。该过程捕捉了多视界空间动态和推演步骤间的上下文一致性。

（2）轨迹特征编码

并行地，K 个候选轨迹的自车表示聚合形成统一的轨迹token序列：

由轻量化 Linear-ReLU-Norm 块实现的投影层将这些token映射到紧凑的嵌入空间，随后通过多头交叉注意力（MHCA）操作进行上下文细化：

其中表示一组可学习的度量查询，通过交叉注意力关注所有候选轨迹，生成紧凑的轨迹表示。这些面向度量的查询充当评估探针，捕捉运动意图和轨迹间依赖关系，为下游推理和评分模块提供区分性线索。

（3）哨兵插入

为在语言模型中实现统一的多模态推理，本文采用token级集成策略。融合后的场景和轨迹嵌入被序列化，并通过预定义的哨兵token（如<scene>和<traj>）注入文本序列，这些哨兵token指示多模态特征替换的位置。在token化过程中，文本token按常规方式嵌入，而每个哨兵被分配一个保留索引（如 - 200）作为占位符。在嵌入阶段，这些占位符被相应的场景或轨迹嵌入替换，确保其与文本流对齐。这种机制使多模态特征和语言表示能够共存于统一的token空间，支持后续 VLM 处理中的跨模态推理。

总体而言，LaST-Former 将多视界空间特征、自车轨迹语义和语言线索聚合到共享的 latent 空间，为基于推理的轨迹评估提供了场景接地和认知对齐的表示。

3.3.2 VLM-Critic

为实现语言引导的轨迹评估，本文扩展了基础语言模型的词汇表，增加了特殊的分数token（<score_feature>）。与普通token不同，该token聚合来自文本和多模态嵌入的上下文语义，充当评估的专用推理节点。在推理过程中，模型以因果方式处理多模态提示词，并提取分数token的隐藏状态作为评估特征：

其中对token序列执行多模态推理；包括文本提示词和与场景 - 轨迹上下文对齐的多模态哨兵；表示控制token可见性的注意力掩码。运算符 score 使用指定的分数token聚合整个输出序列的隐藏状态，生成评估嵌入。与标准文本生成不同，该token专注于轨迹评估，其隐藏状态通过评分头产生定量评估结果：基于预定义的推理规则和评估指标，生成轨迹分数。

4. 实验

4.1 数据集和指标

实验在 NAVSIM 框架上进行，该框架是一个基于 OpenScene（nuPlan 数据集的紧凑重分布）构建的面向规划的评估基准。NAVSIM 基于真实世界多传感器驾驶数据，继承了父数据集的完整传感器配置，并提供 2Hz 的多智能体轨迹和高清地图标注。

NAVSIM-v1 采用非反应式开环协议，使用预测驾驶模型分数（PDMS）进行评估；NAVSIM-v2 扩展为伪闭环评分流程（EPDMS），通过合成未来观测更好地逼近闭环行为。NAVSIM 旨在突出具有挑战性和安全关键的驾驶场景，为评估 E2E-AD 系统提供标准化和基于行为的基准。Navtest 分割是 NAVSIM 中的标准测试数据集。

4.1.1 NAVSIM-v1

与仅提供轨迹对用于 ADE/FDE 计算的标准开环数据集不同，NAVSIM-v1 将每个记录的场景嵌入到轻量级非反应式仿真环境中。性能通过预测驾驶模型分数（PDMS）衡量，该综合指标包括：

安全性：无责任碰撞（NC）、碰撞时间（TTC）
合规性：可驾驶区域合规性（DAC）
效率：自车进度（EP）
舒适性：舒适性相关惩罚

PDMS 提供了更基于行为的规划质量评估。

4.1.2 Navsafe 分割

Navsafe 分割是 Navtest 分割的安全关键子集，通过结合 NHTSA 碰撞前类型学、人工检查和基于 CLIP 的聚类，从长尾分布中挖掘罕见且具有挑战性的场景。它涵盖十种高风险类别，包括环岛、无保护左转、坡道、黄灯困境、无车道区域、异常标志、恶劣天气、超车和让行，捕捉了经常导致规划失败的场景。

4.1.3 NAVSIM-v2

v2 版本将评分指标从 PDMS 升级为扩展预测驾驶模型分数（EPDMS），新增指标包括行驶方向合规性（DDC）、交通灯合规性（TLC）、车道保持（LK）和扩展舒适性（EC）。

4.1.4 Navhard 分割

此外，NAVSIM-v2 引入了 Navhard 分割，采用两阶段评估流程：

阶段 I：规划器根据真实观测预测轨迹，获得初始分数 EPDMS1
阶段 II：利用 3D 高斯溅射在阶段 1 终点周围合成多个合理的未来观测，在这些扰动条件下重新评估规划器，获得 EPDMS2

通过高斯加权聚合两个分数，得到最终分数 EPDMS。

4.2 实现细节

采用视觉 - 激光雷达融合策略，联合利用多模态输入的语义和几何线索。同步的前视、左前视和右前视 RGB 图像经过中心裁剪、对齐后拼接为 256×1024 的合成图像；自车周围 64m×64m 范围内的激光雷达点云投影到 BEV 网格上。使用 ResNet-34 骨干网络编码两种模态，其特征分别提取并通过基于 Transformer 的交叉注意力在 BEV 空间中融合（遵循 TransFuser）。对于高层推理，采用 Tiny-LLaVA-1B 视觉语言模型作为推理骨干，并使用 LoRA 策略进行微调，以高效适应驾驶场景推理和评估任务。

4.3 主要结果

本文在 NAVSIM 基准的三个互补评估协议下评估 MindDrive：

NAVSIM-v1：在 Navtest 分割上基于 PDMS 的标准评估，作为基准协议
NAVSIM-v2（Navtest）：使用相同场景，但用更丰富、更严格的合规性指标替代 PDMS，实现对规划器行为的细粒度检查
NAVSIM-v2（Navhard）：采用带有合成未来的伪仿真设置，引入两阶段因果评估，强调交互和安全关键条件下的鲁棒性

这三个协议共同提供了规划性能的渐进式视图：从整体驾驶质量（v1-Navtest），到细粒度合规性（v2-Navtest），再到完整的因果和交互鲁棒性（v2-Navhard）。

4.3.1 NAVSIM-v1 在 Navtest 分割上的评估结果

Navtest 分割是 NAVSIM 中的标准基准测试集，包含一组固定的具有挑战性的真实世界场景，用于评估规划性能。如表 1 所示，MindDrive 在 NAVSIM-v1 协议下实现了当前最优性能。在 PDMS 的所有组成部分（包括 NC、DAC、TTC、舒适性和 EP）中，MindDrive 始终优于现有方法。特别是，其 PDMS 得分为 88.9，超过了 DiffusionDrive、WoTE 和 DIVER 等近期强基线。MindDrive 还表现出优异的安全（TTC 95.1）、平稳（舒适性 99.9）和高效（EP 82.8）驾驶行为，证实了所提出架构在原始 NAVSIM-v1 评估下的有效性。

注：C：相机；L：激光雷达；NC：无责任碰撞；DAC：可驾驶区域合规性；EP：自车进度；TTC：碰撞时间；Comf.：舒适性；PDMS：预测驾驶模型分数。为公平比较，所有方法均使用统一的 ResNet-34 骨干网络。

4.3.2 NAVSIM-v2 在 Navtest 分割上的评估结果

为补充 NAVSIM-v1 评估，本文在相同的 Navtest 分割上，在更严格的 NAVSIM-v2 协议下评估 MindDrive。由于该分割仅包含真实场景，不支持阶段 II，因此报告阶段 1 分数（EPDMS₁）。如表 2 所示，在 NAVSIM-v2 扩展且更严格的指标集下，所有基线的性能均出现明显下降，反映了该协议难度的增加。相比之下，MindDrive 在所有新引入的指标上均保持优异结果，实现了 99.3 的 DDC、96.5 的 LK 和 96.8 的 EC。因此，MindDrive 的 EPDMS₁达到 84.2，证明了其在增强的 NAVSIM-v2 标准下强大的安全性、可行性和合规性。

注：NC：无责任碰撞；DAC：可驾驶区域合规性；DDC：行驶方向合规性；TLC：交通灯合规性；EP：自车进度；TTC：碰撞时间；LK：车道保持；HC：历史舒适性；EC：扩展舒适性；EPDMS₁：阶段 1 扩展预测驾驶模型分数；PDMS：与表 1 中相同方法的数值一致。为公平比较，所有方法均使用统一的 ResNet-34 骨干网络。

4.3.3 NAVSIM-v2 在 Navhard 分割上的评估结果

表 3 报告了 NAVSIM-v2 中引入的伪仿真基准 Navhard 分割的结果。MindDrive 以 30.9 的 EPDMS 获得最高总体分数。在阶段 I 中，MindDrive 在大多数安全关键指标上处于领先地位，包括 NC（96.1）、DAC（86.0）和 TTC（99.3），同时保持了强大的可控性和舒适性（HC 94.4）。在阶段 II（使用合成未来观测重复评估）中，MindDrive 仍然具有竞争力，特别是在 DAC（79.1）和 TLC（98.0）等合规性指标上。总体而言，这些结果表明，在 Navhard 基准更具挑战性和交互性的条件下，MindDrive 能够提供可靠且一致的驾驶行为。

注：NC：无责任碰撞；DAC：可驾驶区域合规性；DDC：行驶方向合规性；TLC：交通灯合规性；EP：自车进度；TTC：碰撞时间；LK：车道保持；HC：历史舒适性；EC：扩展舒适性；EPDMS：通过融合阶段 I 和阶段 II 评估获得的最终扩展预测驾驶模型分数。阶段 I 评估初始观测下的开环轨迹；阶段 II 在合成未来观测上重复评估。最终 EPDMS 通过高斯加权聚合获得。为公平比较，所有方法均使用统一的 ResNet-34 骨干网络。

4.4 鲁棒性研究

为全面评估框架的鲁棒性，本文进一步在 Navsafe 和 Navhard 分割上分别使用 NAVSIM-v1 和 NAVSIM-v2 指标进行评估。Navsafe 分割是 Navtest 的安全关键子集，包含通过 NHTSA 碰撞前类型学和额外过滤挖掘的罕见高风险场景；Navhard 是更严格的 NAVSIM-v2 排行榜中的困难子集，涵盖无保护转弯、密集交通等具有挑战性的场景。

4.4.1 NAVSIM-v1 指标下的 Navsafe 分割

表 4 显示，MindDrive 在 Navsafe 分割上实现了最高的整体鲁棒性，PDMS 得分为 67.5，在安全（NC、DAC）、效率（EP）和舒适性指标（TTC、Comf.）上均一致优于所有重现的基线。由于 Navsafe 专注于罕见的高风险但非对抗性场景，这些结果表明，本文提出的 "生成 - 选择" 框架在安全关键条件下仍能保持强大的安全保障和规划稳定性。

注：∗：使用官方权重重现的结果。

4.4.2 NAVSIM-v2 指标下的 Navhard 分割（阶段 I）

由于 NAVSIM-v2 中的阶段 2 评估仅依赖相机输入，为确保联合使用相机和激光雷达信号的多模态方法之间的公平比较，本文仅报告阶段 1 结果。如表 5 所示，尽管 Navhard 分割的难度增加，MindDrive 仍实现了最高的阶段 1 EPDMS 分数（72.7），并在关键安全和合规性指标（如 NC 97.0、DAC 89.7、DDC 98.6 和 TTC 95.8）上保持优异性能。值得注意的是，此处 MindDrive 运行在多模态设置下，其阶段 I 结果与表 3 中报告的结果自然不同（表 3 基于不同的传感器配置评估）。总体而言，在严重干扰下仍能保持可靠的驾驶信号，凸显了 MindDrive 在具有挑战性场景中多模态推理的鲁棒性。

注：∗：表示使用官方权重重现的结果；†：表示基于多模态传感器输入（相机 + 激光雷达）的方法；EPDMS₁表示在无合成场景下评估的阶段 1 EPDMS。

4.5 消融实验

4.5.1 整体架构的消融实验

为探究 MindDrive 中每个组件的贡献，本文在 Navtest 分割上基于 NAVSIM-v1 指标进行消融实验，分析未来感知轨迹生成器（FaTG）和 VLM 导向评估器（VLoE）的作用。如表 6 所示，移除任一模块都会导致多个闭环指标的明显性能下降。引入 FaTG 在安全性和可行性方面带来了持续提升，证明了未来感知轨迹生成对可靠规划的重要性；启用 VLoE 显著提高了整体 PDMS，并改善了 EP 和 TTC 等关键驾驶指标，表明基于 VLM 的评估为选择行为连贯的轨迹提供了强大的语义引导。当两个模块都启用时，MindDrive 实现了最高的 PDMS（88.9）和最强的整体性能。这些结果表明，FaTG 和 VLoE 具有互补优势：FaTG 提升了生成轨迹的结构质量和物理合理性，而 VLoE 执行细粒度的语义评估，使 MindDrive 能够可靠地选择安全且上下文感知的轨迹。

注：FaTG：未来感知轨迹生成器；VLoE：VLM 导向评估器。

4.5.2 世界动作模型的消融实验

本文通过两个消融实验进一步探究世界模型的设计选择：（1）不同的架构配置；（2）不同的时间预测步长。

（1）架构变体

如表 7 所示，本文评估了世界模型的四种架构变体。纯 Mamba 模型由于捕捉全局空间依赖关系的能力有限，性能欠佳，导致预测一致性较弱；相比之下，混合配置带来了显著提升，其中 Transformer-2×Mamba-Transformer 变体表现最佳，有效平衡了全局注意力和高效时间推理。

注：Hybrid-Structure1/2/3 表示 Transformer-Mamba 混合架构：1：浅层 Transformer-Mamba 堆叠；2：对称 Transformer-Mamba-Transformer 设计；3：三明治式 Transformer-2×Mamba-Transformer 设计。

（2）时间步长分析

本文还对未来预测步长的数量进行了消融实验，结果如表 8 所示。BEV 世界模型以循环方式预测未来状态，其中 A→B 表示时间 B 的预测状态基于时间 A 的状态。比较直接长视界预测（0s→4s）和循环短步预测（0s→2s→4s），后者在所有指标（NC、DAC、EP、TTC、PDMS）上均实现了更高的分数，表明逐步时间展开提升了时间一致性，并减少了长视界预测中的累积预测误差。

4.5.3 VLoE 架构的消融实验

为评估 VLoE 模块的贡献，本文在 NAVSIM-v1（Navsafe 上的 PDMS）和 NAVSIM-v2（Navhard 上的 EPDMS₁）指标下进行消融实验，以验证视觉语言推理的优势在不同评分方案中是否一致。在两种协议下，添加 VLM 均带来了明显提升：在 Navsafe 分割上，PDMS 从 64.5 提升至 67.5，NC、DAC 和 EP 均有显著改善（表 9）；在更严格的 NAVSIM-v2 指标下，EPDMS₁从 68.2 提升至 72.7，DAC、TTC 和 LK 也全面提升（表 10）。这些结果表明，VLoE 中的语言引导推理持续增强了安全性和合规性，其优势超越了纯视觉线索，并能泛化到不同的评估设置。

注：EPDMS₁表示在无合成场景下评估的阶段 1 EPDMS。

4.6 可视化

如图 5 所示，本文展示了在 Navsafe 分割的具有挑战性场景中，TransFuser 与 MindDrive 的定性比较。在交叉口场景中，TransFuser 通常会生成漂移或不稳定的转弯轨迹，而 MindDrive 生成的轨迹更平滑且符合车道规则；在密集交通场景中，TransFuser 经常偏向周围智能体，可能导致直接碰撞或高风险的近距离接触，而 MindDrive 保持稳定的、感知拥堵的轨迹，维持安全距离并更好地反映潜在的驾驶意图。

注：(a) 交叉口场景：TransFuser 表现出轨迹偏移和不稳定的转弯行为，而 MindDrive 生成更平滑且符合车道规则的规划；(b) 密集交通场景：在高流量下，TransFuser 的预测变得抖动且偏向周围车辆，而 MindDrive 保持稳定的、感知拥堵的轨迹。

5. 结论

本文提出的 MindDrive 框架引入了一种结构化推理范式，将假设仿真、轨迹候选生成和多目标评估整合到协调的 E2E-AD 框架中。由世界动作模型（WAM）驱动的未来感知轨迹生成器（FaTG），实现了基于自车状态的 "假设" 场景推演，支持前瞻性轨迹规划；基于这些预测候选，VLM 导向评估器（VLoE）利用视觉语言模型评估安全、舒适和效率，生成符合人类驾驶意图的决策。在 NAVSIM-v1 和 NAVSIM-v2 上的大量实验表明，与当前最优的 E2E-AD 方法相比，MindDrive 在安全性、平稳性和泛化能力方面实现了持续提升。未来工作将把强化学习融入世界模型 - VLM 推理循环，实现持续的自我改进，并进一步增强系统在复杂环境中的鲁棒性。