51c自动驾驶~合集52

我自己的原文哦~https://blog.51cto.com/whaosoft/13383340

#世界模型如何推演未来的千万种可能

驾驶世界模型（DWM），专注于预测驾驶过程中的场景演变，已经成为追求自动驾驶的一种有前景的范式。这些方法使自动驾驶系统能够更好地感知、理解和与动态驾驶环境互动。在这篇综述中，我们提供了DWM最新进展的全面概述。我们根据预测场景的模式对现有方法进行分类，并总结了它们对自动驾驶的具体贡献。此外，还回顾了高影响力的数据库和针对DWM研究范围内不同任务的各种指标。最后，我们讨论了当前研究的潜在局限性并提出了未来方向。本综述为DWM的发展和应用提供了宝贵的见解，促进了其在自动驾驶中的更广泛应用。

仓库链接：https://github.com/LMD0311/Awesome-World-Model

简介

世界模型旨在基于过去的观察和动作预测未来的观察结果。在自动驾驶中，大视野和现实世界驾驶场景的高度动态特性带来了独特的挑战。然而，驾驶世界模型（DWM）通过促进准确的场景演变预测，在应对复杂环境中发挥了关键作用。最近，由于其在确保安全可靠的自动驾驶方面的重要作用，DWM受到了越来越多的关注。

如图1所示，DWM通常涉及预测场景演变，即根据历史观察生成未来场景。在此基础上，大多数方法可以进一步控制场景演变以符合给定条件或输出基于观察和预测的响应。由于自动驾驶需要处理多种数据类型，DWM已经产生了预测不同模式场景的变体。一些方法利用2D图像中的语义信息，而其他方法则学习3D点云或占用率中的空间几何和精确动力学。此外，一些方法，我们系统地将其归类为无场景范式，优先考虑潜在状态或多智能体行为，而不是详细场景。

实现自动驾驶的道路将面临诸如高数据获取成本、动态环境的复杂性以及管理罕见案例等挑战。DWM可能通过改进未来状态预测的规划、用多样化的合成数据丰富训练数据集，以及通过可扩展的预训练增强下游任务，为这些问题提供实用的解决方案。这些发展突显了DWM在该领域的多功能性和有效性。

本文全面调查了相关工作。具体而言，本文的贡献可以总结如下：

我们全面回顾了DWM的最新进展，按预测场景的模式对方法进行分类，并概述了DWM在自动驾驶中的应用。
我们对当前的局限性进行了批判性分析，并概述了有前景的未来研究方向，为研究社区提供了宝贵的见解，并促进了DWM的持续发展。

我们注意到，最近出现了与DWM相关的综述，其中一些主要关注通用世界模型，而其余的未能提供DWM应用的详细分类。相比之下，本文不仅介绍了近期方法的系统分类，还提供了DWM多样化应用的全面总结，旨在理解当前进展并探索未来方向。

驾驶世界模型

驾驶世界模型（Driving World Models, DWM）所预测的场景涵盖多种模态，包括图像、点云和占据栅格（occupancy），这既带来了独特优势，也带来了挑战。最近的进展越来越侧重于利用互补的多传感器数据，以发挥各个模态的优势，同时减轻其固有局限性。此外，无场景范式（scene-free paradigms）探索在潜在空间内进行预测，或专注于对复杂的多智能体交互进行建模。表1概述了近期的方法。本节从各种预测模态的角度介绍DWM的最新进展。

2D场景演化

驾驶世界模型（DWM）利用先进的生成技术（如自回归Transformer和扩散模型）来预测真实的二维场景演化，同时确保符合物理规律。

GAIA-1率先将场景演化预测表述为下一个标记预测任务，并使用扩散解码器，系统地捕捉驾驶场景中的时空动态和高级结构。相比之下，DriveDreamer推进了用于多模态控制的条件扩散框架，并将DWM范式扩展到合成数据生成。在这些基础方法之上，后续的DWM研究主要集中在提高场景演化预测的保真度、一致性和可控性。

生成场景的保真度对于确保真实世界驾驶场景的物理合理模拟至关重要。Vista采用稳定的视频扩散技术，并引入新颖的损失函数来捕捉动态行为，同时保持结构完整性，实现高分辨率和高保真度的场景生成。此外，它通过纳入多个参考帧来确保动力学合理。

DWM预测的场景演化应准确反映三维世界，确保每个物体都有合理的三维位置和空间关系，同时整个场景表现出空间连续性。通过分解联合建模，以相邻视图为条件预测中间视图，Drive-WM显著提高了视图之间的一致性。此外，DrivePhysica引入3D框作为条件输入，以增强对空间关系的理解，加强空间一致性，并改善对遮挡结构的理解。另一方面，WoVoGen预测明确的世界体（world volumes）以指导多视图视频生成，确保世界内和传感器间的一致性。类似地，NeMo和GEM将三维预测任务纳入其框架，而BEVWorld通过整合多传感器数据输入进一步拓展了这些工作。

时间一致性在使DWM能够有效捕捉场景的演化动态方面起着关键作用。确保预测序列中帧之间的连贯过渡对于反映现实场景演化至关重要。最近的进展通过架构创新来应对这一挑战。例如，InfinityDrive引入了一种多分辨率时空建模框架，在训练过程中逐步扩大时间感受野。通过集成旨在保留长程时间依赖关系的记忆机制，这一方法得到了进一步增强。与此同时，DrivingWorld通过提出一系列技术，包括时间感知标记化、下一状态预测、随机标记丢弃和平衡注意力策略，解决了自回归方法中的时间一致性问题。这些创新共同显著提高了在动态场景理解中对时间一致性进行建模的能力。

一个合理的DWM在生成未来场景时应适应特定要求。如表1所示，控制条件大致分为两类：1）低级条件，如动作（自车信息）、轨迹（坐标或位移）和布局（物体放置），为自车运动和物体定位设定精确规范。2）高级条件，如文本（指令或描述）和目的地（车辆到达位置），不仅要求实现指定目标，还需要创建逻辑中间步骤。一些工作有效地整合了低级或高级控制条件来生成未来场景，产生合理的输出响应，如驾驶动作、未来轨迹和文本。其中，GEM平衡两种条件类型方面表现出色，生成的驾驶视频严格遵循指定轨迹，同时实现向期望位置的自然移动。相反，DriveDreamer-2利用大型语言模型从高级文本输入中导出各种低级条件，显著增强了生成图像的多样性，并提供了用户友好的生成过程。请注意，控制条件和输出响应也广泛应用于3D和无场景范式中。

总之，DWM利用生成技术合成具有时空一致性和物理合理性的逼真二维驾驶场景。这些框架有效地提高了真实感、可控性和稳定性，实现了对场景演化的可靠预测。

3D场景演进

三维数据表示本质上保留了结构一致性、详细的几何信息和精确的空间关系，使得三维场景演化预测成为驾驶世界模型（DWM）的一项重要任务。在实践中，通常使用两种主要类型的三维数据，即占据栅格和点云。

占据栅格场景演进

占据栅格提供了几何一致的体素建模和结构化的空间编码，这使得占据栅格特别适合于场景演化建模，并在各种方法中得到广泛应用。

OccWorld使用时空变换器从历史观测中生成未来场景和自车姿态标记，并通过空间混合实现全局一致的场景预测。随后，OccLLaMA集成了多模态大语言模型作为核心架构，而RenderWorld分别对空气网格和非空气网格进行标记化，以进行细粒度的三维场景建模。基于扩散的方法进一步提高了可控性和生成质量。OccSora能够根据任意轨迹预测四维占据栅格场景演化。DOME采用连续的类似变分自动编码器（VAE）的标记器来保留复杂的空间信息。考虑到占据栅格的高计算需求，最近的方法试图提高效率。DFIT-OccWorld仅预测动态体素流，同时通过姿态变换计算静态体素。类似地，GaussianWorld在高斯空间中明确地对场景演化进行建模，专注于变化而不是重建整个场景。

由于占据栅格不能直接从传感器获取，从图像重建占据栅格至关重要。DWM将这一三维预测任务扩展到四维，即时空预测。一种直接的方法是集成Img2Occ模块，但这可能会导致误差累积。然而，最近的进展旨在直接从二维输入推断三维世界的时空演化，实现语义、三维结构和时间动态的协同学习。DriveWorld在预测场景动态时间变化的同时传播静态空间上下文。通过从多视图视频中学习时空表示，它实现了精确的占据栅格预测。此外，Drive-OccWorld将规划器与DWM相结合，利用基于运动感知的鸟瞰图（BEV）序列作为中介，直接从多视图图像预测占据栅格和流。这种集成为规划器提供了丰富的先验信息，从而提高了规划过程的安全性和准确性。

除了从图像重建占据栅格外，一些方法还从点云导出占据栅格伪标签，实现自监督训练。例如，UnO通过从未来激光雷达扫描中采样正负例来生成连续的占据场，实现对点云的自监督学习。类似地，UniWorld和NeMo通过对点云进行体素化生成占据栅格伪标签。UniWorld融合多帧点云生成伪标签并学习时空动态，而NeMo进一步集成图像预测和运动流模块以增强体素表示，提高规划性能。

点云场景演化

点云通常由激光雷达传感器捕获，提供了三维环境的精确几何表示。然而，其稀疏和无结构的性质给生成任务带来了重大挑战，使得有效利用点云进行场景建模和预测变得复杂。Copilot4D采用矢量量化变分自编码器（VQ-VAE）标记器来处理复杂的观测，并通过利用改进的离散扩散采用并行推理加速方法。此外，LidarDM通过结合静态场景和移动物体提供基于布局感知的点云视频生成。

视觉点云预测（visual point cloud forecasting）不是直接输入点云，而是试图仅使用历史视觉图像预测未来点云演化。ViDAR提出将视觉点云预测作为一种可扩展的预训练任务，并探索语义、三维结构和时间动态的融合。最近，HERMES出现，将视觉点云预测与语言任务相结合，以增强生成和场景理解能力。尽管ViDAR使用了更长的历史视野和先进的潜在渲染模块，但HERMES的性能仍显著优于它。

多传感器数据融合已成为自动驾驶系统发展的关键趋势，因为它能够将二维数据的高分辨率细节与三维数据的精确空间几何信息相结合。MUVO将多模态数据组合成一种与传感器无关的几何表示，通过图像、占据栅格和点云实现准确的场景建模和演化预测。类似地，BEVWorld将图像和点云合并为统一的鸟瞰图（BEV）表示，并通过扩散预测未来表示，随后使用基于渲染的方法重建多传感器数据，实现自监督学习。相比之下，HoloDrive采用两个单独的模型并对齐它们，以联合生成多相机数据和激光雷达数据，确保二维和三维空间之间的一致性。

总体而言，DWM将生成技术扩展到三维场景演化，利用占据栅格和结构化表示来确保空间一致性，同时集成生成技术进行动态预测。它们通过多传感器融合增强了场景理解能力，能够更准确、更稳健地预测复杂场景的演化。

无场景范式

除了常用的图像、点云和占据栅格预测外，一些方法还探索了无需详细场景的预测。例如，实时自动驾驶系统优先考虑潜在世界状态转换，而行为模拟框架则强调以智能体为中心的运动动力学。我们将这些方法系统地归类为无场景范式。

潜在状态

与原始感官数据相比，潜在状态提供了一种高效的表示，能够无缝集成到决策过程中，并增强在各种驾驶环境中的泛化能力。基于强化学习的规划器通常利用潜在DWM，它能提供准确而密集的奖励、高效的并行训练和可解释的输出。监督学习也受益于对潜在状态的预测。例如，LatentDriver将预测的潜在状态和可能的行动建模为混合分布，捕捉决策的随机性，而LAW利用自监督潜在特征来增强端到端驾驶能力并提高效率。

多智能体行为

多智能体行为预测专注于预测场景内所有智能体的运动。TrafficBots探索了虚拟智能体（bot agents）行为的真实性。每个智能体根据其相应的目的地学习独特的 "个性"，并从鸟瞰图（BEV）视角预测行动。类似地，CarFormer将每个对象建模为自监督的槽表示（slot representation），其中隐含了驾驶所需的必要信息。相比之下，AdaptiveDriver预测周围智能体的独特行为模式，随后展开相应的DWM来模拟它们的行为。

无场景范式超越了二维和三维表示。潜在状态提高了效率和泛化能力，而基于多智能体行为的模型捕捉了交互以降低风险。这些方法共同提高了自动驾驶系统的通用性。

应用

驾驶世界模型（Driving World Model, DWM）是一种自监督、数据驱动的方法，通过训练来预测未来场景的演变，部分方法仅需极少的注释数据。

对生成任务的广泛研究使DWM能够用作模拟器并生成数据。此外，DWM可以直接为决策过程和训练流程提供支持，从而增强自动驾驶系统的能力。在本节中，我们将总结DWM的应用，重点阐述世界模型对推动自动驾驶发展的贡献。

仿真模拟

自自动驾驶研究初期以来，仿真模拟就一直是训练和评估驾驶模型的关键工具，并且已经取得了显著成果。然而，传统模拟器面临着诸多挑战，比如场景多样性有限，以及模拟环境与现实世界之间存在差距。DWM凭借其数据驱动的生成式模拟能力，有望解决这些问题。如图2(a) 所示，DWM能够基于各种输入形式模拟驾驶过程，严格遵循给定指令。这些条件包括但不限于车辆动作和场景描述，这不仅让模拟器使用起来更加便捷，还使其能够自主生成更精细的结构和多样化的场景细节。

DWM在逼真度、一致性和可控性方面取得了显著进展，这些对于可靠的现实世界模拟至关重要。Vista 能够提供高逼真度且高度可控的视频模拟，有助于进行动作评估。与之相关的，GEM 进一步提升了模拟质量，可以精确控制物体动力学、轨迹和人体姿态。同样，多项研究尝试在3D空间中模拟驾驶场景的演变，并展现出良好的前景。除了视觉上的真实感，近期的工作还强调对动作逼真度的评估，新提出的评估框架ACT-Bench 就是一个例证，它引入了强大的基线框架，显示出与动作指令的高度契合。此外，TrafficBots 对虚拟智能体行为的真实性进行了研究，进一步丰富了模拟场景。

基于强化学习的方法尤其受益于基于DWM的模拟的灵活性。Think2Drive 通过在潜在状态空间中进行推演，实现了高效的并行训练，避免了与复杂物理模拟器的交互。随后，Imagine2-Drive 利用高逼真度的DWM来模拟和评估多步轨迹，显著提升了规划性能。

DWM将高逼真度的生成能力与精准的可控性相结合，不仅缩小了模拟环境与现实世界的差距，增加了模拟场景的多样性，还实现了并行交互。这些进展极大地推动了自动驾驶领域的仿真模拟发展。

数据生成

与注重条真实的仿真不同，数据生成强调数据的多样性和保真度，旨在实现更广泛、更全面的场景覆盖，同时缩小与真实世界数据的差距。图2(b) 表明，DWM可以使用相同的注释生成多样化的驾驶视频，这显著提高了数据标注的多样性。

事实证明，DWM在利用合成数据扩充数据集方面非常有效。例如，DrivePhysica 可以合成无限数量的高保真且多样化的驾驶视频，而LidarDM 能够生成高质量的激光雷达数据。值得注意的是，HoloDrive 展示了合成对齐的多模态数据的潜力。这些合成数据对下游任务（如3D检测）有促进作用，体现了DWM的可控性和高生成质量。虽然这些方法通常依赖于真实世界的注释来合成数据，但近期的进展也在合成具有新颖轨迹的驾驶视频，缓解了真实世界数据集中的分布不均衡问题。

鉴于目前高质量自动驾驶数据集在规模上的局限性，DWM显示出利用合成技术获取大量高质量驾驶数据的潜力，为自动驾驶研究的推进提供了支持。

前瞻性驾驶

预瞻性驾驶强调通过对未来状态的准确预测来提升车辆的规划能力。通过预测周围智能体的行为和环境动态，自车可以主动探索不同行动的结果，从而在复杂驾驶场景中提高安全性和适应性。

如图2(c) 所示，典型的预瞻性驾驶方法是利用DWM预测多种潜在行动的结果，然后对这些预测进行评估，以优化最终行动决策。例如，DriveWM 将DWM的预测结果与奖励函数相结合，以选择最佳轨迹，而Drive-OccWorld 则将鸟瞰图（BEV）嵌入引入规划器，进一步优化规划。同时，ADriver-I 将多模态大语言模型和视频扩散模型相结合，联合预测视觉 - 行动（描述自车信息的图像和文本）对，展现出长时规划的潜力。一些方法还将预测和规划集成到一个统一的模型中，在实现出色性能的同时提供了更大的灵活性。

准确的预测有助于提升驾驶性能，另一方面，使预测结果与未来观测保持一致也被证明是有效的。此外，AdaWM 利用预测状态与未来状态之间的差异来指导微调，提高了对陌生环境的适应性。

预瞻性驾驶的成功表明，DWM不仅可以通过仿真模拟和数据生成间接促进自动驾驶，还能积极参与决策和优化过程，实现预测与规划的协同效应。

4D预训练

预训练已在多种方法中得到了实证验证。然而，传统的预训练方法往往忽略了4D动态因素，而这对于自动驾驶至关重要。DWM旨在预测场景演变，这一目标天然适合自监督学习和大规模预训练。如图2(d) 所示，DWM利用大量未标记的多模态数据进行4D预训练，提升了一系列下游驾驶任务的性能。

现有的大多数任务都强调以视觉为中心的预训练，旨在通过从多视图图像数据中学习4D场景演变来捕捉空间和动态感知。为了利用大规模未标记的图像 - 点云对，UniWorld 从点云生成占据栅格伪标签，用于4D预训练。为了消除对伪标签的依赖，ViDAR 引入了一种基于视觉点云预测的新方法。通过提出潜在渲染算子，该方法保留了所学鸟瞰图（BEV）表示的判别性3D几何信息，确保了与下游任务的无缝集成。此外，NeMo 将RGB重建和占据栅格预测相结合，学习能够同时保留3D几何和语义信息的4D体素表示。为了捕捉时空动态，DriveWorld 分别处理时间动态和静态场景，并采用任务提示以适应各种下游任务。

近期的方法也在探索以点云为中心的预训练。UnO 通过预测由未来点云生成的连续4D占据场，学习几何结构、动力学和语义信息。相比之下，AD-L-JEPA 通过重建掩码嵌入进行预训练，实现更简单，且学习到的表示更强大。最后，BEVWorld 探索对多传感器数据进行预训练，将图像和点云编码为统一的鸟瞰图（BEV）表示。

总体而言，DWM通常通过自监督学习进行4D预训练，捕捉时空动态，减少对注释的依赖，并在广泛的任务中提升性能，为自动驾驶的发展铺平了道路。

评估

由于驾驶世界模型（DWM）缺乏标准化的基准测试，全面了解现有资源和评估方法对于推动该领域的发展至关重要。在本节中，我们将总结自动驾驶领域的主要数据集，尤其是针对DWM提出的数据集，并讨论为各种基准测试设计的评估指标。

数据集

自动驾驶的发展在很大程度上依赖于高质量的数据集，这些数据集需要涵盖多样化和全面的场景。在表2中，我们回顾了自动驾驶研究中最具影响力的数据集，重点关注其规模和多样性。值得注意的是，DrivingDojo是专门为训练具有复杂驾驶动力学的驾驶世界模型而设计的。

评估指标

在自动驾驶领域，驾驶世界模型（DWM）主要通过基于视频生成的方法进行训练，并应用于各种与驾驶相关的任务。这些任务的多样性使得单一指标难以全面评估所有研究中的模型性能。因此，该领域的研究人员会根据具体的任务和研究领域选择专门的评估指标。表3概述了广泛使用的评估指标及其相应含义。

这些评估指标对不同的DWM进行了深入评估，为进一步的研究提供了指导。然而，某些方面，如一致性和可控性，仍有待深入研究。为了解决这些局限性，一些研究提出了新的评估指标。例如，为了评估可控性，一种广泛采用的方法是比较训练好的检测器在生成数据上的输出与相应条件，或者与同一检测器在真实数据上的预测结果。此外，关键点匹配（KPM）和平均点到平面能量被引入，分别用于评估多摄像头视频和激光雷达视频的一致性。

局限性与未来工作

尽管驾驶世界模型（DWM）的研究取得了显著进展，但仍存在一些局限性，可能会阻碍其充分发挥潜力。此外，使DWM适用于各种自动驾驶应用仍是一项持续的挑战。在本节中，我们将深入讨论当前的局限性，并概述未来研究和发展的潜在方向。

数据稀缺

收集驾驶数据成本高昂，尤其是对于长尾但对安全至关重要的场景，这导致数据集有限且分布不均。近期的研究在扩展和多样化驾驶视频数据集方面取得了进展。然而，获取高质量的3D数据和对齐的多传感器数据集仍然具有挑战性。虽然DWM在合成数据以改进下游任务方面显示出了潜力，但如何扩充数据以提升DWM本身仍是一个未解决的问题。

效率

生成任务对DWM的推理效率提出了挑战，增加了计算成本和延迟，这阻碍了其在实时驾驶应用中的使用。详细的4D场景表示进一步加大了对计算和内存的需求。近期的研究强调，将场景解耦是一种有效的策略。此外，探索更高效的表示形式是一个切实可行的研究方向。

可靠的仿真

一个关键问题是如何确保在复杂模拟（例如长时推演和剧烈视角变化）和多变的驾驶情况（例如多样化的交通和天气）下，DWM的性能不会显著下降。这对模型的鲁棒性和泛化能力提出了重大挑战。为了解决这些问题，一些研究提出了部分解决方案。例如，DrivingDojo提供了多样化的驾驶视频数据集，AdaptiveDrive开发了适应不同环境的DWM，InfinityDrive专注于提高长期性能。尽管取得了这些进展，但这仍然是一个极具挑战性和影响力的研究领域，未来需要进一步探索和创新。

另一个挑战是模型产生的幻觉和不符合物理规律的情况（例如车辆突然出现和速度估计错误），即使在正常情况下也可能导致危险的决策。DrivePhysica通过引入额外条件来解决这个问题，而具有跨模态验证的多模态场景输出则是另一种可行的解决方案。

统一任务

现有的DWM主要支持预测任务，通过预测场景演变来隐含地理解场景，而不是通过对这一关键能力的明确监督。结合语言任务为解决这些局限性提供了一个有前景的方向。例如，图像字幕和问答（QA）等任务促进了全面的理解，而因果推理则有助于学习支配现实世界演变的基本原理。此外，预测和规划的无缝集成，即端到端的DWM，可以充分发挥框架的潜力。

多传感器建模

自动驾驶系统主要依赖多传感器配置，不同模态的数据相互补充。因此，基于单模态场景的DWM不太适合这类系统。尽管一些研究在多模态数据集成方面取得了进展，但该领域仍有很大的探索空间。此外，考虑到对齐的多传感器数据成本高昂，利用广泛可用的未对齐甚至未配对的多传感器数据是一个有价值的研究方向。

攻击与防御

对抗攻击很容易导致严重的事故，对驾驶安全构成重大威胁。这些攻击涉及精心制作的对人类不可察觉的对抗补丁，使得检测和缓解变得尤为困难。尽管其潜在影响巨大，但目前针对DWM的对抗攻击研究仍然不足。因此，研究此类攻击并开发有效的防御策略具有至关重要的实际意义。这些努力对于推动DWM在现实世界自动驾驶应用中的安全可靠部署至关重要。

结论

驾驶世界模型（DWM）日益被视为自动驾驶系统架构中的一个基本组成部分，旨在通过预测未来演变来改进决策。在本文中，我们探讨了DWM的具体贡献，不仅按预测场景模态进行了系统的概述，还总结了DWM的应用及其对自动驾驶的影响，并回顾了常见的数据集和评估指标。我们进一步深入研究了当前的局限性，并指出了一些有前景的未来研究方向，以克服这些挑战并推动该领域的未来探索。我们相信，这项综述将为早期研究人员提供DWM领域关键进展的快速概述。

参考