WorldSplat：面向自动驾驶的 4D 场景生成与新颖视图合成框架

一、引言

在自动驾驶与计算机视觉领域，合成具有可控视角的逼真驾驶场景视频是一项关键挑战，其对于大规模训练数据生成和闭环评估至关重要。近年来，生成模型在高保真、用户自定义视频生成方面取得了显著进展，减少了对昂贵真实数据的依赖；同时，城市场景重建方法也在 3D 表示和一致新颖视图合成上有所突破。然而，生成模型与重建方法之间存在着难以调和的矛盾：现有视频生成模型多在 2D 图像域工作，缺乏 3D 一致性和新颖视图可控性，从新视角生成时易出现连贯性问题；而场景重建方法虽能实现准确的 3D 一致性和逼真新颖视图，但缺乏生成灵活性，无法想象捕获数据之外的场景。

为解决这一困境，本文提出了 WorldSplat，一种融合生成扩散与显式 3D 重建的前馈框架，用于 4D 驾驶场景合成。该框架能够创建动态 4D 高斯表示，并沿任意用户定义的相机轨迹渲染新颖视图，且无需逐场景优化。通过将 3D 感知嵌入扩散模型，并采用显式的以高斯为中心的世界表示，WorldSplat 确保了新颖轨迹视图的时空一致性。此外，该框架支持丰富的条件输入，如道路草图、文本描述、动态物体放置和自车轨迹等，使其成为多样化驾驶场景的高度可控模拟器。

原文链接：WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving

项目链接：WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving

代码链接：wm-research/worldsplat: WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving

沐小含持续分享前沿算法论文，欢迎关注...

二、相关工作

2.1 驾驶世界模型

近年来，面向自动驾驶的世界模型在逼真街道场景模拟方面取得了诸多进展，旨在生成多样化的合成数据以支持稳健的驾驶系统。大多数方法以视觉为主要模态，专注于生成高保真驾驶视频。例如，GAIA-1 能够合成逼真的驾驶场景，DriveDreamer 从真实世界数据中学习策略，Vista 可扩展到大型驾驶数据集，MagicDrive 通过注意力机制确保跨相机一致性。后续诸多工作进一步提升了模型的可控性、视频长度和视觉质量。

除视频生成外，近期研究还探索了 3D 和 4D 场景建模。MagicDrive3D 支持多条件 3D 场景生成，InfiniCube 能生成无界动态 3D 场景，DreamDrive 进一步扩展到可泛化的 4D 生成。然而，这些方法通常依赖于 "视频优先" 的流水线，导致重建伪影和稀疏视图不一致问题，凸显了直接生成连贯 3D/4D 表示的必要性。

2.2 城市场景重建

城市场景重建和新颖视图合成通常采用神经 3D 表示方法，但由于驾驶场景存在稀疏视图和动态物体等问题，重建难度较大。基于高斯的方法利用边界框重建静态和动态部分，自监督方法则自动对其进行分解。前馈方法通过避免逐场景优化进一步加快了重建速度，但这些工作均侧重于重建而非生成。WorldSplat 填补了这一空白，实现了具有高质量新颖视图的前馈 4D 场景生成。

三、方法

3.1 框架概述

WorldSplat 框架由三个关键模块组成，如图 2 所示：用于多模态 latent 生成的 4D 感知 latent 扩散模型、用于前馈 4D 高斯预测和实时轨迹渲染的 latent 高斯解码器，以及用于视频质量细化的增强扩散模型。三个模块独立训练，其架构和训练过程将在后续小节详细介绍，最终通过模块整合生成高保真、时空一致的视频。

图 2 框架概述。(1) 采用 4D 感知扩散模型生成包含 RGB、深度和动态信息的多模态 latent；(2) 利用前馈 latent 解码器从去噪后的 latent 中预测像素对齐的 3D 高斯；(3) 通过动静分解聚合 3D 高斯形成 4D 高斯，并渲染新颖视图视频；(4) 利用增强扩散模型提高渲染视频的空间分辨率和时间一致性。其中，向上箭头表示仅训练阶段，双向箭头表示推理阶段。

3.2 4D 感知扩散模型

给定噪声 latent 和细粒度条件（即边界框、道路草图、文本描述和自车轨迹），4D 感知扩散模型通过去噪生成包含 RGB、深度和动态物体信息的多模态 latent，用于后续 4D 高斯预测。

3.2.1 多模态 latent 融合

对于具有 T 帧的 K 视图驾驶视频片段，首先使用预训练的 VAE 编码器提取多视图图像 latent ；然后利用基础深度估计器生成度量深度图，将其归一化到 [-1, 1] 并复制到三个通道，编码为深度 latent ；为进一步分离静态和动态物体以进行 4D 场景重建，从动态类物体的二值分割掩码中利用 SegFormer 获取语义掩码 latent ；最后将三个 latent 按通道拼接，形成解码器输入。

3.2.2 多条件控制

扩散 Transformer 以结构化线索为条件，包括 BEV 布局、实例框、自车轨迹和文本描述，统称为。为实现细粒度文本描述控制，引入 DataCrafter，将 K 视图视频分割为片段，使用 VLM 评估器评分，生成单视图文本描述，并通过一致性模块融合，最终得到的结构化文本描述既包含场景上下文（天气、时间、布局），又包含物体细节（类别、边界框、描述），确保了跨视图的时间连贯性和空间一致性。

3.2.3 架构

4D 感知扩散模型的架构是基于 OpenSora v1.2 构建的 ControlNet 型 Transformer。通过扩展 OpenSora，设计了双分支扩散 Transformer：用于时空视频 latent 的主 DiT 流和用于条件的多块 ControlNet 分支。为确保多视图连贯性，将标准自注意力替换为跨视图注意力。每个 ControlNet 块整合来自预训练 VAE 的道路草图 latent 和来自 T5 编码器的文本嵌入，3D 框、自车轨迹和文本特征通过跨注意力进一步融合为统一的场景级信号，实现细粒度引导和跨时间、跨视角的一致视频合成。

3.2.4 训练

训练阶段，采用 Rectified Flow 模型替代标准 IDDPM 调度器，以提高稳定性并减少推理步骤。设为干净 latent 的真实样本，为噪声样本，引入连续混合参数，定义插值状态：

训练一个以为条件的神经场，通过最小化以下损失来恢复目标向量：

测试时，将（k=N,...,1）离散化，并通过以下公式反向迭代：

推理阶段，不使用 VAE 解码器从去噪 latent 重建视频帧，而是采用 latent 4D 高斯解码器直接预测 4D 高斯，用于新颖视图视频渲染。

3.3 latent 4D 高斯解码器

高斯解码器从多模态 latent L 中预测像素对齐的 3D 高斯，利用 latent 中的语义信息区分动态和静态物体，并从 3D 高斯重建 4D 场景。

3.3.1 架构

基于 Transformer 的解码器由多个跨视图注意力块和帧间时间注意力层组成，其后是层级化的上采样块，用于预测每个像素的高斯参数。该设计能够捕获 4D 场景的时空动态，并从多模态 latent 输入 L 直接输出像素对齐的 3D 高斯。为进一步增强 3D 空间线索，引入 Plücker 射线图，其编码了从相机内参和外参导出的像素级射线原点和方向。

每个 3D 高斯参数化为，其中和分别表示中心、四元数旋转、尺度、不透明度和颜色。解码器最后一层预测每个像素的偏移量、旋转、尺度、不透明度、颜色、深度和动静分类对数概率。高斯中心计算为，其中是学习到的偏移量。该过程生成一系列高斯集合 G 和指示动态类物体的掩码 M，可简洁表示为：

与现有前馈场景重建模型相比，该解码器支持超过 48 个同时输入视图，能够更全面地重建复杂场景。

3.3.2 4D 高斯聚合

通过合并每个帧的 3D 高斯估计，形成时间对齐且连贯的场景模型。采用直接的 4D 重建方案：给定已知的自车轨迹 T，通过自车坐标变换将所有 3D 高斯转换到统一坐标系中。在每个时间步，将来自每个帧的静态高斯与来自当前帧的动态高斯融合：

通过整合多个时间步的数据，解码器能够捕获场景的完整几何形状、外观和运动，支持从新的空间视角和不同时刻进行渲染。

3.3.3 监督与损失函数

高斯解码器同时预测像素对齐的 3D 高斯和语义掩码，以区分动态和静态区域。预测的语义掩码通过 SegFormer 生成的掩码进行监督，采用二元交叉熵损失。在所有观测时间步上，利用预测的掩码组装 4D 高斯后，将其投影到一组目标渲染时间步。训练过程中，随机选择基准时间步 t，采样 T 个目标时间步，并提取相应的干净 latent 作为输入。对于每个，渲染 RGB 图像 R 和深度图像，并使用相应的真实信号（RGB 输入 I 和度量深度图）进行监督。RGB 重建采用光度 L1 损失和感知 LPIPS 损失的组合，深度预测在度量空间中采用 L1 损失监督。总体训练目标定义为这些损失的加权和：

推理时，预训练的高斯解码器生成的 4D 高斯用于沿自定义自车轨迹渲染新颖视图视频。

3.4 增强扩散模型

增强扩散模型对从 4D 高斯渲染的 RGB 视频进行细化，生成过程以原始输入和渲染视频为条件。该细化过程丰富了空间细节并增强了时间连贯性，最终得到高保真的新颖视图序列。

3.4.1 基于恢复的重建

尽管 latent 高斯解码器以前馈方式重建 4D 场景，但高斯 splatting 的固有局限性导致未观测区域的渲染质量较低。此外，在没有逐场景优化的情况下，强自车运动下的新颖视图重建可能会变得模糊。为解决这些问题，设计增强扩散模型以提高质量。如图 3 所示，左上角的新颖视图渲染由于遮挡而遗漏了天空区域，左下角的渲染由于强自车运动而显得模糊，而增强扩散模型显著提高了最终渲染的保真度和清晰度。

图 3 增强扩散模型的有效性。在新颖视图视频合成过程中，由于未观测区域或高自车速度，渲染质量可能会下降，导致内容缺失和伪影。增强扩散模型能够对未观测区域进行补绘，并锐化快速运动的帧。

3.4.2 架构与训练

增强扩散模型的整体架构和训练策略与 4D 感知扩散模型一致，其目标是在 latent 空间中细化渲染结果，真实值为，因此回归目标是图像 latent ，与常见的 latent 扩散模型一致。训练流程与 4D 感知扩散模型类似，仅在控制条件和回归目标上有所不同。

由于高斯 splatting 的局限性，推理时的新颖视图渲染通常不如训练中使用的源视图质量高。ReconDreamer 通过使用降级渲染进行训练来缩小这一差距，但仅依赖降级输入会削弱条件与输出之间的对齐。因此，增强扩散模型采用混合条件策略，结合降级视图和高质量视图，以同时提高可控性和生成保真度。

3.5 框架推理流程

推理时，4D 感知扩散模型接收噪声 latent 和控制条件，输出去噪 latent ；高斯解码器从中预测 4D 高斯，并基于自定义自车轨迹渲染新颖视图视频；草图和边界框被重投影为和，形成新的控制条件；增强扩散模型以噪声 latent 和条件为输入，细化，生成高质量新颖视图视频。

3.5.1 自定义轨迹选择

基于 FreeVS 的自车姿态扰动策略，通过横向偏移车辆路径生成一组新颖轨迹。具体而言，给定原始自车轨迹，沿车辆 y 轴应用偏移量，生成六个扰动轨迹。对于每个扰动路径，聚合的 4D 高斯能够渲染高质量的新颖视图视频。

此外，从真实驾驶视频重建场景时，将绕过 4D 感知扩散模型，高斯解码器直接接收干净 latent 作为输入。

四、实验

4.1 实验设置

4.1.1 数据集与指标

实验在 nuScenes 基准数据集上进行，该数据集包含 1000 个城市驾驶场景，标注频率为 2Hz。按照相关工作，将标注（如边界框和道路草图）上采样到 12Hz。模型在 700 个场景上训练，150 个场景上验证。采用 Fréchet 视频距离（FVD）和 Fréchet inception 距离（FID）评估生成质量；对于下游评估，测量感知任务的领域差距，并评估生成数据对感知模型训练的改进效果。

4.1.2 实现细节

采用预训练的 OpenSora-VAE-1.2 作为骨干网络，仅对扩散 Transformer 中的跨视图注意力块进行微调。更多架构和训练细节见附录 A。

4.2 原始视图视频生成

4.2.1 定量比较

表 1 报告了在三种不同条件设置下视频合成方法的定量结果：（i）无首帧引导；（ii）有首帧引导；（iii）噪声 latent 初始化。在所有场景中，WorldSplat 在 FVD 和 FID 指标上均持续取得最佳成绩。

无首帧引导时，WorldSplat 达到 74.13 的FVDmulti和 8.78 的FIDmulti，超过 DriveDreamer2、MagicDrive-V2 和 Panacea；结合首帧后，性能进一步提升至 16.57 FVD 和 4.14 FID，与 DriveDreamer-2 相当或更优，同时保持时间平滑性和结构细节；在噪声 latent 协议下（6019 个片段），WorldSplat 达到 60.87 FVD 和 6.51 FID，超越 UniScene，建立了新的技术水平。

4.2.2 定性比较

图 4 将 WorldSplat 生成的视频与 MagicDrive 和 Panacea 两种领先方法进行了比较，并展示了真实样本和控制输入。结果表明，WorldSplat 能够生成动态物体形状和位置更准确的视频，且在多视图间实现了更好的一致性，在保持不同视角高度一致的同时，捕获了丰富的细节，具有很高的真实感。

图 4 与 MagicDrive 和 Panacea 的比较。第一行显示真实帧，第二行显示相应的草图和边界框控制。红色框突出显示 WorldSplat 取得最显著改进的区域。

4.3 新颖视图合成

遵循 FreeVS 的评估方法，使用 FID 和 FVD 指标在新颖轨迹上评估模型性能。具体而言，将相机偏移 ±1m、±2m 和 ±4m，然后计算沿每个偏移轨迹生成的 RGB 帧与原始真实帧之间的 FID 和 FVD。

4.3.1 定量比较

表 2 在 nuScenes 数据集上，对 WorldSplat 与六个基线模型在 ±1、±2 和 ±4 米视角偏移下的性能进行了比较。WorldSplat 在所有偏移量下均持续取得最佳 FID/FVD------ 例如，在 ±1m 时优于 DiST-4D 和 OmniRe，即使在 ±4m 时仍明显领先于所有基线。这些结果证明了 4D 高斯表示在不同视角偏移下新颖视图合成的稳健性和保真度。

4.3.2 定性比较

图 5 与最先进的城市重建模型 OmniRe 进行了定性比较，展示了 WorldSplat 在空间一致性方面的优越性。WorldSplat 的渲染结果更清晰、细节更丰富：OmniRe 常常会丢失车道标记和栏杆等精细元素，而 WorldSplat 能够准确保留这些特征；此外，WorldSplat 在背景重建方面也比 OmniRe 有显著改进。

图 5 新颖视图合成与最先进城市重建方法的定性比较。将自车横向偏移 ±2m 以生成新颖视角。红色框指示 WorldSplat 取得最大改进的区域。

4.4 消融实验

表 3 报告了在自车偏移 ±2m 的新颖视图合成中，四个变体的 FID 和 FVD 结果。版本 A 省略了渲染条件：推理时仅重投影边界框和道路草图，导致输出保真度低；版本 B 移除了 4D 高斯聚合，依赖单帧 3D 高斯渲染，取得了中等程度的提升；版本 C 使用完整的 4D 高斯聚合，进一步改善了两个指标；版本 D 单独评估了增强扩散模型在细化阶段的作用；版本 E 在训练期间添加了混合增强，取得了最佳的 FID 和 FVD 分数。

如下表 3 新颖视图生成的消融实验："C-Reprojection" 表示重投影边界框和草图；"3D Gs" 表示使用单帧重建的高斯；"4D Gs" 表示使用多帧重建的高斯；"Mixed Aug" 表示在训练期间混合不同质量的渲染结果；"Enhanced" 表示使用增强扩散模型。

4.5 下游评估

除视觉保真度外，遵循 MagicDrive 的评估方案，在下游任务（3D 检测和 BEV 地图分割）上评估了领域差距（表 4a）。使用预训练的 BEVFormer，WorldSplat 生成的输入实现了 38.49% 的 mIoU 和 29.32% 的 mAP，分别比 DiVE 高出 2.53% 和 4.79%。

此外，遵循 Panacea 的实验设置，基于 nuScenes 生成了新的训练数据集，并将生成的数据与真实数据相结合，训练 StreamPETR 模型。表 4b 报告了 3D 物体检测结果，表明与 Panacea 相比，WorldSplat 为基线模型提供了更大的改进。

五、结论

本文提出了 WorldSplat，一种新颖的前馈框架，融合了生成式和重建式方法的优势，用于 4D 驾驶场景合成。通过将 4D 感知 latent 扩散模型与增强扩散网络相结合，WorldSplat 能够生成显式 4D 高斯，并将其细化为高保真、时空一致的多轨迹驾驶视频。在标准基准上的大量实验证实，WorldSplat 在真实感和新颖视图质量方面均优于现有的生成和重建技术。