WorldSplat:面向自动驾驶的 4D 场景生成与新颖视图合成框架

一、引言

在自动驾驶与计算机视觉领域,合成具有可控视角的逼真驾驶场景视频是一项关键挑战,其对于大规模训练数据生成和闭环评估至关重要。近年来,生成模型在高保真、用户自定义视频生成方面取得了显著进展,减少了对昂贵真实数据的依赖;同时,城市场景重建方法也在 3D 表示和一致新颖视图合成上有所突破。然而,生成模型与重建方法之间存在着难以调和的矛盾:现有视频生成模型多在 2D 图像域工作,缺乏 3D 一致性和新颖视图可控性,从新视角生成时易出现连贯性问题;而场景重建方法虽能实现准确的 3D 一致性和逼真新颖视图,但缺乏生成灵活性,无法想象捕获数据之外的场景。

为解决这一困境,本文提出了 WorldSplat,一种融合生成扩散与显式 3D 重建的前馈框架,用于 4D 驾驶场景合成。该框架能够创建动态 4D 高斯表示,并沿任意用户定义的相机轨迹渲染新颖视图,且无需逐场景优化。通过将 3D 感知嵌入扩散模型,并采用显式的以高斯为中心的世界表示,WorldSplat 确保了新颖轨迹视图的时空一致性。此外,该框架支持丰富的条件输入,如道路草图、文本描述、动态物体放置和自车轨迹等,使其成为多样化驾驶场景的高度可控模拟器。

原文链接:WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving

项目链接:WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving

代码链接:wm-research/worldsplat: WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving

沐小含持续分享前沿算法论文,欢迎关注...

二、相关工作

2.1 驾驶世界模型

近年来,面向自动驾驶的世界模型在逼真街道场景模拟方面取得了诸多进展,旨在生成多样化的合成数据以支持稳健的驾驶系统。大多数方法以视觉为主要模态,专注于生成高保真驾驶视频。例如,GAIA-1 能够合成逼真的驾驶场景,DriveDreamer 从真实世界数据中学习策略,Vista 可扩展到大型驾驶数据集,MagicDrive 通过注意力机制确保跨相机一致性。后续诸多工作进一步提升了模型的可控性、视频长度和视觉质量。

除视频生成外,近期研究还探索了 3D 和 4D 场景建模。MagicDrive3D 支持多条件 3D 场景生成,InfiniCube 能生成无界动态 3D 场景,DreamDrive 进一步扩展到可泛化的 4D 生成。然而,这些方法通常依赖于 "视频优先" 的流水线,导致重建伪影和稀疏视图不一致问题,凸显了直接生成连贯 3D/4D 表示的必要性。

2.2 城市场景重建

城市场景重建和新颖视图合成通常采用神经 3D 表示方法,但由于驾驶场景存在稀疏视图和动态物体等问题,重建难度较大。基于高斯的方法利用边界框重建静态和动态部分,自监督方法则自动对其进行分解。前馈方法通过避免逐场景优化进一步加快了重建速度,但这些工作均侧重于重建而非生成。WorldSplat 填补了这一空白,实现了具有高质量新颖视图的前馈 4D 场景生成。

三、方法

3.1 框架概述

WorldSplat 框架由三个关键模块组成,如图 2 所示:用于多模态 latent 生成的 4D 感知 latent 扩散模型、用于前馈 4D 高斯预测和实时轨迹渲染的 latent 高斯解码器,以及用于视频质量细化的增强扩散模型。三个模块独立训练,其架构和训练过程将在后续小节详细介绍,最终通过模块整合生成高保真、时空一致的视频。

图 2 框架概述。(1) 采用 4D 感知扩散模型生成包含 RGB、深度和动态信息的多模态 latent;(2) 利用前馈 latent 解码器从去噪后的 latent 中预测像素对齐的 3D 高斯;(3) 通过动静分解聚合 3D 高斯形成 4D 高斯,并渲染新颖视图视频;(4) 利用增强扩散模型提高渲染视频的空间分辨率和时间一致性。其中,向上箭头表示仅训练阶段,双向箭头表示推理阶段。

3.2 4D 感知扩散模型

给定噪声 latent 和细粒度条件(即边界框、道路草图、文本描述和自车轨迹),4D 感知扩散模型通过去噪生成包含 RGB、深度和动态物体信息的多模态 latent,用于后续 4D 高斯预测。

3.2.1 多模态 latent 融合

对于具有 T 帧的 K 视图驾驶视频片段,首先使用预训练的 VAE 编码器提取多视图图像 latent ;然后利用基础深度估计器生成度量深度图 ,将其归一化到 [-1, 1] 并复制到三个通道,编码为深度 latent ;为进一步分离静态和动态物体以进行 4D 场景重建,从动态类物体的二值分割掩码中利用 SegFormer 获取语义掩码 latent ;最后将三个 latent 按通道拼接,形成解码器输入

3.2.2 多条件控制

扩散 Transformer 以结构化线索为条件,包括 BEV 布局 、实例框 、自车轨迹 和文本描述 ,统称为。为实现细粒度文本描述控制,引入 DataCrafter,将 K 视图视频分割为片段,使用 VLM 评估器评分,生成单视图文本描述,并通过一致性模块融合,最终得到的结构化文本描述既包含场景上下文(天气、时间、布局),又包含物体细节(类别、边界框、描述),确保了跨视图的时间连贯性和空间一致性。

3.2.3 架构

4D 感知扩散模型的架构是基于 OpenSora v1.2 构建的 ControlNet 型 Transformer。通过扩展 OpenSora,设计了双分支扩散 Transformer:用于时空视频 latent 的主 DiT 流和用于条件 的多块 ControlNet 分支。为确保多视图连贯性,将标准自注意力替换为跨视图注意力。每个 ControlNet 块整合来自预训练 VAE 的道路草图 latent 和来自 T5 编码器的文本嵌入,3D 框、自车轨迹和文本特征通过跨注意力进一步融合为统一的场景级信号,实现细粒度引导和跨时间、跨视角的一致视频合成。

3.2.4 训练

训练阶段,采用 Rectified Flow 模型替代标准 IDDPM 调度器,以提高稳定性并减少推理步骤。设为干净 latent 的真实样本,为噪声样本,引入连续混合参数,定义插值状态:

训练一个以 为条件的神经场,通过最小化以下损失来恢复目标向量

测试时,将(k=N,...,1)离散化,并通过以下公式反向迭代:

推理阶段,不使用 VAE 解码器从去噪 latent 重建视频帧,而是采用 latent 4D 高斯解码器直接预测 4D 高斯,用于新颖视图视频渲染。

3.3 latent 4D 高斯解码器

高斯解码器从多模态 latent L 中预测像素对齐的 3D 高斯,利用 latent 中的语义信息区分动态和静态物体,并从 3D 高斯重建 4D 场景。

3.3.1 架构

基于 Transformer 的解码器由多个跨视图注意力块和帧间时间注意力层组成,其后是层级化的上采样块,用于预测每个像素的高斯参数。该设计能够捕获 4D 场景的时空动态,并从多模态 latent 输入 L 直接输出像素对齐的 3D 高斯。为进一步增强 3D 空间线索,引入 Plücker 射线图 ,其编码了从相机内参和外参导出的像素级射线原点和方向

每个 3D 高斯参数化为,其中分别表示中心、四元数旋转、尺度、不透明度和颜色。解码器最后一层预测每个像素的偏移量 、旋转 、尺度 、不透明度 、颜色 、深度 和动静分类对数概率 。高斯中心计算为,其中是学习到的偏移量。该过程生成一系列高斯集合 G 和指示动态类物体的掩码 M,可简洁表示为:

与现有前馈场景重建模型相比,该解码器支持超过 48 个同时输入视图,能够更全面地重建复杂场景。

3.3.2 4D 高斯聚合

通过合并每个帧的 3D 高斯估计,形成时间对齐且连贯的场景模型。采用直接的 4D 重建方案:给定已知的自车轨迹 T,通过自车坐标变换将所有 3D 高斯转换到统一坐标系中。在每个时间步,将来自每个帧的静态高斯与来自当前帧的动态高斯融合:

通过整合多个时间步的数据,解码器能够捕获场景的完整几何形状、外观和运动,支持从新的空间视角和不同时刻进行渲染。

3.3.3 监督与损失函数

高斯解码器同时预测像素对齐的 3D 高斯和语义掩码,以区分动态和静态区域。预测的语义掩码通过 SegFormer 生成的掩码进行监督,采用二元交叉熵损失。在所有观测时间步上,利用预测的掩码组装 4D 高斯后,将其投影到一组目标渲染时间步。训练过程中,随机选择基准时间步 t,采样 T 个目标时间步,并提取相应的干净 latent 作为输入。对于每个,渲染 RGB 图像 R 和深度图像,并使用相应的真实信号(RGB 输入 I 和度量深度图)进行监督。RGB 重建采用光度 L1 损失和感知 LPIPS 损失的组合,深度预测在度量空间中采用 L1 损失监督。总体训练目标定义为这些损失的加权和:

推理时,预训练的高斯解码器生成的 4D 高斯用于沿自定义自车轨迹渲染新颖视图视频

3.4 增强扩散模型

增强扩散模型对从 4D 高斯渲染的 RGB 视频进行细化,生成过程以原始输入 和渲染视频为条件。该细化过程丰富了空间细节并增强了时间连贯性,最终得到高保真的新颖视图序列。

3.4.1 基于恢复的重建

尽管 latent 高斯解码器以前馈方式重建 4D 场景,但高斯 splatting 的固有局限性导致未观测区域的渲染质量较低。此外,在没有逐场景优化的情况下,强自车运动下的新颖视图重建可能会变得模糊。为解决这些问题,设计增强扩散模型以提高质量。如图 3 所示,左上角的新颖视图渲染由于遮挡而遗漏了天空区域,左下角的渲染由于强自车运动而显得模糊,而增强扩散模型显著提高了最终渲染的保真度和清晰度。

图 3 增强扩散模型的有效性。在新颖视图视频合成过程中,由于未观测区域或高自车速度,渲染质量可能会下降,导致内容缺失和伪影。增强扩散模型能够对未观测区域进行补绘,并锐化快速运动的帧。

3.4.2 架构与训练

增强扩散模型的整体架构和训练策略与 4D 感知扩散模型一致,其目标是在 latent 空间中细化渲染结果 ,真实值为,因此回归目标是图像 latent ,与常见的 latent 扩散模型一致。训练流程与 4D 感知扩散模型类似,仅在控制条件和回归目标上有所不同。

由于高斯 splatting 的局限性,推理时的新颖视图渲染通常不如训练中使用的源视图质量高。ReconDreamer 通过使用降级渲染进行训练来缩小这一差距,但仅依赖降级输入会削弱条件与输出之间的对齐。因此,增强扩散模型采用混合条件策略,结合降级视图和高质量视图,以同时提高可控性和生成保真度。

3.5 框架推理流程

推理时,4D 感知扩散模型接收噪声 latent 和控制条件 ,输出去噪 latent ;高斯解码器从中预测 4D 高斯,并基于自定义自车轨迹渲染新颖视图视频;草图和边界框被重投影为 ,形成新的控制条件 ;增强扩散模型以噪声 latent 和条件 为输入,细化,生成高质量新颖视图视频。

3.5.1 自定义轨迹选择

基于 FreeVS 的自车姿态扰动策略,通过横向偏移车辆路径生成一组新颖轨迹。具体而言,给定原始自车轨迹,沿车辆 y 轴应用偏移量,生成六个扰动轨迹。对于每个扰动路径,聚合的 4D 高斯能够渲染高质量的新颖视图视频。

此外,从真实驾驶视频重建场景时,将绕过 4D 感知扩散模型,高斯解码器直接接收干净 latent 作为输入。

四、实验

4.1 实验设置

4.1.1 数据集与指标

实验在 nuScenes 基准数据集上进行,该数据集包含 1000 个城市驾驶场景,标注频率为 2Hz。按照相关工作,将标注(如边界框和道路草图)上采样到 12Hz。模型在 700 个场景上训练,150 个场景上验证。采用 Fréchet 视频距离(FVD)和 Fréchet inception 距离(FID)评估生成质量;对于下游评估,测量感知任务的领域差距,并评估生成数据对感知模型训练的改进效果。

4.1.2 实现细节

采用预训练的 OpenSora-VAE-1.2 作为骨干网络,仅对扩散 Transformer 中的跨视图注意力块进行微调。更多架构和训练细节见附录 A。

4.2 原始视图视频生成

4.2.1 定量比较

表 1 报告了在三种不同条件设置下视频合成方法的定量结果:(i)无首帧引导;(ii)有首帧引导;(iii)噪声 latent 初始化。在所有场景中,WorldSplat 在 FVD 和 FID 指标上均持续取得最佳成绩。

无首帧引导时,WorldSplat 达到 74.13 的FVDmulti和 8.78 的FIDmulti,超过 DriveDreamer2、MagicDrive-V2 和 Panacea;结合首帧后,性能进一步提升至 16.57 FVD 和 4.14 FID,与 DriveDreamer-2 相当或更优,同时保持时间平滑性和结构细节;在噪声 latent 协议下(6019 个片段),WorldSplat 达到 60.87 FVD 和 6.51 FID,超越 UniScene,建立了新的技术水平。

4.2.2 定性比较

图 4 将 WorldSplat 生成的视频与 MagicDrive 和 Panacea 两种领先方法进行了比较,并展示了真实样本和控制输入。结果表明,WorldSplat 能够生成动态物体形状和位置更准确的视频,且在多视图间实现了更好的一致性,在保持不同视角高度一致的同时,捕获了丰富的细节,具有很高的真实感。

图 4 与 MagicDrive 和 Panacea 的比较。第一行显示真实帧,第二行显示相应的草图和边界框控制。红色框突出显示 WorldSplat 取得最显著改进的区域。

4.3 新颖视图合成

遵循 FreeVS 的评估方法,使用 FID 和 FVD 指标在新颖轨迹上评估模型性能。具体而言,将相机偏移 ±1m、±2m 和 ±4m,然后计算沿每个偏移轨迹生成的 RGB 帧与原始真实帧之间的 FID 和 FVD。

4.3.1 定量比较

表 2 在 nuScenes 数据集上,对 WorldSplat 与六个基线模型在 ±1、±2 和 ±4 米视角偏移下的性能进行了比较。WorldSplat 在所有偏移量下均持续取得最佳 FID/FVD------ 例如,在 ±1m 时优于 DiST-4D 和 OmniRe,即使在 ±4m 时仍明显领先于所有基线。这些结果证明了 4D 高斯表示在不同视角偏移下新颖视图合成的稳健性和保真度。

4.3.2 定性比较

图 5 与最先进的城市重建模型 OmniRe 进行了定性比较,展示了 WorldSplat 在空间一致性方面的优越性。WorldSplat 的渲染结果更清晰、细节更丰富:OmniRe 常常会丢失车道标记和栏杆等精细元素,而 WorldSplat 能够准确保留这些特征;此外,WorldSplat 在背景重建方面也比 OmniRe 有显著改进。

图 5 新颖视图合成与最先进城市重建方法的定性比较。将自车横向偏移 ±2m 以生成新颖视角。红色框指示 WorldSplat 取得最大改进的区域。

4.4 消融实验

表 3 报告了在自车偏移 ±2m 的新颖视图合成中,四个变体的 FID 和 FVD 结果。版本 A 省略了渲染条件:推理时仅重投影边界框和道路草图,导致输出保真度低;版本 B 移除了 4D 高斯聚合,依赖单帧 3D 高斯渲染,取得了中等程度的提升;版本 C 使用完整的 4D 高斯聚合,进一步改善了两个指标;版本 D 单独评估了增强扩散模型在细化阶段的作用;版本 E 在训练期间添加了混合增强,取得了最佳的 FID 和 FVD 分数。

如下表 3 新颖视图生成的消融实验:"C-Reprojection" 表示重投影边界框和草图;"3D Gs" 表示使用单帧重建的高斯;"4D Gs" 表示使用多帧重建的高斯;"Mixed Aug" 表示在训练期间混合不同质量的渲染结果;"Enhanced" 表示使用增强扩散模型。

4.5 下游评估

除视觉保真度外,遵循 MagicDrive 的评估方案,在下游任务(3D 检测和 BEV 地图分割)上评估了领域差距(表 4a)。使用预训练的 BEVFormer,WorldSplat 生成的输入实现了 38.49% 的 mIoU 和 29.32% 的 mAP,分别比 DiVE 高出 2.53% 和 4.79%。

此外,遵循 Panacea 的实验设置,基于 nuScenes 生成了新的训练数据集,并将生成的数据与真实数据相结合,训练 StreamPETR 模型。表 4b 报告了 3D 物体检测结果,表明与 Panacea 相比,WorldSplat 为基线模型提供了更大的改进。

五、结论

本文提出了 WorldSplat,一种新颖的前馈框架,融合了生成式和重建式方法的优势,用于 4D 驾驶场景合成。通过将 4D 感知 latent 扩散模型与增强扩散网络相结合,WorldSplat 能够生成显式 4D 高斯,并将其细化为高保真、时空一致的多轨迹驾驶视频。在标准基准上的大量实验证实,WorldSplat 在真实感和新颖视图质量方面均优于现有的生成和重建技术。

相关推荐
LVXIANGAN3 天前
汽车智能座舱中LVDS、CAN、以太网、RTP的区别
自动驾驶·汽车
薛定e的猫咪3 天前
【AAAI 2025】基于扩散模型的昂贵多目标贝叶斯优化
论文阅读·人工智能·算法
YMWM_3 天前
论文阅读“SimVLA: A Simple VLA Baseline for Robotic Manipulation“
论文阅读·vla
m0_650108243 天前
VLN-Zero:零样本机器人导航的神经符号视觉语言规划框架
论文阅读·零样本·机器人导航·视觉语言导航·未知环境快速适配·符号化场景图·vlm推理
晓山清4 天前
【论文阅读】Self-supervised Learning of Person-specific Facial Dynamics for APR
论文阅读
张较瘦_4 天前
[论文阅读] AI + 教育 | 不是单纯看视频!软件工程培训的游戏化融合之道
论文阅读·人工智能·软件工程
地平线开发者4 天前
【地平线 征程 6 工具链进阶教程】算子优化方案集锦
算法·自动驾驶
无忧智库4 天前
某港口集团“十五五”智慧港口数字孪生与自动驾驶集卡多车编队系统建设方案深度解析(WORD)
人工智能·机器学习·自动驾驶
张较瘦_4 天前
[论文阅读] AI + 软件工程 | 用统计置信度破解AI功能正确性评估难题——SCFC方法详解
论文阅读·人工智能·软件工程
田里的水稻4 天前
OE_ubuntu24.04安装ros2
人工智能·算法·数学建模·机器人·自动驾驶