WorldSplat:面向自动驾驶的 4D 场景生成与新颖视图合成框架

一、引言

在自动驾驶与计算机视觉领域,合成具有可控视角的逼真驾驶场景视频是一项关键挑战,其对于大规模训练数据生成和闭环评估至关重要。近年来,生成模型在高保真、用户自定义视频生成方面取得了显著进展,减少了对昂贵真实数据的依赖;同时,城市场景重建方法也在 3D 表示和一致新颖视图合成上有所突破。然而,生成模型与重建方法之间存在着难以调和的矛盾:现有视频生成模型多在 2D 图像域工作,缺乏 3D 一致性和新颖视图可控性,从新视角生成时易出现连贯性问题;而场景重建方法虽能实现准确的 3D 一致性和逼真新颖视图,但缺乏生成灵活性,无法想象捕获数据之外的场景。

为解决这一困境,本文提出了 WorldSplat,一种融合生成扩散与显式 3D 重建的前馈框架,用于 4D 驾驶场景合成。该框架能够创建动态 4D 高斯表示,并沿任意用户定义的相机轨迹渲染新颖视图,且无需逐场景优化。通过将 3D 感知嵌入扩散模型,并采用显式的以高斯为中心的世界表示,WorldSplat 确保了新颖轨迹视图的时空一致性。此外,该框架支持丰富的条件输入,如道路草图、文本描述、动态物体放置和自车轨迹等,使其成为多样化驾驶场景的高度可控模拟器。

原文链接:WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving

项目链接:WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving

代码链接:wm-research/worldsplat: WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving

沐小含持续分享前沿算法论文,欢迎关注...

二、相关工作

2.1 驾驶世界模型

近年来,面向自动驾驶的世界模型在逼真街道场景模拟方面取得了诸多进展,旨在生成多样化的合成数据以支持稳健的驾驶系统。大多数方法以视觉为主要模态,专注于生成高保真驾驶视频。例如,GAIA-1 能够合成逼真的驾驶场景,DriveDreamer 从真实世界数据中学习策略,Vista 可扩展到大型驾驶数据集,MagicDrive 通过注意力机制确保跨相机一致性。后续诸多工作进一步提升了模型的可控性、视频长度和视觉质量。

除视频生成外,近期研究还探索了 3D 和 4D 场景建模。MagicDrive3D 支持多条件 3D 场景生成,InfiniCube 能生成无界动态 3D 场景,DreamDrive 进一步扩展到可泛化的 4D 生成。然而,这些方法通常依赖于 "视频优先" 的流水线,导致重建伪影和稀疏视图不一致问题,凸显了直接生成连贯 3D/4D 表示的必要性。

2.2 城市场景重建

城市场景重建和新颖视图合成通常采用神经 3D 表示方法,但由于驾驶场景存在稀疏视图和动态物体等问题,重建难度较大。基于高斯的方法利用边界框重建静态和动态部分,自监督方法则自动对其进行分解。前馈方法通过避免逐场景优化进一步加快了重建速度,但这些工作均侧重于重建而非生成。WorldSplat 填补了这一空白,实现了具有高质量新颖视图的前馈 4D 场景生成。

三、方法

3.1 框架概述

WorldSplat 框架由三个关键模块组成,如图 2 所示:用于多模态 latent 生成的 4D 感知 latent 扩散模型、用于前馈 4D 高斯预测和实时轨迹渲染的 latent 高斯解码器,以及用于视频质量细化的增强扩散模型。三个模块独立训练,其架构和训练过程将在后续小节详细介绍,最终通过模块整合生成高保真、时空一致的视频。

图 2 框架概述。(1) 采用 4D 感知扩散模型生成包含 RGB、深度和动态信息的多模态 latent;(2) 利用前馈 latent 解码器从去噪后的 latent 中预测像素对齐的 3D 高斯;(3) 通过动静分解聚合 3D 高斯形成 4D 高斯,并渲染新颖视图视频;(4) 利用增强扩散模型提高渲染视频的空间分辨率和时间一致性。其中,向上箭头表示仅训练阶段,双向箭头表示推理阶段。

3.2 4D 感知扩散模型

给定噪声 latent 和细粒度条件(即边界框、道路草图、文本描述和自车轨迹),4D 感知扩散模型通过去噪生成包含 RGB、深度和动态物体信息的多模态 latent,用于后续 4D 高斯预测。

3.2.1 多模态 latent 融合

对于具有 T 帧的 K 视图驾驶视频片段,首先使用预训练的 VAE 编码器提取多视图图像 latent ;然后利用基础深度估计器生成度量深度图 ,将其归一化到 [-1, 1] 并复制到三个通道,编码为深度 latent ;为进一步分离静态和动态物体以进行 4D 场景重建,从动态类物体的二值分割掩码中利用 SegFormer 获取语义掩码 latent ;最后将三个 latent 按通道拼接,形成解码器输入

3.2.2 多条件控制

扩散 Transformer 以结构化线索为条件,包括 BEV 布局 、实例框 、自车轨迹 和文本描述 ,统称为。为实现细粒度文本描述控制,引入 DataCrafter,将 K 视图视频分割为片段,使用 VLM 评估器评分,生成单视图文本描述,并通过一致性模块融合,最终得到的结构化文本描述既包含场景上下文(天气、时间、布局),又包含物体细节(类别、边界框、描述),确保了跨视图的时间连贯性和空间一致性。

3.2.3 架构

4D 感知扩散模型的架构是基于 OpenSora v1.2 构建的 ControlNet 型 Transformer。通过扩展 OpenSora,设计了双分支扩散 Transformer:用于时空视频 latent 的主 DiT 流和用于条件 的多块 ControlNet 分支。为确保多视图连贯性,将标准自注意力替换为跨视图注意力。每个 ControlNet 块整合来自预训练 VAE 的道路草图 latent 和来自 T5 编码器的文本嵌入,3D 框、自车轨迹和文本特征通过跨注意力进一步融合为统一的场景级信号,实现细粒度引导和跨时间、跨视角的一致视频合成。

3.2.4 训练

训练阶段,采用 Rectified Flow 模型替代标准 IDDPM 调度器,以提高稳定性并减少推理步骤。设为干净 latent 的真实样本,为噪声样本,引入连续混合参数,定义插值状态:

训练一个以 为条件的神经场,通过最小化以下损失来恢复目标向量

测试时,将(k=N,...,1)离散化,并通过以下公式反向迭代:

推理阶段,不使用 VAE 解码器从去噪 latent 重建视频帧,而是采用 latent 4D 高斯解码器直接预测 4D 高斯,用于新颖视图视频渲染。

3.3 latent 4D 高斯解码器

高斯解码器从多模态 latent L 中预测像素对齐的 3D 高斯,利用 latent 中的语义信息区分动态和静态物体,并从 3D 高斯重建 4D 场景。

3.3.1 架构

基于 Transformer 的解码器由多个跨视图注意力块和帧间时间注意力层组成,其后是层级化的上采样块,用于预测每个像素的高斯参数。该设计能够捕获 4D 场景的时空动态,并从多模态 latent 输入 L 直接输出像素对齐的 3D 高斯。为进一步增强 3D 空间线索,引入 Plücker 射线图 ,其编码了从相机内参和外参导出的像素级射线原点和方向

每个 3D 高斯参数化为,其中分别表示中心、四元数旋转、尺度、不透明度和颜色。解码器最后一层预测每个像素的偏移量 、旋转 、尺度 、不透明度 、颜色 、深度 和动静分类对数概率 。高斯中心计算为,其中是学习到的偏移量。该过程生成一系列高斯集合 G 和指示动态类物体的掩码 M,可简洁表示为:

与现有前馈场景重建模型相比,该解码器支持超过 48 个同时输入视图,能够更全面地重建复杂场景。

3.3.2 4D 高斯聚合

通过合并每个帧的 3D 高斯估计,形成时间对齐且连贯的场景模型。采用直接的 4D 重建方案:给定已知的自车轨迹 T,通过自车坐标变换将所有 3D 高斯转换到统一坐标系中。在每个时间步,将来自每个帧的静态高斯与来自当前帧的动态高斯融合:

通过整合多个时间步的数据,解码器能够捕获场景的完整几何形状、外观和运动,支持从新的空间视角和不同时刻进行渲染。

3.3.3 监督与损失函数

高斯解码器同时预测像素对齐的 3D 高斯和语义掩码,以区分动态和静态区域。预测的语义掩码通过 SegFormer 生成的掩码进行监督,采用二元交叉熵损失。在所有观测时间步上,利用预测的掩码组装 4D 高斯后,将其投影到一组目标渲染时间步。训练过程中,随机选择基准时间步 t,采样 T 个目标时间步,并提取相应的干净 latent 作为输入。对于每个,渲染 RGB 图像 R 和深度图像,并使用相应的真实信号(RGB 输入 I 和度量深度图)进行监督。RGB 重建采用光度 L1 损失和感知 LPIPS 损失的组合,深度预测在度量空间中采用 L1 损失监督。总体训练目标定义为这些损失的加权和:

推理时,预训练的高斯解码器生成的 4D 高斯用于沿自定义自车轨迹渲染新颖视图视频

3.4 增强扩散模型

增强扩散模型对从 4D 高斯渲染的 RGB 视频进行细化,生成过程以原始输入 和渲染视频为条件。该细化过程丰富了空间细节并增强了时间连贯性,最终得到高保真的新颖视图序列。

3.4.1 基于恢复的重建

尽管 latent 高斯解码器以前馈方式重建 4D 场景,但高斯 splatting 的固有局限性导致未观测区域的渲染质量较低。此外,在没有逐场景优化的情况下,强自车运动下的新颖视图重建可能会变得模糊。为解决这些问题,设计增强扩散模型以提高质量。如图 3 所示,左上角的新颖视图渲染由于遮挡而遗漏了天空区域,左下角的渲染由于强自车运动而显得模糊,而增强扩散模型显著提高了最终渲染的保真度和清晰度。

图 3 增强扩散模型的有效性。在新颖视图视频合成过程中,由于未观测区域或高自车速度,渲染质量可能会下降,导致内容缺失和伪影。增强扩散模型能够对未观测区域进行补绘,并锐化快速运动的帧。

3.4.2 架构与训练

增强扩散模型的整体架构和训练策略与 4D 感知扩散模型一致,其目标是在 latent 空间中细化渲染结果 ,真实值为,因此回归目标是图像 latent ,与常见的 latent 扩散模型一致。训练流程与 4D 感知扩散模型类似,仅在控制条件和回归目标上有所不同。

由于高斯 splatting 的局限性,推理时的新颖视图渲染通常不如训练中使用的源视图质量高。ReconDreamer 通过使用降级渲染进行训练来缩小这一差距,但仅依赖降级输入会削弱条件与输出之间的对齐。因此,增强扩散模型采用混合条件策略,结合降级视图和高质量视图,以同时提高可控性和生成保真度。

3.5 框架推理流程

推理时,4D 感知扩散模型接收噪声 latent 和控制条件 ,输出去噪 latent ;高斯解码器从中预测 4D 高斯,并基于自定义自车轨迹渲染新颖视图视频;草图和边界框被重投影为 ,形成新的控制条件 ;增强扩散模型以噪声 latent 和条件 为输入,细化,生成高质量新颖视图视频。

3.5.1 自定义轨迹选择

基于 FreeVS 的自车姿态扰动策略,通过横向偏移车辆路径生成一组新颖轨迹。具体而言,给定原始自车轨迹,沿车辆 y 轴应用偏移量,生成六个扰动轨迹。对于每个扰动路径,聚合的 4D 高斯能够渲染高质量的新颖视图视频。

此外,从真实驾驶视频重建场景时,将绕过 4D 感知扩散模型,高斯解码器直接接收干净 latent 作为输入。

四、实验

4.1 实验设置

4.1.1 数据集与指标

实验在 nuScenes 基准数据集上进行,该数据集包含 1000 个城市驾驶场景,标注频率为 2Hz。按照相关工作,将标注(如边界框和道路草图)上采样到 12Hz。模型在 700 个场景上训练,150 个场景上验证。采用 Fréchet 视频距离(FVD)和 Fréchet inception 距离(FID)评估生成质量;对于下游评估,测量感知任务的领域差距,并评估生成数据对感知模型训练的改进效果。

4.1.2 实现细节

采用预训练的 OpenSora-VAE-1.2 作为骨干网络,仅对扩散 Transformer 中的跨视图注意力块进行微调。更多架构和训练细节见附录 A。

4.2 原始视图视频生成

4.2.1 定量比较

表 1 报告了在三种不同条件设置下视频合成方法的定量结果:(i)无首帧引导;(ii)有首帧引导;(iii)噪声 latent 初始化。在所有场景中,WorldSplat 在 FVD 和 FID 指标上均持续取得最佳成绩。

无首帧引导时,WorldSplat 达到 74.13 的FVDmulti和 8.78 的FIDmulti,超过 DriveDreamer2、MagicDrive-V2 和 Panacea;结合首帧后,性能进一步提升至 16.57 FVD 和 4.14 FID,与 DriveDreamer-2 相当或更优,同时保持时间平滑性和结构细节;在噪声 latent 协议下(6019 个片段),WorldSplat 达到 60.87 FVD 和 6.51 FID,超越 UniScene,建立了新的技术水平。

4.2.2 定性比较

图 4 将 WorldSplat 生成的视频与 MagicDrive 和 Panacea 两种领先方法进行了比较,并展示了真实样本和控制输入。结果表明,WorldSplat 能够生成动态物体形状和位置更准确的视频,且在多视图间实现了更好的一致性,在保持不同视角高度一致的同时,捕获了丰富的细节,具有很高的真实感。

图 4 与 MagicDrive 和 Panacea 的比较。第一行显示真实帧,第二行显示相应的草图和边界框控制。红色框突出显示 WorldSplat 取得最显著改进的区域。

4.3 新颖视图合成

遵循 FreeVS 的评估方法,使用 FID 和 FVD 指标在新颖轨迹上评估模型性能。具体而言,将相机偏移 ±1m、±2m 和 ±4m,然后计算沿每个偏移轨迹生成的 RGB 帧与原始真实帧之间的 FID 和 FVD。

4.3.1 定量比较

表 2 在 nuScenes 数据集上,对 WorldSplat 与六个基线模型在 ±1、±2 和 ±4 米视角偏移下的性能进行了比较。WorldSplat 在所有偏移量下均持续取得最佳 FID/FVD------ 例如,在 ±1m 时优于 DiST-4D 和 OmniRe,即使在 ±4m 时仍明显领先于所有基线。这些结果证明了 4D 高斯表示在不同视角偏移下新颖视图合成的稳健性和保真度。

4.3.2 定性比较

图 5 与最先进的城市重建模型 OmniRe 进行了定性比较,展示了 WorldSplat 在空间一致性方面的优越性。WorldSplat 的渲染结果更清晰、细节更丰富:OmniRe 常常会丢失车道标记和栏杆等精细元素,而 WorldSplat 能够准确保留这些特征;此外,WorldSplat 在背景重建方面也比 OmniRe 有显著改进。

图 5 新颖视图合成与最先进城市重建方法的定性比较。将自车横向偏移 ±2m 以生成新颖视角。红色框指示 WorldSplat 取得最大改进的区域。

4.4 消融实验

表 3 报告了在自车偏移 ±2m 的新颖视图合成中,四个变体的 FID 和 FVD 结果。版本 A 省略了渲染条件:推理时仅重投影边界框和道路草图,导致输出保真度低;版本 B 移除了 4D 高斯聚合,依赖单帧 3D 高斯渲染,取得了中等程度的提升;版本 C 使用完整的 4D 高斯聚合,进一步改善了两个指标;版本 D 单独评估了增强扩散模型在细化阶段的作用;版本 E 在训练期间添加了混合增强,取得了最佳的 FID 和 FVD 分数。

如下表 3 新颖视图生成的消融实验:"C-Reprojection" 表示重投影边界框和草图;"3D Gs" 表示使用单帧重建的高斯;"4D Gs" 表示使用多帧重建的高斯;"Mixed Aug" 表示在训练期间混合不同质量的渲染结果;"Enhanced" 表示使用增强扩散模型。

4.5 下游评估

除视觉保真度外,遵循 MagicDrive 的评估方案,在下游任务(3D 检测和 BEV 地图分割)上评估了领域差距(表 4a)。使用预训练的 BEVFormer,WorldSplat 生成的输入实现了 38.49% 的 mIoU 和 29.32% 的 mAP,分别比 DiVE 高出 2.53% 和 4.79%。

此外,遵循 Panacea 的实验设置,基于 nuScenes 生成了新的训练数据集,并将生成的数据与真实数据相结合,训练 StreamPETR 模型。表 4b 报告了 3D 物体检测结果,表明与 Panacea 相比,WorldSplat 为基线模型提供了更大的改进。

五、结论

本文提出了 WorldSplat,一种新颖的前馈框架,融合了生成式和重建式方法的优势,用于 4D 驾驶场景合成。通过将 4D 感知 latent 扩散模型与增强扩散网络相结合,WorldSplat 能够生成显式 4D 高斯,并将其细化为高保真、时空一致的多轨迹驾驶视频。在标准基准上的大量实验证实,WorldSplat 在真实感和新颖视图质量方面均优于现有的生成和重建技术。

相关推荐
小明_GLC1 天前
Timer-XL: Long-Context Transformers For Unified Time Series Forecasting 时序论文阅读
论文阅读
yuanmenghao1 天前
自动驾驶中间件iceoryx - 内存与 Chunk 管理(三)
数据结构·c++·算法·链表·中间件·自动驾驶
小明_GLC1 天前
Improving Time Series Forecasting via Instance-aware Post-hoc Revision时序论文阅读
论文阅读
小明_GLC1 天前
Timer : Transformers for Time Series Analysis at Scale 时序论文阅读
论文阅读
EEPI1 天前
【论文阅读】Steering Your Diffusion Policy with Latent Space Reinforcement Learning
论文阅读
yuanmenghao1 天前
现代汽车中的通信方式 ——以智能驾驶系统为例
人工智能·自动驾驶·汽车·信息与通信
数据分享者1 天前
175万部影视车辆全景数据集-品牌车型年份类型标注-IMDB链接-全球电影汽车文化研究与AI识别训练权威资源-适用于影视AI车辆识别广告投放自动驾驶算法开发
人工智能·自动驾驶·汽车
melonbo1 天前
自动驾驶场景下的图像预处理
人工智能·机器学习·自动驾驶
学海一叶1 天前
论文精读-《ReAct: Synergizing Reasoning and Acting in Language Models》,2022
论文阅读·人工智能·语言模型·动态规划·agent