NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

Abstract

本文提出了NeoVerse ------ 一款功能通用的 4D 世界模型，可实现 4D 场景重建、新轨迹视频生成，并支持多种下游应用。现有 4D 世界建模方法普遍存在扩展性不足 的问题：这类方法要么依赖采集成本高昂、场景受限的多视角 4D 数据，要么需要繁杂的训练预处理流程。与之不同，NeoVerse 以让整套流程可适配各类真实场景单目视频 为核心设计思路。具体而言，该模型采用无位姿前馈式 4D 重建 、单目画面退化效果在线模拟等一系列配套技术。上述设计赋予 NeoVerse 强大的通用性与跨场景泛化能力，同时模型在主流重建与视频生成基准测试中均取得了当前最优性能。

1.Introduction

译文 4D 世界建模在数字内容创作、自动驾驶、具身智能等诸多领域具备颠覆性应用价值。现阶段相关研究分别从 3D 与 4D 两个方向不断突破，主流思路为重建与生成相结合 。该范式分为两个阶段：先对场景完成 3D/4D 表征重建，再利用几何先验引导生成模型工作。这种重建 - 生成混合架构凭借时空一致性 与精准视角控制 等优势，已得到业内广泛认可，但现有方案普遍存在扩展性短板。

扩展性不足主要体现在两方面：

数据扩展性差：ViewCrafter 等方法依托静态场景视频构建多视角训练数据，学习新轨迹视频生成能力，虽效果尚可，但无法拓展至动态 4D 场景。而 SynCamMaster、CamCloneMaster、ReCamMaster 等方法，则依赖采集难度极大的专业多视角动态视频来训练轨迹生成能力。这类稀缺数据严重限制了模型的泛化能力与适用场景。
训练扩展性差 ：另一类研究虽可适配更多类型数据，但需要繁杂的离线预处理来制作训练数据。例如 TrajectoryCrafter 依靠大型视频深度估计器离线生成训练数据；FreeSim 则需预先完成高斯场重建以准备训练输入，整个过程不仅依赖离线重建，有时还需额外搭配 3D 检测算法。这类离线数据制备方式会带来巨大的计算与存储开销，训练调优灵活性差，且无法使用在线数据增强技术。

以上两大问题，导致业界难以利用低成本、海量的真实场景单目视频，也阻碍了高性能 4D 模型的进一步发展。

为解决上述难题，本文提出 NeoVerse。其核心设计理念是：让整套算法流程可适配各类真实场景单目视频，以此提升 4D 世界模型的泛化能力与通用性。为实现这一目标，我们基于 VGGT 架构设计了前馈式 4D 高斯重建模型（4DGS） 。该模型在将 VGGT 改造为高斯表示的同时，引入双向运动建模机制，既保障了高效在线重建，也能满足各类时序控制类应用的需求。

我们将该前馈重建模型融入视频生成的训练流程：每一轮训练中，模型仅选取单目视频的稀疏关键帧，即可在线、高效地完成 4D 场景重建。此外，本文还设计了轻量化的单目画面退化在线模拟方案（包含高斯图元剔除、几何均值滤波），用于模拟新视角下的劣质渲染效果，为生成模型提供有效条件约束。多项技术结合后，整套训练流程无论在效率还是可行性上，都能够支撑海量真实场景单目视频（规模可达百万片段）的训练。

本文主要贡献总结如下：

提出 NeoVerse 4D 世界建模框架，可充分利用海量真实场景单目视频完成训练与优化；
模型功能丰富，支持 4D 重建、多视角视频生成、视频编辑、画面防抖、视频超分等多项任务；
在场景重建与视频生成两大任务上，均取得当前最优实验结果；
我们将开源代码，希望借助低成本、多样化的单目视频，推动通用 4D 世界模型的普及落地。

前馈式高斯重建

近期各类立体视觉与三维几何基础模型，可通过单次前向推理估计稠密深度、点云乃至相机参数，推动高斯泼溅技术从单场景优化 转向具备泛化能力的前馈式重建。针对静态场景，NoPoSplat 等无位姿模型能够直接基于稀疏、无位姿的多视角图像重建三维高斯；AnySplat 进一步将该方案拓展至日常拍摄、未经标定的长图像序列。

在动态场景领域，4DGT、StreamSplat、MoVieS 等研究将前馈高斯技术延伸至四维空间，但各自仍存在局限：4DGT 需基于带位姿的单目视频训练，且主要采用单向时序建模；MoVieS 在训练与推理阶段同样要求已知相机位姿；StreamSplat 则侧重于逐帧建模。

基于重建的视频生成

GEN3C、DaS、See3D、ViewCrafter、Difix3D+、GS-DiT、Voyager、Uni3C、FreeSim、TrajectoryCrafter、See4D、PostCam、Light-X 等主流方法均采用重建 + 生成的混合范式：先完成三维 / 四维场景表征重建，再将其作为几何先验，引导视频生成模型运算。 GEN3C 构建基于深度的三维特征缓存，利用缓存渲染结果约束视频扩散模型，实现具备三维一致性、可视角控制的内容生成；ViewCrafter 采用点云引导的视频扩散框架，将单视角或稀疏视角输入拓展为长时序、高保真的新视角视频序列；Difix3D + 对新视角渲染图执行单步扩散增强，修正欠约束区域的伪影，并将优化效果回传至神经辐射场 / 三维高斯模型；TrajectoryCrafter 将单目视频的可控相机生成任务定义为轨迹重定向，以点云渲染图与原始帧作为双分支扩散网络的条件，生成符合用户指定相机路径的视频。

这类结合重建的方案虽能保障优异的时空一致性与视角可控性，但大多仅适用于静态或类静态场景，且依赖经过筛选的专用数据与复杂的离线重建流程，难以直接应用于海量真实场景单目视频。

3. Methods

本章结构安排如下：在 3.1 节中，我们首先提出了一种高效的、无需相机位姿的通用前馈 4D 3D高斯泼溅（4DGS）重建模型，该模型能够直接从单目视频中重建 4DGS 。在 3.2 节中，我们介绍了如何将重建部分与生成模型相结合，并使整个流水线（Pipeline）具备可扩展性。3.3 节包含了训练方案，3.4 节详细阐述了推理策略。

3.1 无需位姿的前馈 4DGS 重建 (Pose-Free Feed-Forward 4DGS Reconstruction)

我们的前馈模型部分基于 VGGT $66$ 主干网络构建。为了简明起见，我们主要介绍如何使 VGGT 具备动态能力并进行"高斯化" 。

双向运动建模 (Bidirectional motion modeling) 给定一个单目视频，VGGT 首先使用预训练的 DINOv2 $54$ 提取帧级特征。这些特征与相机 Token 和 Register Token 拼接后，被送入一系列交替注意力（Alternating-Attention）模块 $66$ 中，从而获得所谓的"帧特征" 。虽然这个过程能够有效地聚合空间信息，但由于缺乏时间感知，它们不足以进行运动建模。

为此，我们引入了一个双向运动编码分支。与 4DGT $78$ 中的单向运动不同，双向预测能够区分和之间的瞬时速度。这种区分有助于在两个连续的时间戳之间进行时间高斯插值。

具体而言，对于帧特征，我们将其沿着时间维度复制并切分为两部分：和。然后，我们使用第一部分作为查询（Queries），第二部分作为键（Keys）和值（Values）来获取正向运动特征。类似地，反向运动特征则以相反的方式进行编码。公式化表示如下：

(注：原文献公式(1)后半部分存在排版截断，此处补全) 。

其中和分别表示从时间戳 t 到 t+1 的正向运动特征，以及从 t 到 t-1 的反向运动特征。这些特征将用于预测高斯基元（Gaussian Primitives）的双向线速度和角速度。

将 VGGT 高斯化 (Gaussianizing VGGT) 我们首先将 4D 高斯定义为：

其中每个高斯基元 i 的参数继承自 3D 高斯 $36$ ，包括：3D 位置、不透明度、旋转、缩放以及球谐函数（SH）系数。为了进行双向运动建模，我们引入了正向和反向速度、，以及正向和反向角速度、。此外，我们遵循 4DGS 的常规做法，采用了生命周期（Life Span）。

3D 位置是通过使用预测的深度和相机参数将像素深度反投影到 3D 空间中获得的。对于其他静态属性，我们从帧特征中进行预测；而动态属性则从双向运动特征中预测。

3.2 重建引导的视频生成 (Reconstruction-Guided Video Generation)

在本小节中，我们介绍如何在一个可扩展的训练流水线中将重建与生成结合起来。

基于稀疏关键帧的高效在线重建 (Efficient on-the-fly reconstruction from sparse key frames) 尽管所提出的前馈 4DGS 重建非常高效，但如果我们在长视频输入下进行全量在线重建，它仍然可能成为训练效率的瓶颈。为了提升训练效率，我们提出了基于稀疏关键帧的重建。

给定一个包含 N 帧的长视频输入，我们仅提取 K 个关键帧作为重建的输入，但会在所有 N 帧上进行渲染，因为与网络计算相比，渲染过程的效率极高。然而，这种操作需要对非关键帧处的高斯场进行插值。得益于我们的双向运动建模，这种插值可以通过以下方式实现：

给定一个非关键帧的查询时间戳，我们将时间戳 t 处最近的关键帧高斯基元 i 传递到，具体公式如下：

在这里，我们假设在两个相邻输入帧之间的短间隔内，现实世界的运动近似为线性的。角速度用轴角（Axis-Angle）表示，将其转换为四元数。高斯的不透明度由一个随时间变化的函数表示，以确保输入帧之间的自然过渡。

为了处理非均匀的关键帧间隔，我们使用归一化时间距离来模拟不透明度的衰减：，其中是包含查询时间戳的关键帧区间。生命周期通过 Sigmoid 函数限制在 (0, 1) 范围内，是一个控制衰减速度的超参数。当接近 1 时，趋向于 1，表明；否则，会迅速衰减。

单目退化模拟 (Monocular degradation simulation) 我们的生成模型需要从低质量的新视角渲染中生成高质量的新视角视频，因此必须要具备这样的训练对。对于多视角或静态数据集 $44, 85$ ，我们可以很容易地像 ViewCrafter $88$ 那样获得这样的训练对。然而，对于野外（in-the-wild）采集的单目视频，我们需要精心模拟出与真实单目帧配对的退化渲染图。因此，我们提出了三种基于单目视频来模拟退化渲染模式的技术：

基于可见性的高斯剔除（用于模拟遮挡）：给定从稀疏关键帧预测出的相机位姿轨迹，我们对该轨迹应用随机变换以获得一个新的新轨迹。该变换受到一定约束，以确保新的相机位姿仍大致指向场景中心。利用深度信息，我们可以轻松识别出在变换后的新相机位姿下被遮挡的高斯基元。然后，我们直接剔除这些不可见的高斯基元，并将剩余的高斯基元渲染回原始视角，从而产生如图 3(a) 所示的遮挡退化模式。

均值几何滤波器（用于模拟边缘飞点和畸变）：除了遮挡之外，另一种典型的退化模式是深度不连续边缘处的"飞点"（Flying Pixels）。网络倾向于在这些边缘处产生平均深度值以最小化回归损失。从第一性原理出发，我们提出使用均值滤波器来创造这种平均深度模式。具体来说，我们在变换后的新轨迹中渲染深度，并在渲染出的深度图上应用均值滤波器。然后，我们根据滤波后的平均深度值调整每个高斯基元的中心位置。当这些被修改的高斯基元被渲染回原始视角时，就会出现如图 3(b) 所示的边缘飞点模式。我们还可以应用更大的滤波器核来模拟由潜在深度误差引起的、空间上更广泛的畸变，如图 3(c) 所示。

图 3 中的所有三种退化都是基于几何关系和深度学习的基本原理进行模拟的，设计简单却非常有效，使得我们可以直接利用多样的野外单目视频。

退化渲染条件制约 (Degraded rendering conditioning) 我们使用获得的退化渲染作为生成的条件（Conditions），而将原始视频作为目标（Targets）。渲染的条件包含多种模态，包括 RGB 图像、深度图以及从不透明度图二值化得到的掩码（Masks，用于指示空白区域）。同时，我们还会计算原始轨迹的普吕克（Plücker）嵌入，以提供显式的 3D 相机运动信息 $9$ 。我们引入了一个控制分支（Control Branch），将它们合并到生成模型中。在训练期间，我们只训练控制分支而冻结视频生成模型，这不仅是为了提高训练效率，更重要的是，可以让 NeoVerse 兼容强大的蒸馏 LoRA $24$ 以加速生成过程。

3.3 训练方案 (Training Scheme)

我们将训练分为两个阶段：1) 重建模型的训练；2) 结合在线重建与退化模拟的生成模型训练。

重建阶段 (Reconstruction) 我们使用多任务损失函数在各种静态和动态 3D 数据集上训练前馈 4DGS 重建模型：

其中是渲染图像与真实图像（Ground-Truth）之间的光度损失，包括损失和 LPIPS $91$ 损失。相机损失和深度损失遵循 VGGT $66$ 来监督预测的相机参数和深度图。值得注意的是，还包含对高斯渲染深度的监督。运动损失对预测的双向速度施加监督，其中和是从某些动态 3D 数据集中计算出的真实正向和反向速度。为了防止高斯基元错误地变透明，我们引入了正则化损失，其中是渲染的累积不透明度图。

生成阶段 (Generation) 对于生成模型的训练，我们采用修正流（Rectified Flow）和 Wan-T2V 14B 来对去噪扩散过程进行建模。整个训练过程完全在单目视频上进行。给定一段单目视频，我们首先利用基于稀疏关键帧的在线重建来获得 4DGS，并模拟退化渲染作为条件。对于视频隐变量（Latent）和采样的噪声，生成模型的训练目标公式化为：

其中是时间戳 t 处和之间的线性插值，是真实速度（Ground-Truth Velocity）。是使用语言模型（如 umT5 $14$ ）从视频文本描述（Caption）中提取的文本条件。渲染图通过类似的控制分支输入到生成模型中。

3.4 推理 (Inference)

重建与全局运动跟踪 (Reconstruction and global motion tracking) 给定一段单目视频，我们的前馈模型会输出每一帧的 4DGS 和相机参数。在从新视角轨迹渲染条件之前，我们可以选择性地将多个时间戳的高斯基元聚合到单个时间戳中，以获得更完整的表征。为了实现更好的聚合，我们通过全局运动跟踪进行运动分离。

全局运动跟踪的动机是为了识别在一段视频剪辑中同时经历静态和动态阶段的物体。这些物体应当被归为动态部分，而很难单纯利用预测的瞬时速度将其识别出来。以高斯基元 i 为例，给定世界到相机的位姿、相机内参以及该高斯基元的位置，我们将高斯中心投影到每一帧 t 上，并计算其投影的像素坐标和深度。

设)和分别为像素处采样的深度和速度。我们在全局视频级别定义了一个可见性加权的最大速度幅值（Visibility-Weighted Maximum Velocity Magnitude）：

其中是第 t 帧的最大速度幅值，是指示高斯基元是否可见的函数，是跨所有帧的可见性加权最大速度幅值。最终，我们根据与阈值的比较，将高斯基元分离为静态集合 S 和动态集合 D 。

时间聚合、插值与生成 (Temporal aggregation, interpolation, and generation) 在分离出动态部分和静态部分后，我们分别对这两部分采用两种不同的高斯时间聚合策略。静态部分直接在所有帧之间进行简单聚合，而动态部分则仅从附近的几帧中进行聚合，以避免运动漂移误差。

在某些情况下，我们可能需要将高斯基元插值到两个相邻离散帧之间的中间时间戳。一个典型的应用场景是创建慢动作视频（Slow-Motion Videos）和子弹时间镜头（Bullet-Time Shots）。我们的双向运动机制能够充分支持在短时间间隔内发生的此类任务。在实践中，我们使用与 3.2 节类似的技术进行插值。

在完成可选的聚合与插值后，我们将得到的高斯基元渲染到任何所需的新视角轨迹中。这些渲染图连同其他条件一起被发送到生成模型中以生成最终视频。

4.Experiments

4.1 实验实现细节

重建模块 ：本模型沿用 VGGT 的学习率调度方案。所有输入视频统一缩放，保证最长边像素为 560，并采用 GSplat 作为高斯泼溅渲染后端。 生成模块：视频输出分辨率固定为 336 × 560，单段视频长度设为 81 帧。整体训练基于 32 块 A800 显卡完成，重建阶段迭代 15 万步，生成阶段迭代 5 万步，更多训练细节见补充材料。

数据集：参考 CUT3R 的方案，整合 18 个公开数据集，包括 Arkitscenes、DL3DV、PointOdyssey、Kubric、Waymo、SpatialVID、GFIE 等。除此之外，团队还从互联网收集大规模真实场景单目视频数据集，包含超 100 万段不同场景的视频片段。

4.2 定量评估

重建任务基准测试

本文分别在静态、动态数据集上开展重建实验，结果如表 1、表 2 所示。重建模块在各项指标上均达到当前最优水平。MoVieS 与 StreamSplat 两篇近期相关工作因未开源、未公开完整评测方案，故未纳入对比，详细评测规则见补充材料。

表 1 静态重建模型定量对比

表 2 动态重建模型定量对比

生成任务基准测试

表 3 将本文方法与 TrajectoryCrafter、ReCamMaster 进行生成效果对比，本文综合性能更优，下文结合可视化结果展开进一步分析。

运行效率评估

表 3 同时统计了重建与生成阶段的推理耗时。依托本文 3.2 节提出的条件嵌入设计，结合现有蒸馏技术，生成速度得到大幅提升。同时，双向运动建模支持基于稀疏关键帧完成重建，在不损失生成效果的前提下显著提升效率。

表 3 新视角生成任务 VBench 评测结果 本次测试随机选取 100 段未见过的真实场景视频，每段视频设置 4 种不同相机运动轨迹，共计 400 组测试样本。为保证耗时对比公平，所有视频统一缩放至 336 × 560 分辨率，测试硬件为单块 A800 显卡。

4.3 可视化效果与分析

渲染质量：图 5、图 6 为渲染效果对比。本文方法视觉效果更佳，且还原度更贴合原始输入；对比方法易出现伪影（图中黄色框标注区域）。

位姿预测精度：本文相机位姿预测准确度更高。图 5 中对比方法输出画面视场与真实画面存在偏差（红色边框标注），根源就是位姿预测误差。

轨迹可控性与生成质量权衡：现有方法普遍存在二者取舍问题。同属 "重建 + 生成" 架构的 TrajectoryCrafter 轨迹控制精准，但画面质量较差，原因是其训练流程扩展性不足，无法学习海量真实场景视频，面对复杂人体动作等场景表现乏力。纯生成类方法 ReCamMaster 画面观感较好，但无法实现高精度相机轨迹控制，难以满足仿真等对轨迹精度要求高的下游任务。

伪影抑制：相较于 TrajectoryCrafter，本文提出的退化模拟策略可有效抑制伪影。TrajectoryCrafter 易因重建精度不足产生 "重影"，导致生成画质下降，而本文方法规避了这一问题。

合理补全画面：依托海量真实视频数据带来的泛化能力，NeoVerse 能够对画面中未观测区域进行符合场景逻辑的内容补全，例如补全画面里第二位演唱者、人群等内容。

4.4 消融实验

运动建模

如表 4 所示，移除双向运动建模分支、直接依靠帧特征预测运动后，模型各项指标明显下降，验证了该模块的有效性。

不透明度正则化

3.3 节引入的不透明度正则化，可避免模型投机输出与背景色相近的透明高斯图元。消融实验证明该策略能有效提升模型性能。

表 4 DyCheck 数据集消融实验

退化模拟

相机大幅运动时，渲染结果常会出现边缘飞点、画面畸变等退化问题。图 7 验证了在线退化模拟的必要性：若训练阶段不加入退化样本，生成模型会采信渲染结果中的几何伪影，最终输出重影、模糊画面；而加入退化模拟后，模型可主动抑制伪影，在遮挡、畸变区域生成真实细节。

全局运动跟踪

图 8 验证了全局运动跟踪模块的作用：部分动态物体会出现短时静止状态，若无该模块，模型会将其误判为静态物体；全局运动跟踪可精准区分静态与动态图元，保障后续聚合、渲染效果。

4.5 下游应用

NeoVerse 除实现新轨迹视频生成外，还支持多种下游任务，受篇幅限制仅简要介绍，详细内容见补充材料。

三维跟踪：利用帧间高斯图元匹配与三维光流，可完成场景三维目标跟踪，效果见图 9。
视频编辑：结合模型自带的掩码条件、文本条件，搭配视频分割模型即可实现视频编辑（如图 10，更改车辆颜色、修改物体透明度）。
视频稳像：对预测的相机轨迹做平滑处理，即可实现视频防抖，效果见前文示意图 1。
视频超分：基于高斯表示可灵活调整渲染分辨率，在不明显损失画面信息的前提下完成视频超分，效果见示意图 1。
其他应用：还可实现背景提取、单图构建三维场景等功能。

5. Conclusion and Limitations

本文提出了NeoVerse这一四维世界模型，攻克了现有方法存在的核心扩展性难题。该模型的训练流程可适配各类真实场景下的单目视频数据，借助海量多样化的野外视频数据，大幅提升了四维世界模型的泛化能力与功能多样性，可支撑多种下游应用。大量实验结果证明，该方法在场景重建与视频生成两类任务中均取得了当前最优性能。

局限性 NeoVerse 的运行依赖数据中包含有效的三维空间信息，因此无法直接应用于二维动画这类不具备三维几何信息的数据。同时，受训练资源限制，本文所构建的百万级视频数据集规模仍有提升空间，后续工作将进一步扩充数据体量。