【论文自动阅读】NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

快速了解部分

基础信息（英文）：

题目: NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
时间: 2026.1
机构: NLPR & MAIS, CASIA; CreateAI
3个英文关键词: 4D World Model, Feed-forward 4DGS, In-the-wild Monocular Videos

1句话通俗总结本文干了什么事情

本文提出了一种名为NeoVerse的4D世界模型，它能直接利用野外单目视频进行可扩展的训练，实现高质量的4D重建和新视角视频生成。

研究痛点：现有研究不足 / 要解决的具体问题

现有4D世界建模方法面临可扩展性差的问题：一是受限于昂贵且难以获取的多视角4D数据；二是依赖繁琐的离线预处理（如重聚焦、深度估计），导致计算负担重且无法进行在线数据增强，难以利用廉价且多样的野外单目视频。

核心方法：关键技术、模型或研究设计（简要）

提出了无需位姿的前馈4D高斯溅射（4DGS）模型，结合在线单目退化模式模拟技术，实现了从单目视频到4D场景的高效端到端重建与生成。

深入了解部分

相比前人创新在哪里

全流程可扩展性：摒弃了昂贵的多视角数据或沉重的离线预处理，直接利用多样化的野外单目视频进行训练。
双向运动建模：不同于以往的单向时间建模，引入了双向运动编码分支，区分瞬时速度，支持时间上的高斯插值。
在线退化模拟：提出了基于几何关系的可见性高斯剔除和平均几何滤波器，模拟新视角下的渲染退化，无需离线计算。

解决方法/算法的通俗解释

NeoVerse的工作原理分为两步：首先，它像一个"快速扫描仪"，通过双向运动分析，仅用稀疏的关键帧就能快速构建出场景的4D高斯表示（无需知道相机具体位置）；其次，它像一个"修复大师"，在训练时故意制造模糊、遮挡等视觉瑕疵（退化模拟），然后学习如何生成清晰、连贯的视频来修复这些瑕疵。

解决方法的具体做法

前馈4D重建：基于VGGT骨干网络，利用双向注意力机制预测前后向运动特征，参数化4D高斯分布。
稀疏关键帧重建：仅对视频中的稀疏关键帧进行网络推理重建，非关键帧通过双向线性/角度插值得到。
退化模拟：通过随机变换相机轨迹进行高斯剔除（模拟遮挡）和平均深度滤波（模拟边缘伪影），生成训练用的退化渲染图。

基于前人的哪些方法

主要基于VGGT（Visual Geometry Grounded Transformer）的骨干网络设计，并继承了4D高斯溅射（4DGS）的概念，同时借鉴了NoPoSplat等方法的无需位姿思想。

实验设置、数据、评估方式、结论

实验设置：在32块A800 GPU上训练，第一阶段重建训练150K迭代，第二阶段生成训练50K迭代。
数据：使用了18个公开数据集（如Arkitscenes, Waymo等）及自建的超100万条互联网单目视频数据集。
评估方式：使用PSNR、SSIM、LPIPS进行重建质量评估；使用VBench进行生成视频的质量、一致性及美学评估。
结论：NeoVerse在重建和生成任务上均达到了SOTA（最先进）性能，且推理速度显著快于同类方法（如TrajectoryCrafter）。

提到的同类工作

ViewCrafter, TrajectoryCrafter, FreeSim, 4DGT, NoPoSplat, AnySplat, StreamSplat, MoVieS, ReCamMaster, CamCloneMaster, SynCamMaster, GEN3C, DaS, See3D, Difix3D+, Voyager, GS-DiT, See4D, PostCam, Light-X.

和本文相关性最高的3个文献

VGGT (基础骨干网络)
TrajectoryCrafter (主要对比的同类生成方法)
4DGT (主要对比的同类重建方法及改进基础)

我的

实现的效果就是输入一段视频，然后能换视角观看。

方法就是用VGGT搞一个4DGS的重建，然后用Diffusion再修复一下。和trajectory crafter基本一致，只是换成了4DGS来修复。