【论文自动阅读】NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

快速了解部分

基础信息(英文):

  1. 题目: NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
  2. 时间: 2026.1
  3. 机构: NLPR & MAIS, CASIA; CreateAI
  4. 3个英文关键词: 4D World Model, Feed-forward 4DGS, In-the-wild Monocular Videos

1句话通俗总结本文干了什么事情

本文提出了一种名为NeoVerse的4D世界模型,它能直接利用野外单目视频进行可扩展的训练,实现高质量的4D重建和新视角视频生成。

研究痛点:现有研究不足 / 要解决的具体问题

现有4D世界建模方法面临可扩展性差的问题:一是受限于昂贵且难以获取的多视角4D数据;二是依赖繁琐的离线预处理(如重聚焦、深度估计),导致计算负担重且无法进行在线数据增强,难以利用廉价且多样的野外单目视频。

核心方法:关键技术、模型或研究设计(简要)

提出了无需位姿的前馈4D高斯溅射(4DGS)模型,结合在线单目退化模式模拟技术,实现了从单目视频到4D场景的高效端到端重建与生成。

深入了解部分

相比前人创新在哪里

  1. 全流程可扩展性:摒弃了昂贵的多视角数据或沉重的离线预处理,直接利用多样化的野外单目视频进行训练。
  2. 双向运动建模:不同于以往的单向时间建模,引入了双向运动编码分支,区分瞬时速度,支持时间上的高斯插值。
  3. 在线退化模拟:提出了基于几何关系的可见性高斯剔除和平均几何滤波器,模拟新视角下的渲染退化,无需离线计算。

解决方法/算法的通俗解释

NeoVerse的工作原理分为两步:首先,它像一个"快速扫描仪",通过双向运动分析,仅用稀疏的关键帧就能快速构建出场景的4D高斯表示(无需知道相机具体位置);其次,它像一个"修复大师",在训练时故意制造模糊、遮挡等视觉瑕疵(退化模拟),然后学习如何生成清晰、连贯的视频来修复这些瑕疵。

解决方法的具体做法

  1. 前馈4D重建:基于VGGT骨干网络,利用双向注意力机制预测前后向运动特征,参数化4D高斯分布。
  2. 稀疏关键帧重建:仅对视频中的稀疏关键帧进行网络推理重建,非关键帧通过双向线性/角度插值得到。
  3. 退化模拟:通过随机变换相机轨迹进行高斯剔除(模拟遮挡)和平均深度滤波(模拟边缘伪影),生成训练用的退化渲染图。

基于前人的哪些方法

主要基于VGGT(Visual Geometry Grounded Transformer)的骨干网络设计,并继承了4D高斯溅射(4DGS)的概念,同时借鉴了NoPoSplat等方法的无需位姿思想。

实验设置、数据、评估方式、结论

  1. 实验设置:在32块A800 GPU上训练,第一阶段重建训练150K迭代,第二阶段生成训练50K迭代。
  2. 数据:使用了18个公开数据集(如Arkitscenes, Waymo等)及自建的超100万条互联网单目视频数据集。
  3. 评估方式:使用PSNR、SSIM、LPIPS进行重建质量评估;使用VBench进行生成视频的质量、一致性及美学评估。
  4. 结论:NeoVerse在重建和生成任务上均达到了SOTA(最先进)性能,且推理速度显著快于同类方法(如TrajectoryCrafter)。

提到的同类工作

ViewCrafter, TrajectoryCrafter, FreeSim, 4DGT, NoPoSplat, AnySplat, StreamSplat, MoVieS, ReCamMaster, CamCloneMaster, SynCamMaster, GEN3C, DaS, See3D, Difix3D+, Voyager, GS-DiT, See4D, PostCam, Light-X.

和本文相关性最高的3个文献

  1. VGGT (基础骨干网络)
  2. TrajectoryCrafter (主要对比的同类生成方法)
  3. 4DGT (主要对比的同类重建方法及改进基础)

我的

实现的效果就是输入一段视频,然后能换视角观看。

方法就是用VGGT搞一个4DGS的重建,然后用Diffusion再修复一下。和trajectory crafter基本一致,只是换成了4DGS来修复。

相关推荐
风象南8 小时前
普通人用AI加持赚到的第一个100块
人工智能·后端
牛奶8 小时前
2026年大模型怎么选?前端人实用对比
前端·人工智能·ai编程
牛奶8 小时前
前端人为什么要学AI?
前端·人工智能·ai编程
罗西的思考11 小时前
AI Agent框架探秘:拆解 OpenHands(10)--- Runtime
人工智能·算法·机器学习
冬奇Lab12 小时前
OpenClaw 源码精读(2):Channel & Routing——一条消息如何找到它的 Agent?
人工智能·开源·源码阅读
冬奇Lab12 小时前
一天一个开源项目(第38篇):Claude Code Telegram - 用 Telegram 远程用 Claude Code,随时随地聊项目
人工智能·开源·资讯
格砸13 小时前
从入门到辞职|从ChatGPT到OpenClaw,跟上智能时代的进化
前端·人工智能·后端
可观测性用观测云13 小时前
可观测性 4.0:教系统如何思考
人工智能
sunny86513 小时前
Claude Code 跨会话上下文恢复:从 8 次纠正到 0 次的工程实践
人工智能·开源·github
小笼包包仔14 小时前
OpenClaw 多Agent软件开发最佳实践指南
人工智能