【论文自动阅读】NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

快速了解部分

基础信息(英文):

  1. 题目: NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos
  2. 时间: 2026.1
  3. 机构: NLPR & MAIS, CASIA; CreateAI
  4. 3个英文关键词: 4D World Model, Feed-forward 4DGS, In-the-wild Monocular Videos

1句话通俗总结本文干了什么事情

本文提出了一种名为NeoVerse的4D世界模型,它能直接利用野外单目视频进行可扩展的训练,实现高质量的4D重建和新视角视频生成。

研究痛点:现有研究不足 / 要解决的具体问题

现有4D世界建模方法面临可扩展性差的问题:一是受限于昂贵且难以获取的多视角4D数据;二是依赖繁琐的离线预处理(如重聚焦、深度估计),导致计算负担重且无法进行在线数据增强,难以利用廉价且多样的野外单目视频。

核心方法:关键技术、模型或研究设计(简要)

提出了无需位姿的前馈4D高斯溅射(4DGS)模型,结合在线单目退化模式模拟技术,实现了从单目视频到4D场景的高效端到端重建与生成。

深入了解部分

相比前人创新在哪里

  1. 全流程可扩展性:摒弃了昂贵的多视角数据或沉重的离线预处理,直接利用多样化的野外单目视频进行训练。
  2. 双向运动建模:不同于以往的单向时间建模,引入了双向运动编码分支,区分瞬时速度,支持时间上的高斯插值。
  3. 在线退化模拟:提出了基于几何关系的可见性高斯剔除和平均几何滤波器,模拟新视角下的渲染退化,无需离线计算。

解决方法/算法的通俗解释

NeoVerse的工作原理分为两步:首先,它像一个"快速扫描仪",通过双向运动分析,仅用稀疏的关键帧就能快速构建出场景的4D高斯表示(无需知道相机具体位置);其次,它像一个"修复大师",在训练时故意制造模糊、遮挡等视觉瑕疵(退化模拟),然后学习如何生成清晰、连贯的视频来修复这些瑕疵。

解决方法的具体做法

  1. 前馈4D重建:基于VGGT骨干网络,利用双向注意力机制预测前后向运动特征,参数化4D高斯分布。
  2. 稀疏关键帧重建:仅对视频中的稀疏关键帧进行网络推理重建,非关键帧通过双向线性/角度插值得到。
  3. 退化模拟:通过随机变换相机轨迹进行高斯剔除(模拟遮挡)和平均深度滤波(模拟边缘伪影),生成训练用的退化渲染图。

基于前人的哪些方法

主要基于VGGT(Visual Geometry Grounded Transformer)的骨干网络设计,并继承了4D高斯溅射(4DGS)的概念,同时借鉴了NoPoSplat等方法的无需位姿思想。

实验设置、数据、评估方式、结论

  1. 实验设置:在32块A800 GPU上训练,第一阶段重建训练150K迭代,第二阶段生成训练50K迭代。
  2. 数据:使用了18个公开数据集(如Arkitscenes, Waymo等)及自建的超100万条互联网单目视频数据集。
  3. 评估方式:使用PSNR、SSIM、LPIPS进行重建质量评估;使用VBench进行生成视频的质量、一致性及美学评估。
  4. 结论:NeoVerse在重建和生成任务上均达到了SOTA(最先进)性能,且推理速度显著快于同类方法(如TrajectoryCrafter)。

提到的同类工作

ViewCrafter, TrajectoryCrafter, FreeSim, 4DGT, NoPoSplat, AnySplat, StreamSplat, MoVieS, ReCamMaster, CamCloneMaster, SynCamMaster, GEN3C, DaS, See3D, Difix3D+, Voyager, GS-DiT, See4D, PostCam, Light-X.

和本文相关性最高的3个文献

  1. VGGT (基础骨干网络)
  2. TrajectoryCrafter (主要对比的同类生成方法)
  3. 4DGT (主要对比的同类重建方法及改进基础)

我的

实现的效果就是输入一段视频,然后能换视角观看。

方法就是用VGGT搞一个4DGS的重建,然后用Diffusion再修复一下。和trajectory crafter基本一致,只是换成了4DGS来修复。

相关推荐
美酒没故事°2 天前
Open WebUI安装指南。搭建自己的自托管 AI 平台
人工智能·windows·ai
云烟成雨TD2 天前
Spring AI Alibaba 1.x 系列【6】ReactAgent 同步执行 & 流式执行
java·人工智能·spring
简简单单做算法2 天前
基于GA遗传优化的Transformer-LSTM网络模型的时间序列预测算法matlab性能仿真
深度学习·matlab·lstm·transformer·时间序列预测·ga遗传优化·电池剩余寿命预测
AI攻城狮2 天前
用 Obsidian CLI + LLM 构建本地 RAG:让你的笔记真正「活」起来
人工智能·云原生·aigc
鸿乃江边鸟2 天前
Nanobot 从onboard启动命令来看个人助理Agent的实现
人工智能·ai
lpfasd1232 天前
基于Cloudflare生态的应用部署与开发全解
人工智能·agent·cloudflare
俞凡2 天前
DevOps 2.0:智能体如何接管故障修复和基础设施维护
人工智能
comedate2 天前
[OpenClaw] GLM 5 关于电影 - 人工智能 - 的思考
人工智能·电影评价
财迅通Ai2 天前
6000万吨产能承压 卫星化学迎来战略窗口期
大数据·人工智能·物联网·卫星化学
liliangcsdn2 天前
Agent Memory智能体记忆系统的示例分析
数据库·人工智能·全文检索