DimensionX:单图生成任意的3d/4d视图

DimensionX:单图生成任意的3d/4d视图

通俗易懂的来说

在我们的方法中,关键是如何从一张图片生成动态的3D和4D场景。我们使用一个叫做ST-Director的工具,它可以分开处理空间(3D)和时间(4D)两个方面。想象一下,你在拍摄一部电影,S-Director就像是控制相机在场景中移动的导演,而T-Director则是控制场景中物体如何移动的导演。我们首先收集了很多不同的场景数据,然后训练这两个"导演"来学习如何分别处理空间和时间的变化。这样,当我们给他们一张图片时,他们就可以生成一段视频,展示出这个场景在时间变化下的样子,甚至可以让相机在场景中移动,创造出多种视角的效果。这种方法使得我们能够从单一图像中创造出丰富的动态场景,仿佛真的在观看一个活生生的世界。

快速阅读

  1. DimensionX 是香港科技大学、清华大学和生数科技共同推出的框架,可以从单张图片生成高逼真度的 3D 和 4D 场景。
  2. 基于 ST-Director 技术,实现对视频扩散过程中空间和时间因素的解耦和精确控制。
  3. 包含轨迹感知机制和身份保持去噪策略,增强场景的一致性和真实感。

DimensionX 是什么

在本文中,我们提出了DimensionX,这是一个可以从单一图像生成高度真实的三维(3D)和四维(4D)场景的框架。该方法结合了视频扩散技术,利用空间结构和时间动态的抽象,重建3D和4D表示。尽管现有的视频扩散模型在生成生动视觉效果方面取得了显著成功,但在直接恢复3D和4D场景时面临着空间和时间可控性不足的挑战。为了解决这一问题,我们引入了ST-Director,它通过从不同维度的数据中学习维度感知的低秩适应(LoRA),有效地解耦了视频扩散中的空间和时间因素。通过这种可控的视频扩散方法,我们能够实现对每个维度的精确控制,从而生成高质量的3D和4D场景。

方法

我们的方法的核心是通过ST-Director来实现可控的视频生成。首先,我们构建了一个维度变化的数据集,以便于在视频扩散过程中解耦空间和时间参数。具体而言,我们利用轨迹规划策略来收集空间变化数据,并使用光流引导来处理时间变化数据。ST-Director由两个部分组成:S-Director和T-Director,分别处理空间和时间的变化。S-Director在空间变化数据上进行训练,生成在时间保持不变的情况下的3D场景视频;而T-Director则在时间变化数据上进行训练,生成在空间位置保持不变的情况下的动态视频。这种设计使得我们能够灵活地控制视频生成过程,分别生成空间和时间变化的帧,甚至将两者结合起来以创建更丰富的4D场景。此外,我们还引入了一种无需训练的维度感知组合方法,以实现对混合维度的控制。

DimensionX 的主要功能

  • 3D 场景生成:从单张图片生成新的视角渲染图,构建 3D 场景。
  • 4D 场景生成:从单张图片生成包含时间和空间变化的动态场景。
  • 视频扩散控制:基于 ST-Director 技术,实现对视频扩散过程中空间和时间因素的解耦和精确控制。
  • 轨迹感知机制:为 3D 生成设计,处理复杂的现实世界场景和相机运动。
  • 身份保持去噪策略:为 4D 生成设计,增强场景的一致性,特别是在动态对象和背景之间

DimensionX 的技术原理

T-Director(空间和时间导演)

  • 维度感知 LoRAs:学习从维度变化数据中得到的低秩适应(LoRAs),实现对视频扩散中空间和时间因素的解耦。
  • S-Director(空间导演):负责生成与空间变化相关的视频帧,控制相机视角和位置。
  • T-Director(时间导演):负责生成与时间变化相关的视频帧,控制场景中对象的动态。
  • 维度感知分解:定义空间和时间等价关系,创建 S-Quotient Space 和 T-Quotient Space,分别捕获视频中的空间轨迹和时间运动轨迹。
  • 无需训练的维度感知组合 :基于视频扩散过程中的去噪机制,开发无需训练的方法实现混合维度控制,用在去噪过程的不同阶段切换 S-Director 和 T-Director 生成包含空间和时间变化的视频。
    3D 场景生成
  • 轨迹感知机制:根据不同的相机运动轨迹训练多种 S-Director,覆盖广泛的相机运动模式。
  • 视频插值模型 :生成高质量的插值视频,平滑和一致地过渡稀疏视图。
    4D 场景生成
  • 参考视频 latent 共享:基于选择参考帧并共享其 latent 代码增强所有空间变体视频之间的一致性。
  • 外观细化:对每个视点的动态视频进行细化,增强多视图视频之间的稳定性和一致性。

实验


我们对DimensionX进行了广泛的实验,以评估其在可控视频生成以及3D和4D场景生成方面的能力。实验包括使用真实和合成数据集进行定量和定性评估。我们与现有的基线方法进行了比较,包括CogVideoX和DreamMachine。结果表明,DimensionX在所有评估指标上均优于基线方法,表现出更高的视觉质量和3D一致性。在单视图和稀疏视图设置下,我们成功重建了高质量的3D场景,并且在4D场景生成中,DimensionX能够从单一图像生成一致的动态视频。通过对不同实验设置的消融研究,我们验证了ST-Director在处理复杂场景时的有效性和可扩展性。

相关推荐
前端Hardy1 天前
HTML&CSS:数据卡片可以这样设计
前端·javascript·css·3d·html
小彭努力中1 天前
138. CSS3DRenderer渲染HTML标签
前端·深度学习·3d·webgl·three.js
AI生成未来1 天前
斯坦福&UC伯克利开源突破性视觉场景生成与编辑技术,精准描绘3D/4D世界!
3d·3d场景·4d
汪洪墩2 天前
【Mars3d】实现这个地图能靠左,不居中的样式效果
前端·javascript·vue.js·3d·webgl·cesium
Bearnaise2 天前
GaussianDreamer: Fast Generation from Text to 3D Gaussians——点云论文阅读(11)
论文阅读·人工智能·python·深度学习·opencv·计算机视觉·3d
智驾机器人技术前线2 天前
近期两篇NeRF/3DGS-based SLAM方案赏析:TS-SLAM and MBA-SLAM
3d·slam·nerf·3dgs
Tianwen_Burning2 天前
halcon3d disparity_image_to_xyz非常重要的算子及使用条件
算法·3d
光学测量小菜鸡3 天前
OpenCV双目立体视觉重建
opencv·3d·双目相机·结构光·sgbm
豆包MarsCode3 天前
基于豆包MarsCode 和 Threejs 实现3D地图可视化
大数据·开发语言·人工智能·python·3d·程序员
工业3D_大熊3 天前
3D数据格式转换工具HOOPS Exchange如何在读取CAD文件时处理镶嵌数据?
java·linux·c++·windows·macos·3d·c#