DimensionX:单图生成任意的3d/4d视图

DimensionX:单图生成任意的3d/4d视图

通俗易懂的来说

在我们的方法中,关键是如何从一张图片生成动态的3D和4D场景。我们使用一个叫做ST-Director的工具,它可以分开处理空间(3D)和时间(4D)两个方面。想象一下,你在拍摄一部电影,S-Director就像是控制相机在场景中移动的导演,而T-Director则是控制场景中物体如何移动的导演。我们首先收集了很多不同的场景数据,然后训练这两个"导演"来学习如何分别处理空间和时间的变化。这样,当我们给他们一张图片时,他们就可以生成一段视频,展示出这个场景在时间变化下的样子,甚至可以让相机在场景中移动,创造出多种视角的效果。这种方法使得我们能够从单一图像中创造出丰富的动态场景,仿佛真的在观看一个活生生的世界。

快速阅读

  1. DimensionX 是香港科技大学、清华大学和生数科技共同推出的框架,可以从单张图片生成高逼真度的 3D 和 4D 场景。
  2. 基于 ST-Director 技术,实现对视频扩散过程中空间和时间因素的解耦和精确控制。
  3. 包含轨迹感知机制和身份保持去噪策略,增强场景的一致性和真实感。

DimensionX 是什么

在本文中,我们提出了DimensionX,这是一个可以从单一图像生成高度真实的三维(3D)和四维(4D)场景的框架。该方法结合了视频扩散技术,利用空间结构和时间动态的抽象,重建3D和4D表示。尽管现有的视频扩散模型在生成生动视觉效果方面取得了显著成功,但在直接恢复3D和4D场景时面临着空间和时间可控性不足的挑战。为了解决这一问题,我们引入了ST-Director,它通过从不同维度的数据中学习维度感知的低秩适应(LoRA),有效地解耦了视频扩散中的空间和时间因素。通过这种可控的视频扩散方法,我们能够实现对每个维度的精确控制,从而生成高质量的3D和4D场景。

方法

我们的方法的核心是通过ST-Director来实现可控的视频生成。首先,我们构建了一个维度变化的数据集,以便于在视频扩散过程中解耦空间和时间参数。具体而言,我们利用轨迹规划策略来收集空间变化数据,并使用光流引导来处理时间变化数据。ST-Director由两个部分组成:S-Director和T-Director,分别处理空间和时间的变化。S-Director在空间变化数据上进行训练,生成在时间保持不变的情况下的3D场景视频;而T-Director则在时间变化数据上进行训练,生成在空间位置保持不变的情况下的动态视频。这种设计使得我们能够灵活地控制视频生成过程,分别生成空间和时间变化的帧,甚至将两者结合起来以创建更丰富的4D场景。此外,我们还引入了一种无需训练的维度感知组合方法,以实现对混合维度的控制。

DimensionX 的主要功能

  • 3D 场景生成:从单张图片生成新的视角渲染图,构建 3D 场景。
  • 4D 场景生成:从单张图片生成包含时间和空间变化的动态场景。
  • 视频扩散控制:基于 ST-Director 技术,实现对视频扩散过程中空间和时间因素的解耦和精确控制。
  • 轨迹感知机制:为 3D 生成设计,处理复杂的现实世界场景和相机运动。
  • 身份保持去噪策略:为 4D 生成设计,增强场景的一致性,特别是在动态对象和背景之间

DimensionX 的技术原理

T-Director(空间和时间导演)

  • 维度感知 LoRAs:学习从维度变化数据中得到的低秩适应(LoRAs),实现对视频扩散中空间和时间因素的解耦。
  • S-Director(空间导演):负责生成与空间变化相关的视频帧,控制相机视角和位置。
  • T-Director(时间导演):负责生成与时间变化相关的视频帧,控制场景中对象的动态。
  • 维度感知分解:定义空间和时间等价关系,创建 S-Quotient Space 和 T-Quotient Space,分别捕获视频中的空间轨迹和时间运动轨迹。
  • 无需训练的维度感知组合 :基于视频扩散过程中的去噪机制,开发无需训练的方法实现混合维度控制,用在去噪过程的不同阶段切换 S-Director 和 T-Director 生成包含空间和时间变化的视频。
    3D 场景生成
  • 轨迹感知机制:根据不同的相机运动轨迹训练多种 S-Director,覆盖广泛的相机运动模式。
  • 视频插值模型 :生成高质量的插值视频,平滑和一致地过渡稀疏视图。
    4D 场景生成
  • 参考视频 latent 共享:基于选择参考帧并共享其 latent 代码增强所有空间变体视频之间的一致性。
  • 外观细化:对每个视点的动态视频进行细化,增强多视图视频之间的稳定性和一致性。

实验


我们对DimensionX进行了广泛的实验,以评估其在可控视频生成以及3D和4D场景生成方面的能力。实验包括使用真实和合成数据集进行定量和定性评估。我们与现有的基线方法进行了比较,包括CogVideoX和DreamMachine。结果表明,DimensionX在所有评估指标上均优于基线方法,表现出更高的视觉质量和3D一致性。在单视图和稀疏视图设置下,我们成功重建了高质量的3D场景,并且在4D场景生成中,DimensionX能够从单一图像生成一致的动态视频。通过对不同实验设置的消融研究,我们验证了ST-Director在处理复杂场景时的有效性和可扩展性。

相关推荐
葛兰岱尔7 小时前
3D模数师V1.2 震撼发布:支持3D/BIM/GIS全栈融合的桌面端查看应用工具,开启工程数字孪生新纪元!
3d
LuminWave12 小时前
多维场景落地,3D激光雷达成机器人产业核心感知基石
人工智能·3d·机器人
I'mSQL12 小时前
下载威图机柜3D模型
3d·自动化
LONGZETECH17 小时前
Unity 3D+C/S架构无人机数字孪生实训室:破解实训“三高”难题的底层技术实现
c语言·开发语言·3d·unity·架构·无人机
艺杯羹17 小时前
Vibe Coding实战:从零构建网页3D交互角色
3d·ai·交互·ai编程·ai agent·vibe coding
菩提树下的凡夫1 天前
基于Halcon深度图的曲面圆柱凹坑缺陷处理方法
人工智能·计算机视觉·3d
weixin_446260852 天前
[特殊字符] PhotoFlow: Agentic 3D 虚拟摄影任务 (优化审阅报告)
人工智能·3d
Tech_D2 天前
XR系列交叉滚轴模组:XRZ高精度气平衡Z轴模组详解
单片机·3d·机器人·自动化·制造
扫地的小何尚2 天前
30 步生成 512×512×256 的 3D 脑部 MRI
3d
AI视觉网奇2 天前
3d交互拆件 通俗易懂的学习笔记
3d