DimensionX:单图生成任意的3d/4d视图

通俗易懂的来说

在我们的方法中，关键是如何从一张图片生成动态的3D和4D场景。我们使用一个叫做ST-Director的工具，它可以分开处理空间（3D）和时间（4D）两个方面。想象一下，你在拍摄一部电影，S-Director就像是控制相机在场景中移动的导演，而T-Director则是控制场景中物体如何移动的导演。我们首先收集了很多不同的场景数据，然后训练这两个"导演"来学习如何分别处理空间和时间的变化。这样，当我们给他们一张图片时，他们就可以生成一段视频，展示出这个场景在时间变化下的样子，甚至可以让相机在场景中移动，创造出多种视角的效果。这种方法使得我们能够从单一图像中创造出丰富的动态场景，仿佛真的在观看一个活生生的世界。

快速阅读

DimensionX 是香港科技大学、清华大学和生数科技共同推出的框架，可以从单张图片生成高逼真度的 3D 和 4D 场景。
基于 ST-Director 技术，实现对视频扩散过程中空间和时间因素的解耦和精确控制。
包含轨迹感知机制和身份保持去噪策略，增强场景的一致性和真实感。

DimensionX 是什么

在本文中，我们提出了DimensionX，这是一个可以从单一图像生成高度真实的三维（3D）和四维（4D）场景的框架。该方法结合了视频扩散技术，利用空间结构和时间动态的抽象，重建3D和4D表示。尽管现有的视频扩散模型在生成生动视觉效果方面取得了显著成功，但在直接恢复3D和4D场景时面临着空间和时间可控性不足的挑战。为了解决这一问题，我们引入了ST-Director，它通过从不同维度的数据中学习维度感知的低秩适应（LoRA），有效地解耦了视频扩散中的空间和时间因素。通过这种可控的视频扩散方法，我们能够实现对每个维度的精确控制，从而生成高质量的3D和4D场景。

方法

我们的方法的核心是通过ST-Director来实现可控的视频生成。首先，我们构建了一个维度变化的数据集，以便于在视频扩散过程中解耦空间和时间参数。具体而言，我们利用轨迹规划策略来收集空间变化数据，并使用光流引导来处理时间变化数据。ST-Director由两个部分组成：S-Director和T-Director，分别处理空间和时间的变化。S-Director在空间变化数据上进行训练，生成在时间保持不变的情况下的3D场景视频；而T-Director则在时间变化数据上进行训练，生成在空间位置保持不变的情况下的动态视频。这种设计使得我们能够灵活地控制视频生成过程，分别生成空间和时间变化的帧，甚至将两者结合起来以创建更丰富的4D场景。此外，我们还引入了一种无需训练的维度感知组合方法，以实现对混合维度的控制。

DimensionX 的主要功能

3D 场景生成：从单张图片生成新的视角渲染图，构建 3D 场景。
4D 场景生成：从单张图片生成包含时间和空间变化的动态场景。
视频扩散控制：基于 ST-Director 技术，实现对视频扩散过程中空间和时间因素的解耦和精确控制。
轨迹感知机制：为 3D 生成设计，处理复杂的现实世界场景和相机运动。
身份保持去噪策略：为 4D 生成设计，增强场景的一致性，特别是在动态对象和背景之间

DimensionX 的技术原理

T-Director（空间和时间导演）：

维度感知 LoRAs：学习从维度变化数据中得到的低秩适应（LoRAs），实现对视频扩散中空间和时间因素的解耦。
S-Director（空间导演）：负责生成与空间变化相关的视频帧，控制相机视角和位置。
T-Director（时间导演）：负责生成与时间变化相关的视频帧，控制场景中对象的动态。
维度感知分解：定义空间和时间等价关系，创建 S-Quotient Space 和 T-Quotient Space，分别捕获视频中的空间轨迹和时间运动轨迹。
无需训练的维度感知组合 ：基于视频扩散过程中的去噪机制，开发无需训练的方法实现混合维度控制，用在去噪过程的不同阶段切换 S-Director 和 T-Director 生成包含空间和时间变化的视频。
3D 场景生成：
轨迹感知机制：根据不同的相机运动轨迹训练多种 S-Director，覆盖广泛的相机运动模式。
视频插值模型 ：生成高质量的插值视频，平滑和一致地过渡稀疏视图。
4D 场景生成：
参考视频 latent 共享：基于选择参考帧并共享其 latent 代码增强所有空间变体视频之间的一致性。
外观细化：对每个视点的动态视频进行细化，增强多视图视频之间的稳定性和一致性。

实验

我们对DimensionX进行了广泛的实验，以评估其在可控视频生成以及3D和4D场景生成方面的能力。实验包括使用真实和合成数据集进行定量和定性评估。我们与现有的基线方法进行了比较，包括CogVideoX和DreamMachine。结果表明，DimensionX在所有评估指标上均优于基线方法，表现出更高的视觉质量和3D一致性。在单视图和稀疏视图设置下，我们成功重建了高质量的3D场景，并且在4D场景生成中，DimensionX能够从单一图像生成一致的动态视频。通过对不同实验设置的消融研究，我们验证了ST-Director在处理复杂场景时的有效性和可扩展性。