GaussianAnything—— 交互式点云潜在扩散的3D生成

Interactive Point Cloud Latent Diffusion for 3D Generation

|-----------------|----------------------------------------------------------------------------------------------------------|
| 论文标题 | GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation |
| 作者 | Yushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy |
| 机构 | S-Lab, NTU Singapore; Shanghai AI Lab; Peking University |
| 发表会议 | ICLR 2025 (International Conference on Learning Representations) |
| arXiv链接 | https://arxiv.org/abs/2411.08033 |
| 开源代码 | https://github.com/NIRVANALAN/GaussianAnything |

一、研究背景

三维内容生成是计算机视觉和计算机图形学领域的核心研究方向，近年来随着生成式人工智能技术的飞速发展，该领域取得了突破性进展。从早期的三维重建技术到如今的三维生成模型，研究者们不断探索如何从二维图像或文本描述中生成高质量、可编辑的三维内容。这一技术在人机交互、虚拟现实、增强现实、游戏开发、电影特效、机器人操作等领域具有广阔的应用前景。

然而，现有的三维生成方法仍然面临诸多挑战。首先，在输入格式方面，不同的方法对输入数据类型有不同的要求，有的需要多视角图像，有的需要单视角图像，有的则需要文本描述，缺乏统一的输入框架。其次，在潜在空间设计方面，许多方法采用隐式表示（如神经辐射场）或二维潜在空间，难以保留完整的三维几何信息，导致生成结果在视角一致性和几何准确性方面存在不足。再次，在输出表示方面，如何生成既高质量又便于后续编辑的三维表示仍是开放性问题。

在生成模型范式方面，当前主流方法可分为三类：基于分数蒸馏采样（Score Distillation Sampling, SDS）的方法，如DreamFusion，通过将二维扩散模型的先验知识蒸馏到三维表示中；基于多视角生成的方法，如MVDream和Zero123++，首先生成多视角图像，再进行三维重建；以及前馈三维重建方法，如LRM和InstantMesh，直接从输入预测三维表示。这些方法各有优缺点：SDS方法通常需要耗时的每场景优化，多视角生成方法可能存在视角不一致问题，而前馈方法虽然速度快但在复杂场景下效果有限。

针对上述挑战，本文提出了GaussianAnything，一种全新的原生三维扩散生成框架。该框架采用点云结构化的潜在空间设计，结合级联潜在扩散模型，实现了高质量、可编辑的三维内容生成。这一工作被顶级国际会议ICLR 2025接收，表明其创新性和学术价值得到了国际同行的认可。

二、核心方法详解

2.1 总体架构

GaussianAnything的整体架构包含两个核心阶段：三维变分自编码器（3D VAE）学习阶段和级联潜在扩散模型训练阶段。这种设计灵感来源于二维图像生成领域成功的潜在扩散模型（Latent Diffusion Model, LDM）范式，但在三维领域进行了针对性的创新。

在第一阶段，团队设计了一个专门的三维VAE，能够将多视角的RGB-D-N（颜色、深度、法线）渲染图编码到点云结构化的潜在空间中。这一潜在空间设计是本文的核心创新之一，它保留了三维形状信息，使得后续的扩散模型能够学习到真正的三维分布，而非二维图像分布。

在第二阶段，基于学习到的点云结构化潜在空间，作者训练了级联的潜在扩散模型。级联设计包括两个阶段：首先是一个点云扩散模型，生成三维布局；然后是一个纹理扩散模型，在已有点云布局的基础上生成对应的纹理特征。这种两阶段设计实现了几何和纹理的有效解耦，是实现高质量三维生成的关键。

2.2 三维变分自编码器设计

三维VAE是GaussianAnything的基础模块，其设计需要解决两个核心问题：一是如何从多视角输入中提取一致的三维表示；二是如何构建一个既能保留几何信息又便于后续扩散模型处理的潜在空间。

在编码器方面，GaussianAnything采用多视角RGB-D-N渲染图作为输入。这些渲染图包含了丰富的几何信息：RGB通道提供颜色和纹理信息，深度图提供了像素级的深度估计，法线图则编码了表面朝向信息。通过将多视角信息融合，编码器能够构建对三维结构的全面理解。

在潜在空间设计方面，本文提出了点云结构化的潜在空间（Point Cloud-structured Latent Space）。与传统的扁平化潜在向量不同，这种潜在空间采用类似点云的表示方式，每个潜在变量对应三维空间中的一个点及其属性。这种设计的优势在于：它天然地保留了三维空间中的几何关系，便于后续生成模型学习正确的三维分布；同时，点云表示与三维高斯溅射（3D Gaussian Splatting）等显式表示具有良好的兼容性，便于最终的渲染和可视化。

具体实现上，编码器首先将多视角输入处理为非结构化的集合潜在表示（Set Latent），然后通过交叉注意力机制将这一表示投影到三维流形上，形成点云结构化的潜在代码。这一过程可以理解为在三维空间中"放置"潜在变量，每个变量携带其位置和特征信息。

2.3 级联潜在扩散模型

基于学习到的三维潜在空间，GaussianAnything训练了级联的潜在扩散模型来实现条件三维生成。级联设计包括粗粒度点云生成和细粒度纹理生成两个阶段。

点云扩散模型是第一阶段，负责生成三维对象的整体布局和几何结构。该模型以文本或图像特征为条件，通过去噪扩散过程在潜在空间中逐步生成点云结构。这一阶段关注的是三维形状的完整性和正确性，需要确保生成的几何结构符合物理规律且视角一致。

纹理扩散模型是第二阶段，在已有点云布局的基础上生成详细的纹理特征。由于几何和纹理在潜在空间中已经实现了解耦，这一阶段可以在固定几何结构的同时生成不同的纹理变体，或者在保持纹理一致的同时调整几何形状。这种解耦设计对于实现三维编辑功能至关重要。

在扩散模型架构方面，GaussianAnything采用了DiT（Diffusion Transformer）架构，这是自DiT提出以来在扩散模型领域的标准选择。具体实现中使用了AdaLN-single和QK-Norm等技巧来提升训练稳定性和模型性能。对于不同模态的条件输入，文本和图像特征都通过交叉注意力机制注入到模型中，但注入位置有所不同以适应不同条件的特点。

2.4 多模态条件生成

GaussianAnything支持多种条件输入模态，这是其另一重要特点。具体包括：点云条件，可以从扫描数据或已有三维模型中提取；文本描述，允许用户通过自然语言指定生成内容；单图像条件，从单张视图推断完整三维结构；多图像条件，融合多视角信息提升重建质量。

这种多模态支持通过统一的条件注入机制实现。所有条件模态首先被编码为特征表示，然后在扩散模型的去噪过程中通过交叉注意力与潜在代码交互。这种设计保证了不同条件模态能够在统一的生成框架下发挥作用。

三、实验结果分析

3.1 实验设置

作者在多个数据集上验证了GaussianAnything的有效性，包括Objaverse、GSO等常用的三维对象数据集。实验采用标准的图像到三维生成评估指标，包括FID（Fréchet Inception Distance）、CLIP Score等。同时，为了评估生成三维模型的质量，还进行了用户研究和视角一致性分析。

作为对比的方法包括：前馈三维重建方法如LRM、Open-LRM、InstantMesh、LGM；多视角生成方法如Zero123++、One-2-3-45；SDS优化方法如DreamFusion；以及同期的原生三维扩散方法如LN3Diff。

3.2 定量结果

在文本条件三维生成任务上，GaussianAnything在多个数据集上均取得了优于现有方法的成绩。特别是在Objaverse数据集上，相比于此前最好的前馈方法和原生三维扩散方法，GaussianAnything展现出更稳定的性能和更高的生成质量。

在图像条件三维重建任务上，GaussianAnything同样表现出色。面对来自未见过的GSO数据集的单张输入图像，GaussianAnything能够生成视角一致、几何正确的三维模型。相比之下，一些前馈方法虽然能够生成锐利的纹理，但在复杂情况下可能出现几何变形或不完整的三维预测。

值得注意的是，原生三维扩散方法（像GaussianAnything）在三维一致性和生成成功率方面普遍优于前馈重建方法。这是因为扩散模型在三维潜在空间中直接学习三维分布，能够更好地捕捉三维对象的空间结构；而前馈方法需要从有限的输入信息中"推断"完整的三维结构，这在信息不足时容易出错。

3.3 定性结果

从定性结果来看，GaussianAnything生成的三维模型具有以下特点：首先，几何结构完整且视角一致，无论从哪个角度观察都能保持正确的空间关系；其次，纹理细节丰富且自然，能够捕捉输入条件中的微妙纹理变化；第三，生成的三维表示支持后续编辑操作，这是由于几何和纹理的解耦设计。

在与其它方法的对比中可以看到，对于复杂的几何结构（如动物雕塑、金属物体等），GaussianAnything能够保持拓扑正确性和表面光滑度，而一些对比方法可能出现几何扭曲或表面缺失。在处理透明或反射材质时，GaussianAnything也展现出较好的鲁棒性。

四、与相关工作的对比

4.1 与SDS类方法的对比

DreamFusion等基于SDS的方法通过将二维扩散模型的知识蒸馏到NeRF表示中来实现三维生成。这类方法的主要问题是需要耗时的每场景优化（通常需要数小时）和视角不一致的"Janus问题"（同一内容出现在多个位置）。GaussianAnything作为前馈原生三维扩散方法，能够在数秒内完成三维生成，且由于直接在三维空间中建模，避免了视角不一致问题。

4.2 与多视角生成方法的对比

Zero123++、MVDream等多视角生成方法首先生成多张不同视角的图像，然后通过重建算法得到三维模型。这类方法的核心问题是多视角之间的一致性难以保证，当不同视角的图像存在矛盾时，重建结果会出现伪影或几何错误。GaussianAnything通过直接在三维潜在空间中生成，天然保证了视角一致性。

4.3 与前馈重建方法的对比

LRM、InstantMesh等前馈重建方法直接从输入预测三维表示，生成速度快但往往受限于输入信息量。当输入图像存在遮挡或信息不足时，生成的三维结构可能出现错误或不完全。GaussianAnything虽然也采用前馈方式，但由于扩散模型强大的生成能力，能够在潜在空间中进行"推理"，填补缺失信息，生成更加完整和正确的三维结构。

4.4 与同期工作的对比

GaussianAnything属于原生三维扩散方法这一新兴范式。与同期工作如CLAY、Direct3D、Craftsman相比，GaussianAnything的独特之处在于：采用了点云结构化的潜在空间设计，这在保留三维几何信息方面具有优势；实现了有效的几何-纹理解耦，便于后续三维编辑；支持多种条件输入模态，提供了更大的灵活性。

五、优缺点分析

5.1 优点

• 原生三维生成：直接在三维潜在空间中建模，避免了从二维到三维的投影问题，保证了生成结果的视角一致性和几何正确性。

• 点云结构化潜在空间：保留了三维空间中的几何关系，便于后续扩散模型学习和三维编辑操作。

• 几何-纹理解耦：通过级联设计实现了几何和纹理的有效分离，使得独立编辑成为可能。

• 多模态支持：支持点云、文本、单图像、多图像等多种条件输入，具有良好的灵活性。

• 高质量生成：在多个数据集上取得了优于现有方法的结果，特别是在复杂几何和材质场景下表现稳定。

5.2 缺点与局限性

• 计算成本：作为原生三维扩散方法，GaussianAnything的训练和推理成本相对较高，可能限制了其在资源受限场景下的应用。

• 潜在空间复杂度：点云结构化潜在空间的设计虽然保留了更多信息，但也增加了模型设计和训练的复杂度。

• 泛化能力：模型性能可能受到训练数据分布的影响，在处理与训练数据差异较大的对象时可能表现下降。

• 实时性：虽然优于SDS类方法，但与某些专用前馈方法相比，生成速度仍有提升空间。

六、个人见解和未来展望

6.1 个人见解

GaussianAnything代表了三维生成领域的一个重要方向------原生三维扩散模型。与之前将二维扩散模型知识迁移到三维的方法相比，原生三维扩散直接在三维空间中建模，理论上能够学习到更准确的三维先验。从实验结果来看，这一思路确实取得了显著的性能提升，证明了三维表示在三维生成任务中的重要性。

点云结构化潜在空间的设计是本文的核心创新之一。我认为这一设计的优势不仅在于保留几何信息，更重要的是它为三维生成提供了一种更加自然和直观的表示方式。在传统的扁平化潜在空间中，很难直接表达三维空间中的拓扑关系和几何约束；而点云表示天然地编码了这些信息，使得扩散模型能够更有效地学习三维分布。

几何-纹理解耦是实现可编辑三维生成的关键。现有的许多三维生成方法只能产生"一次性"的结果，难以进行后续编辑。GaussianAnything通过级联设计实现了解耦，使得用户可以在保持几何不变的情况下修改纹理，或者在保持纹理风格的情况下调整几何形状。这一特性对于实际应用具有重要价值。

6.2 未来展望

基于对GaussianAnything的分析，我认为该领域未来可能在以下方向取得进展：

• 规模化扩展：随着三维训练数据量的增加和计算资源的提升，原生三维扩散模型有望获得更强的生成能力和泛化性能。类似二维领域中大规模预训练带来的提升，三维领域也可能从规模化中受益。

• 条件控制精细化：当前的条件控制主要依赖于全局特征，未来可能发展出更加精细和灵活的条件控制机制，允许用户对三维对象的特定部分或属性进行精确控制。

• 与物理仿真的结合：将三维生成与物理仿真相结合，可以生成满足物理约束的三维内容，这对于机器人、增强现实等需要物理正确性的应用具有重要意义。

• 实时生成：优化模型结构和推理算法，实现实时的三维生成，这将大大拓展三维生成技术的应用场景。

• 多模态融合：探索更深入的多模态融合机制，实现文本、图像、三维模型等多种模态之间的无缝转换和协同生成。

七、总结

GaussianAnything是三维生成领域的一项重要工作，它提出了点云结构化潜在空间和级联潜在扩散模型的设计，实现了高质量、可编辑的三维内容生成。该工作被ICLR 2025接收，证明了其在学术界的创新性和影响力。从技术路线来看，原生三维扩散模型代表了三维生成的一个重要发展方向，未来有望在规模化、精细控制、物理融合等方面取得更大突破。

对于从事三维生成、三维视觉、计算机图形学相关研究的学者和工程师而言，GaussianAnything提供了有价值的参考和启发。其在潜在空间设计、条件注入、几何-纹理解耦等方面的创新思路，对于类似问题的解决具有借鉴意义。