DiffusionGS: 将3D高斯溅射嵌入扩散模型的单阶段图像到三维生成

Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation

|-----------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 论文标题 | DiffusionGS: Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation |
| 作者 | Yuanhao Cai, He Zhang, Kai Zhang, Yixun Liang, Mengwei Ren, Fujun Luan, Qing Liu, Soo Ye Kim, Jianming Zhang, Zhifei Zhang, Yuqian Zhou, Yulun Zhang, Xiaokang Yang, Zhe Lin, Alan Yuille |
| 机构 | Johns Hopkins University; Adobe Research; HKUST; Shanghai Jiao Tong University |
| 发表会议 | ICCV 2025 (International Conference on Computer Vision) |
| arXiv链接 | https://arxiv.org/abs/2411.14384 |
| 开源代码 | https://github.com/caiyuanhao1998/Open-DiffusionGS |

一、研究背景

三维内容生成是计算机视觉领域的核心研究方向之一，在增强现实、虚拟现实、机器人导航、电影特效、游戏开发等领域有着广泛的应用前景。近年来，随着扩散模型在二维图像和视频生成领域取得的巨大成功，研究者们开始探索将扩散模型应用于三维内容生成的可能性。图像到三维（Image-to-3D）任务是其中的关键子问题，其目标是根据单张或多张输入图像生成对应的三维表示，包括显式表示（如三维高斯点云、网格）和隐式表示（如神经辐射场）。

当前主流的图像到三维生成方法主要采用两阶段范式。以经典的LGM（ECCV 2024）和CAT3D（CVPR 2024）为例，这些方法的第一阶段通常是一个多视角扩散模型，根据输入视角生成四个固定视角的图像；第二阶段则根据第一阶段生成的多视角图像进行三维重建，可以使用逐场景优化方法如NeRF或三维高斯溅射（3D Gaussian Splatting, 3DGS）。这种两阶段方法虽然能够生成较好的结果，但也存在以下显著问题：

首先，多视角生成阶段的三维视角一致性无法保证。由于多视角图像是独立生成的，不同视角之间可能存在几何不一致的情况，这容易导致根据重建得到的三维表征渲染出来的新视角图像产生伪影和畸变。典型的表现包括：同一物体在不同视角中出现不同的几何结构，表面出现撕裂或穿透，纹理出现不自然的拼接等。

其次，两阶段方法相对耗时。第一阶段通常使用较大的二维图像扩散模型（如Stable Diffusion系列）进行预训练，生成速度较慢；第二阶段若采用逐场景优化方法，重建时间往往在30分钟以上。这严重限制了这些方法在需要实时或近实时响应的应用场景中的使用。

此外，大多数现有方法主要处理物体级别（object-centric）的生成，对于更大规模的场景级别（scene-level）生成支持有限。场景重建需要处理更复杂的几何结构、更大范围的遮挡关系以及更丰富的语义信息，这对方法的设计提出了更高的要求。

针对上述问题，本文提出了一种全新的单阶段三维扩散模型------DiffusionGS。该工作由Adobe研究院、约翰霍普金斯大学、上海交通大学、香港科技大学等机构的研究者合作完成，并被计算机视觉顶级会议ICCV 2025接收。DiffusionGS的核心创新在于将三维高斯溅射直接嵌入到扩散去噪器中，在每个时间步直接输出像素对齐的三维高斯点云，从而保证了生成结果的视角一致性，并能够处理物体级别和场景级别的生成任务。

二、核心方法详解

2.1 总体框架

DiffusionGS的整体框架包含两个核心组件：场景-物体混合训练策略和三维扩散去噪器。与之前将二维扩散模型直接用于三维生成的方法不同，DiffusionGS直接在像素空间中操作，通过扩散模型在每个去噪时间步预测像素对齐的三维高斯基元，然后合并各视角的高斯基元得到该时间步下的高斯点云模型。这种设计确保了多视角之间的一致性，因为所有视角共享相同的三维高斯点云表示。

在推理阶段，给定一张输入视角图像和N个目标视角的相机位姿，DiffusionGS通过去噪过程生成这N个视角对应的三维高斯点云。通过将不同视角的高斯基元合并，可以得到完整的三维场景表示，进而渲染出任意新视角下的图像。这种端到端的设计避免了传统两阶段方法中的误差累积问题。

2.2 为什么选择3DGS而非NeRF？

在选择三维表示时，作者详细分析了NeRF和3DGS的优劣。NeRF采用体渲染（volume rendering）方式，需要对每条射线采集多个散点并用多层感知机（MLP）计算颜色和体密度。这种渲染方式存在以下问题：计算量大，渲染速度慢；空间分辨率有限，难以捕捉细节；隐式表示对三维一致性的提升有限。

相比之下，3DGS采用光栅化（rasterization）方式进行渲染，这种方式能够在GPU上高效并行计算，具有更快的渲染速度、更高的空间分辨率和更显式、更具交互性的三维表示。基于这些优势，DiffusionGS选择将3DGS嵌入到扩散模型中。

2.3 像素空间 vs 潜在空间

一个关键的设计决策是选择像素空间还是潜在空间进行扩散。如果选择潜在空间，三维高斯点云会被降维压缩，原本显式的三维表征会被破坏而失去意义。同时，能够编解码三维高斯点云的变分自编码器（VAE）需要自己训练，这个过程非常复杂且各阶段产生的误差容易累积。DiffSplat（ICLR 2025）采用了这一思路，在物体级别生成上取得了不错效果，但在面对更大尺度的场景级别生成时，由于训练数据稀缺和3DGS被压缩等原因，效果可能受限。

基于上述分析，DiffusionGS选择像素空间以保持完备的三维表征和高空间分辨率。然而，这也带来了新的挑战：无法直接利用当前最好的二维扩散模型进行预训练，因为这些模型都是在潜在空间中操作的。为解决这一问题，作者设计了场景-物体混合训练策略来充分利用各类三维训练数据。

2.4 场景-物体混合训练策略

由于DiffusionGS是像素空间方法，无法使用预训练的二维图像扩散模型先验，因此需要更多的三维数据来学习良好的三维先验。然而，三维训练数据本身并不多，尤其是场景级别的数据。

为解决数据不足问题，作者设计了场景-物体混合训练策略。具体而言，在选择训练数据时，对视角夹角施加两类约束：第一类约束控制输入视角、给定视角和目标视角位置向量之间的夹角；第二类约束控制这三种视角前向向量之间的夹角。通过这些约束条件，可以确保训练过程的收敛性和生成质量。

由于场景和物体在成像范围和深度上存在显著差异，作者分别为场景级别和物体级别数据训练了不同的MLP作为高斯基元解码器。此外，考虑到物体级别生成的高斯点云通常集中在中心位置，作者还设计了点分布损失（point distribution loss）作为物体级别训练的预热阶段。

2.5 参考点Plucker坐标

如何有效地将相机位姿信息注入扩散模型是另一个关键问题。传统的相机条件注入方法使用Plucker坐标，主要表达相机射线旋转和方向信息。然而，空间深度的感知需要位置信息。

DiffusionGS提出了参考点Plucker坐标（Reference-Point Plucker Coordinate, RPPC）方法。该方法将垂直于相机射线的最近点位置向量作为参考点输入模型，借助Transformer的残差结构将参考点信息传递到模型的所有层中，从而增强整体的空间感知能力。这一设计受到三维视觉领域著名研究者Kai Zhang的启发。

2.6 扩散过程与损失函数

在扩散过程方面，DiffusionGS的输入包括一张干净图像（条件视图）、N张噪声图像（目标视图）以及这N+1张图像对应的相机位姿。前向过程逐步对N个目标视角添加噪声。在每个时间步，模型为各视角预测像素对齐的高斯基元，合并后得到该时间步下的高斯点云。

由于三维高斯点云的真值未知且无法直接获取，同时噪声点云会损害三维视角一致性，DiffusionGS采用预测渲染图像而非噪声的策略。具体而言，对生成的三维高斯点云进行光栅化渲染，得到各视角下的渲染图像。然后设置L2损失和感知损失来监督模型训练。

最终的总损失函数结合了渲染损失、感知损失和点分布损失等多分量，能够全面监督模型学习正确的三维结构和外观特征。

三、实验结果分析

3.1 实验设置

作者在物体级别和场景级别两个任务上进行了全面评估。物体级别评估使用ABO和GSO数据集的复杂案例；场景级别评估使用室内和室外场景数据。评估指标包括PSNR（峰值信噪比）和FID（Fréchet Inception Distance）等标准图像质量指标。

对比方法包括当前最好的两阶段方法如LGM、Zero123++、CAT3D以及商业模型Hunyuan-v2.5等。值得注意的是，DiffusionGS的模型参数量仅约1GB，训练仅需16-32张A100 GPU，展示了较高的效率。

3.2 物体级别生成结果

在物体级别图像到三维生成任务上，DiffusionGS取得了显著的性能提升。相比当前最好的方法，DiffusionGS在PSNR上提升2.20dB，在FID上提升23.25分。这些数值上的提升反映了生成结果在图像质量方面的实质性改进。

从定性结果来看，DiffusionGS在处理复杂几何结构时表现出色。例如，在ABO数据集中的一些困难案例（如犀牛雕像、复杂金属物体）上，DiffusionGS能够生成几何正确、纹理清晰的三维模型，而对比方法可能出现几何扭曲或纹理缺失。

在与Hunyuan-v2.5的对比中，DiffusionGS在256×256分辨率下仅需6秒完成生成，在512×512分辨率下仅需24秒，速度是Hunyuan-v2.5的7.5倍。这一效率优势对于实际应用具有重要意义。

3.3 场景级别重建结果

场景级别重建是DiffusionGS的另一亮点。相比物体级别生成，场景重建需要处理更大的空间范围、更复杂的几何结构和更丰富的语义信息。DiffusionGS在室内场景和室外场景重建上均取得了优异表现。

特别值得注意的是，DiffusionGS在进行单视角场景级别重建时，无需像之前方法那样借助单目深度估计器。模型本身具有深度感知能力，能够从单张图像中推断出完整的场景结构。这一特性大大简化了推理流程，提高了方法的实用性。

在场景重建任务上，DiffusionGS相比最好方法在PSNR上提升1.34dB，在FID上提升19.16分。这些结果证明了所提出方法在处理大规模复杂场景时的有效性和鲁棒性。

3.4 效率分析

DiffusionGS在效率方面展现出显著优势。推理速度方面，在256×256分辨率下仅需约6秒，在512×512分辨率下仅需约24秒。相比之下，Hunyuan-v2.5等商业模型需要更长的生成时间。

训练效率方面，DiffusionGS仅需16-32张A100 GPU进行训练，模型参数量约1GB。这一训练成本对于学术研究和工业应用都是可接受的，有助于推动方法的广泛使用和进一步发展。

四、与相关工作的对比

4.1 与两阶段方法的对比

LGM、CAT3D等两阶段方法采用多视角生成+三维重建的范式。这类方法的核心优势在于可以利用预训练的强大二维扩散模型先验，但在多视角一致性方面存在天然缺陷。由于多视角图像是独立生成的，视角之间的几何关系难以保证一致，这导致重建结果可能出现伪影和不自然的结构。

DiffusionGS通过单阶段设计从根本上解决了这一问题。由于所有视角共享同一个三维高斯点云表示，视角一致性得到了数学上的保证。同时，级联的训练策略使得模型能够学习到正确的三维几何先验。

4.2 与逐场景优化方法的对比

DreamFusion等基于分数蒸馏的方法需要进行耗时的逐场景优化，每次生成都需要数小时的优化过程。这种方法的主要问题是无法实现快速生成，限制了实时应用的可能。此外，逐场景优化容易陷入局部最优解，导致Janus问题等伪影。

DiffusionGS作为前馈方法，能够在数秒内完成三维生成，无需逐场景优化。这种效率优势使得DiffusionGS更适合需要快速响应的应用场景。

4.3 与潜在空间方法的对比

DiffSplat等潜在空间方法将三维高斯点云压缩到潜在空间中进行扩散。这类方法的优势是可以利用预训练的二维扩散模型，但压缩过程会损失信息，对于复杂的场景级别生成可能效果有限。

DiffusionGS选择像素空间设计，虽然放弃了使用二维扩散模型先验的机会，但保留了完整的三维信息。通过场景-物体混合训练策略，模型能够从有限的训练数据中学习到足够强的三维先验。

五、优缺点分析

5.1 优点

• 单阶段设计：避免了传统两阶段方法中的误差累积问题，简化了生成流程，提高了效率。

• 视角一致性保证：由于所有视角共享同一三维表示，天然保证了生成结果的视角一致性。

• 高效生成：在256×256分辨率下仅需6秒生成时间，速度是Hunyuan-v2.5的7.5倍。

• 场景级别支持：能够处理物体级别和场景级别的生成任务，适用范围更广。

• 无需深度估计：单视角场景重建无需额外的单目深度估计器，简化了推理流程。

• 端到端训练：通过场景-物体混合训练策略，实现了端到端的三维生成。

5.2 缺点与局限性

• 无法利用二维先验：像素空间设计使得无法直接使用强大的预训练二维扩散模型先验。

• 数据依赖：需要大量三维训练数据，特别是场景级别数据相对稀缺。

• 复杂材质处理：对于高度复杂或特殊的材质（如透明、反射材质）可能仍有挑战。

• 分辨率限制：当前版本的生成分辨率受限于训练设置，可能无法满足超高清需求。

六、个人见解和未来展望

6.1 个人见解

DiffusionGS的核心贡献在于提出了一种将三维高斯溅射嵌入扩散去噪器的新范式。这种设计体现了对三维生成任务本质的深刻理解：三维生成不同于二维图像生成，其核心挑战在于保证多个视角之间的一致性。通过让所有视角共享同一三维表示，DiffusionGS从设计层面解决了这一问题，而不是试图通过后处理或约束来"补救"。

场景-物体混合训练策略的设计也颇具洞察力。传统的做法可能是分别训练场景模型和物体模型，但这会导致模型能力的割裂。混合训练策略使得模型能够同时从两类数据中学习到互补的知识：物体数据提供了精细的几何和纹理信息，场景数据提供了空间关系和上下文信息。这种知识迁移对于提升模型的整体能力具有重要作用。

参考点Plucker坐标的设计虽然看似简单，但体现了对三维视觉问题的深入理解。传统Plucker坐标只关注射线方向，但深度感知同样需要位置信息。通过引入参考点，模型能够更好地感知三维空间中的深度关系，这对于场景级别的生成尤为重要。

从更宏观的角度看，DiffusionGS代表了三维生成领域的一个重要趋势------从"借用"二维模型先验到"原生"三维建模。虽然当前方法无法利用强大的二维扩散先验，但随着三维训练数据量的增加和训练技术的改进，原生三维方法有望超越借用先验的方法。这一趋势与二维生成领域的发展历程类似：早期的方法也依赖各种先验，但随着大规模预训练的兴起，端到端模型逐渐占据主导。

6.2 未来展望

基于对DiffusionGS的分析和当前领域的发展趋势，我认为该领域未来可能在以下方向取得突破：

• 二维-三维协同预训练：探索将二维预训练知识与三维特定训练相结合的混合策略，在利用先验的同时保持三维一致性。

• 动态三维生成：将DiffusionGS的框架扩展到四维（时空）场景的生成，实现动态三维内容的创建。

• 更精细的几何控制：发展细粒度的条件控制机制，允许用户对生成三维对象的特定部分进行精确控制。

• 物理约束集成：将物理先验（如刚体物理、重力、碰撞等）集成到生成过程中，生成满足物理规律的三维内容。

• 实时交互生成：优化推理速度和资源占用，实现实时的三维交互式生成和编辑。

• 多模态融合：探索文本、图像、语音等多种模态与三维生成的深度融合，提供更自然的交互方式。

七、总结

DiffusionGS是图像到三维生成领域的一项重要工作，它创新性地将三维高斯溅射嵌入扩散去噪器，实现了单阶段、高效率的三维生成。该工作被ICCV 2025接收，表明其在学术界的创新性和影响力。实验结果表明，DiffusionGS在物体级别和场景级别生成任务上均取得了显著的性能提升，同时具有高效率的优势。

DiffusionGS的设计思路对后续研究具有重要启示：三维生成需要"原生"的三维建模，而非简单借用二维方法；视角一致性是三维生成的核心挑战，需要从设计层面加以解决；场景级别和物体级别的生成可以相互促进，混合训练策略是有效的知识迁移方法。

对于从事三维生成、计算机视觉相关研究的学者和工程师而言，DiffusionGS提供了有价值的参考。其在架构设计、训练策略、条件注入等方面的创新，对于解决类似问题具有借鉴意义。随着三维数据量的增加和计算资源的提升，原生三维扩散模型有望在未来取得更大突破。