DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

该论文介绍了DIFIX3D+，一种利用单步扩散模型来提升三维重建和新视角合成质量的全新管道。尽管Nerf（神经辐射场）和3D Gaussian Splatting（3DGS）等方法已经大大改善了三维重建，但在极端新视角的光线渲染上仍然存在挑战。DIFIX3D+通过整合2D生成模型的先验知识，旨在改善这种情况。

核心方法论

DIFIX 与 DIFIX3D+ 的工作原理

DIFIX 模型：DIFIX是一个简化的单步图像扩散模型，经过微调后能有效提升和去除渲染新视角时产生的伪影。该模型在两个关键阶段中发挥作用：

重建阶段：在重建阶段，DIFIX用于清理从重建过程中渲染的伪训练视图，并进一步回炼到三维表示中，从而改善了不完备区域的质量，提升了整体三维表示的质量。

推断阶段：在推断时，DIFIX充当神经增强器，有效去除因不完美的三维监督和现有重建模型的能力有限而产生的残余伪影。

DIFIX3D+ 管道：DIFIX3D+的整体管道包含以下几个步骤：

第一步：在给定一个预训练的三维表示的情况下，渲染新的视角并将其传递给DIFIX。DIFIX将用作神经增强器，去除伪影并改善渲染视图的质量。

第二步：将清理过的新视角再次回炼到三维表示中，进一步提高其质量。通过几次迭代，这种过程将逐步扩展重建的空间范围，从而确保扩散模型的强条件化。

第三步：DIFIX还可作为实时神经增强器，进一步提升渲染后新视角的质量。

核心技术细节

训练过程：DIFIX通过对已有的扩散模型进行微调来创建。在微调中，该模型计划去除渲染过程中产生的伪影，继而在视觉上与每个参考视图相结合来提升新视角的质量。使用的损失函数包括重建损失、感知损失（LPIPS）和风格损失（Gram matrix loss），共同优化使得渲染效果普遍提升。

数据策划：为了训练模型，论文作者运用了多种策略来创建包含伪影的图像与对应的"干净"图像的成对数据。通过稀疏重建、循环重建、交叉参考及模型欠拟合等方法，能够得到更为丰富且有参考价值的训练数据集。

进化更新机制：DIFIX3D+中的渐进式更新机制允许逐步对三维表示进行优化。方法首先使用参考视图优化三维表示，接着逐步引入目标视图进行微调，确保各视角间的一致性与高保真度的渲染。

实时后处理能力：DIFIX3D+还可以在渲染完成后进行实时后处理，通过单步模型优化新生成的视图。此外，迅速的推断性能（在NVIDIA A100 GPU上约76毫秒）显著优于其他多次去噪步骤的扩散模型。

网络结构分析

结果展示

通过在不同数据集上的评估，DIFIX3D+展示了出色的性能，PSNR和FID评分都有明显的提升，表现出其在去除伪影、增强三维一致性和视觉真实感方面的有效性。与基线方法相比，DIFIX3D+显著减少了LPIPS与FID等评估指标的值，突显了其在视觉质量上的卓越表现。

综上所述，DIFIX3D+为三维重建与新视角合成提供了一种有效的解决方案，通过单步扩散模型的引入，不仅提高了渲染质量，还加快了处理速度，为实际应用中的视觉效果提升提供了有力支持.

数据说明

如何有效地生成一个大规模、高质量的、包含各种3D新颖视图合成中常见伪影类型及其对应干净图像的配对 数据集 ，从而为DIFIX模型提供充足且具有代表性的学习信号，使其能够准确地识别和修复这些伪影，并提升模型在不同场景和伪影条件下的 泛化能力 ？

可采取策略

稀疏重建：用数据集的一部分相机位姿来训练3dgs场景，用剩余未训练的相机位姿得到渲染图片与GT构成所需的数据集图像。
循环重建：对于自动驾驶的数据集，从原始相机轨迹训练得到3dgs模型，然后相机位姿平移1~6m产生新的渲染轨迹，产生渲染图。然后利用这些渲染图再重建出一个新的3dgs场景表示，就可以得到伪影图和GT图的对应数据集。
减少迭代次数：模型欠拟合，可以的到大量与gt图对应的伪影图。

实际使用时，1,3方案实施较为简单，方案2实现链路长，较复杂。优先采取1,3，然后2实施。