
摘要 :神经辐射场(Neural Radiance Fields)和3D高斯溅射(3D Gaussian Splatting)技术已经彻底改变了3D重建和新视角合成任务。然而,从极端新视角实现照片级真实感的渲染仍然是一项挑战,因为不同表示方法之间仍然存在伪影。在本文中,我们介绍了Difix3D+,这是一种通过单步扩散模型来增强3D重建和新视角合成的新型管道。我们方法的核心是Difix,这是一个单步图像扩散模型,经过训练能够增强并去除由3D表示中约束不足的区域引起的渲染新视图中的伪影。Difix在我们的管道中扮演着两个关键角色。首先,在重建阶段,它用于清理从重建中渲染的伪训练视图,然后将其蒸馏回3D空间。这极大地增强了约束不足的区域,并提高了整体3D表示的质量。更重要的是,Difix在推理过程中还充当神经增强器,有效去除由不完美的3D监督和当前重建模型有限能力引起的残留伪影。Difix3D+是一种通用解决方案,单个模型即可兼容NeRF和3DGS表示,并且在保持3D一致性的同时,与基线方法相比,FID评分平均提高了2倍。Huggingface链接:Paper page,论文链接:2503.01774
一、引言
随着计算机视觉和图形学领域的快速发展,3D重建和新视角合成技术取得了显著进步。其中,神经辐射场(Neural Radiance Fields, NeRF)和3D高斯溅射(3D Gaussian Splatting, 3DGS)技术尤为突出,它们为3D场景的表示和渲染提供了全新的视角。然而,尽管这些方法在近景视角下的表现令人印象深刻,但在处理极端新视角或稀疏输入数据时,仍然会出现伪影和模糊等问题。这些问题不仅影响了重建结果的质量,也限制了这些技术在现实世界应用中的广泛性。
为了克服这些挑战,研究者们提出了各种方法,包括利用几何先验、深度学习模型等。然而,这些方法往往需要在训练过程中不断优化,且难以扩展到大型场景或复杂的相机轨迹。近年来,扩散模型(Diffusion Models)的兴起为这一领域带来了新的机遇。扩散模型能够从大规模数据集中学习真实世界的图像分布,并利用这些先验知识来增强图像生成和修复的能力。然而,如何将2D扩散模型的先验知识有效地应用到3D重建中,仍然是一个亟待解决的问题。
本文提出的Difix3D+正是为了解决这一问题而设计的。Difix3D+通过引入单步扩散模型Difix,能够在保持3D一致性的同时,显著增强3D重建和新视角合成的质量。Difix模型经过训练,能够去除由3D表示中约束不足区域引起的渲染伪影,并在推理过程中作为神经增强器,进一步提升渲染结果的真实感。
二、背景技术
1. 3D场景重建和新视角合成
神经辐射场(NeRF):NeRF是一种表示和渲染3D场景的方法,它将场景建模为一个由多层感知机(MLP)编码的发射体积。通过查询这个MLP,可以得到空间中任意点的视图相关辐射度和体积密度,进而通过体积渲染公式合成新视角的图像。
3D高斯溅射(3DGS):与NeRF不同,3DGS使用体积粒子来表示场景,这些粒子由位置、旋转、尺度、不透明度和颜色等参数定义。新视角的图像同样可以通过体积渲染公式从这种表示中合成。
2. 扩散模型(Diffusion Models)
扩散模型是一种生成模型,它通过迭代去噪过程来学习数据分布。在训练过程中,扩散模型会生成一系列逐渐添加高斯噪声的数据版本,并学习如何从这些噪声版本中恢复原始数据。在推理过程中,扩散模型可以从随机噪声中生成新的样本,或者用于图像修复和增强等任务。
三、Difix3D+方法概述
Difix3D+是一种通过单步扩散模型来增强3D重建和新视角合成的新型管道。其核心是Difix模型,一个专门用于去除NeRF和3DGS渲染伪影的单步图像扩散模型。
1. Difix模型
Difix模型基于单步扩散模型SD-Turbo构建,并针对NeRF和3DGS渲染伪影进行了微调。它接受一个包含伪影的渲染视图和一个参考视图作为输入,并输出一个增强后的视图,其中伪影被有效去除。为了实现这一目标,Difix模型采用了参考混合层(Reference Mixing Layer),该层能够捕捉跨视图依赖关系,并利用参考视图中的信息来指导伪影的去除。
在训练过程中,Difix模型使用L2重建损失、感知损失(LPIPS)和风格损失(Gram矩阵损失)进行监督。这些损失函数共同作用于模型输出和真实图像之间,确保模型能够生成高质量、无伪影的渲染视图。
2. Difix3D+管道
Difix3D+管道包含三个主要阶段:
阶段一:给定一个预训练的3D表示(如NeRF或3DGS),渲染一系列新视图,并将它们输入到Difix模型中进行增强。增强后的视图随后被蒸馏回3D表示中,以改善其质量。
阶段二:通过多次迭代应用阶段一的过程,逐步扩展重建的空间范围,并确保扩散模型得到充分的条件约束。这一过程称为渐进式3D更新(Progressive 3D Updates),它确保了多视图一致性和3D表示质量的显著提升。
阶段三:在推理过程中,Difix模型作为神经增强器进一步改善渲染新视图的质量。由于Difix是一个单步模型,因此这一过程非常高效,几乎可以实现实时后处理。
四、实验与结果
1. 实验设置
为了验证Difix3D+的有效性,研究者在多个数据集上进行了实验,包括DL3DV数据集和Nerfbusters数据集。这些数据集包含了各种复杂的3D场景和不同的相机轨迹,为评估方法的泛化能力提供了良好的基础。
在实验过程中,研究者使用了多种基线方法进行比较,包括Nerfacto、GANeRF、NeRFLiX等。这些方法代表了当前3D重建和新视角合成领域的先进水平。
2. 实验结果
实验结果表明,Difix3D+在多个评估指标上均显著优于基线方法。具体来说,与基线方法相比,Difix3D+在FID评分上平均提高了2倍,同时在PSNR、SSIM和LPIPS等指标上也取得了显著的提升。
在定性结果方面,Difix3D+能够有效去除NeRF和3DGS渲染中的伪影,并生成更加真实、细腻的新视图。特别是在处理极端新视角或稀疏输入数据时,Difix3D+的表现尤为突出。
此外,研究者还进行了消融实验来验证Difix3D+中各个组件的有效性。实验结果表明,渐进式3D更新和实时后处理步骤对于提升最终渲染质量至关重要。
3. 泛化能力
为了评估Difix3D+的泛化能力,研究者还在一个自制的真实驾驶场景(RDS)数据集上进行了实验。实验结果表明,Difix3D+同样能够在该数据集上取得显著的效果提升,证明了其强大的泛化能力。
五、结论与展望
本文提出了一种新型管道Difix3D+,通过引入单步扩散模型Difix来增强3D重建和新视角合成的质量。实验结果表明,Difix3D+在多个数据集上均取得了显著的效果提升,并且在保持3D一致性的同时,显著提高了渲染结果的真实感。
尽管Difix3D+已经取得了令人瞩目的成果,但仍然存在一些挑战和限制。例如,当前的方法仍然依赖于高质量的初始3D重建结果;对于极端复杂或动态变化的场景,可能需要更复杂的模型来处理。
未来的研究可以进一步探索如何结合现代扩散模型的先验知识来提升3D重建的质量;同时,也可以尝试将Difix模型扩展到视频扩散模型中,以实现更长时间上下文的一致性。此外,还可以研究如何将Difix3D+与其他先进的3D重建和渲染技术相结合,以进一步提升其性能和泛化能力。