【论文笔记】TranSplat：深度refine的camera-required可泛化稀疏方法

深度信息在场景重建中是非常重要的先验，有一个精确的深度估计，重建质量起码提升一半，这一篇就是围绕着transformer优化深度来展开工作，进而提升GS的效果，感谢作者大佬们的work！

1 Abstract

与之前的3D重建方法（如NeRF）相比，最近的通用3D高斯溅射(G-3DGS)方法即使在稀疏视图设置下也展示了令人印象深刻的效率。然而，现有G-3DGS方法的重建性能高度依赖于准确的多视图特征匹配，这在实际应用中非常具有挑战性 。特别是在各种视图之间有许多不重叠区域且包含大量纹理相似区域的场景中，现有方法的匹配性能较差，导致重建精度受限。

我们开发了一种利用预测深度置信图来引导准确局部特征匹配的策略。此外，我们提出利用现有的单目深度估计模型的知识作为先验，以提高非重叠区域之间的深度估计精度。结合这些提出的策略，我们提出了一种新的G-3DGS方法，命名为TranSplat。

2 Introduction

针对稀疏视图重建的可泛化3DGS（G-3DGS）方法引起了越来越多的兴趣。一些方法（Charatan et al. 2024; Chen et al. 2024）已经出现，能够在单次前向传递中重建3D场景，而无需额外的优化。这些进展在实现高质量重建结果的同时，减少了计算开销，从而提高了3D重建在各种应用场景中的效率和适用性。

现有的稀疏视图方法主要分为两类：逐场景优化方法和前馈推断方法。前者通常利用多视图几何约束来联合优化渲染结果和相机姿态。这些方法还可以通过结合额外的先验知识（如深度信息）来改善新视角的结果（Chung，Oh 和 Lee，2024；Li 等，2024）。然而，逐场景优化方法需要通过迭代过程才能获得最终的 3D 表示。相比之下，前馈推断方法通过一次前馈过程即可重建整个场景，从而消除了后续优化的需要。这些方法受益于来自大型数据集的强大先验，从而能够在不同数据集之间有效泛化。

PixelSplat（Charatan et al. 2024）和MVSplat（Chen et al. 2024）通过从相应视图中反投影深度图来作为3D高斯分布的中心。然而，这些方法的性能高度依赖于基于深度的像素级匹配，这在实际应用中非常具有挑战性，因此限制了这些方法的重建精度。我们在观察中发现，尤其是在存在遮挡、纹理不足或重复图案的场景中，匹配结果非常不理想（Yao et al. 2018; Sun et al. 2021; Pautrat et al. 2023; Wang et al. 2022b）。

此外，现有多视图重建方法在处理视图之间的非重叠区域时也面临挑战，因为这些区域缺乏匹配对。这些局限性导致在复杂场景中的重建精度和鲁棒性不足。

我们提出了一种新颖的可泛化稀疏视图3D重建框架TranSplat，通过利用预测的深度和特征，将每个像素投影到3D高斯基元中，从而从稀疏视图中恢复3D结构。因此，准确的深度预测对于保证从多个视角生成的3D高斯基元之间的几何一致性至关重要。

为了精确估计3D高斯基元的中心，我们设计了一个基于Transformer的模块，称为深度感知可变形匹配Transformer（DDMT） 。该模块通过初始深度分布，评估跨视图特征的相似性，来优先考虑高置信度的深度候选值。初始深度分布由粗匹配模块（Coarse Matching module）计算得出。

此外我们利用单目深度先验，并采用Depth Refine U-Net进一步优化深度分布。通过采用优化后的深度和图像特征，我们的方法能够并行预测每个像素的所有高斯参数，包括中心、协方差、不透明度和球谐系数。

3 Method

总体上，深度信息对于一个3D场景的重建非常重要，该方法很大部分在做depth的优化工作，一方面是图像的特征，另一方面是图像深度估计，首先利用特征估计一个coarse depth，然后充分利用交叉视点的信息得到了refine depth，这样深度做到了足够准确，3.4节是针对overlap不足的问题，可以先排在后面。最后，将refined depth输入MLP来预测得到GS的各个属性。

如图2，给定K个稀疏视图，以及对应的相机参数，我们通过一个单步forward方法预测3D高斯来表达一个场景，这里的高斯参数包括：位置，不透明度，协方差，颜色（球谐函数），通过这样的一个框架来进行NVS任务。

3.1 Feature Extraction

在特征提取模块，我们使用标准的CNN与Transformer架构提取图片信息，即我们得到，另外，我们还把相机参数送入了MLP经过编码，然后与每一个CNN的feature连起来，这样可以得到一个全局的信息；我们在CNN与Transformer架构使用的注意力采用的是Swin Transformer中的局部window attention mechanism。然后，我们利用DepthAnythingV2的最后一层特征作为深度特征，还有输出相对深度。

3.2 Coarse Matching

进行特征提取以后，进入深度估计的环节，这就需要一个深度置信图，也就是说，我们需要一个初始的深度分布。这里直接使用了DDMT模块，因为可变形采样和深度感知匹配这两种方法依赖于深度信息来生成深度候选的注意力图。

对于源视角以及目标视角，先使用plane-sweep stereo方法获得一个深度候选值图，然后根据下式的采样算子，来得到视图 j 的特征：

其中，是相机的c2w矩阵，D是深度的维度。

然后通过公式2沿着通道的维度计算的内积得到coarse：

3.3 Coarse-to-Fine Matching

由于粗匹配模块只执行像素对齐的特征匹配，因此它很难处理低纹理区域和重复模式。我们设计了可变形采样(DS)模块(如图3所示)，它聚合了局部特征的空间信息。此外，我们观察到，粗略匹配模块对所有深度候选对象都同等优先。我们提出了深度感知匹配Transformer(DMT)模块(如图4所示)，以引导我们的网络专注于正确的深度候选。

step1 ，类似于3.2节的初始设置，使用源视角 i 与目标视角 j 得到深度感知特征（depth-aware），然后按照图中的形式，fuse前面的粗略深度图、深度特征，相机参数：

其中是MLP，是3.1节提到的squeeze-excitation层，这里除了送入相机参数还有深度特征。

step2 ：还是类似3.2节，使用形变采样（Deformable Sampling）模块获得视图 j 的形变特征：

其中，是image-level的采样偏移，里面的P是形变点的数量。

step3 ：如图4，这是作者提出的深度感知匹配模块，其中包含自注意力和交叉注意力层以提高深度预测的能力，粗略的深度首先输入自注意力层聚合局部深度信息，接着利用交叉注意力计算深度误差：

其中是深度感知注意力的权重。

然后通过预测得到采样的偏移和注意力权重：

最后，

3.4 Depth Refine U-Net

最近的方法(Charatan等人2024；Chen等人。2024)主要关注交叉图像信息以推断深度。然而，随着输入视图数量的减少，存在大量没有交叉视图匹配的区域，导致这些区域的深度输出不可靠。为了优化这些非重叠区域的深度分布，我们设计了Depth Refine U-Net模块，将匹配结果的精确几何一致性与单目深度先验的可靠的相对深度结合起来。

输入K个视图，相对深度和，该模块输出每一个视图的深度误差：

其中是我们的Depth Refine U-Net，是最后的Refind depth。

3.5 Gaussian Prediction

这一节利用我们的深度感知功能来预测一组3D高斯基元的参数，设是K个视图对应的所有像素数量。我们逐个优化GS参数：

1.中心 ：利用最终的refined depth 精化预测，使用摄像机参数直接将每个像素反投影到全局3D点。然后直接选择这些点作为高斯球的中心。

2.不透明度 ：对于每个像素，如果深度预测准确，则不透明度应设置为1，因为点必须位于曲面上，不透明度可以作为深度预测的置信度。因此，将输入一个简单的MLP来预测不透明度。

3.协方差矩阵与颜色 :参考原始GS，使用尺度矩阵 s 和旋转矩阵来表示协方差，用球谐函数表示颜色。参数是使用MLP预测的

对于训练，直接使用渲染的图像与GT计算MSE和LPIPS

4 Experiments

4.1实验设置

我们使用RealEstate10K和ACID进行了训练和评估。RealEstate10K包括YouTube上的家庭演练视频，其中有67,477个场景用于训练，7,289个场景用于测试。ACID数据集以航空景观视频为主，包括11,075个训练场景和1,972个测试场景。这两个数据集都提供了由SFM计算的相机姿势。

与MVSplat相同，我们使用两个上下文视图训练我们的模型，并从三个新的目标视角对每个测试场景的所有方法进行评估。此外，为了评估跨数据集泛化，我们在多视图DTU数据集上评估了所有方法，选择了16个验证场景，每个场景有四个新颖的视角。

我们使用峰值信噪比(PSNR)、结构相似性指数(SSIM)和感知距离(LPIPS)将每种方法产生的新的RGB图像与GT进行比较。我们将输入图像的大小调整为 256 × 256。在所有实验中，候选深度的数量设置为 128。我们在深度感知可变形匹配变换器中采样 P = 4 个可变形点作为主要结果。对于 DepthAnythingV2模块，我们使用基础大小来平衡训练成本和结果质量。所有模型均使用 Adam 优化器在 7 个 RTX 3090 GPU 上以 14 的batch size进行 300,000 次迭代的训练。在推理过程中，我们使用一个 RTX 3090 GPU 来测量速度和内存成本。

4.2 NVS和reconstruction

定量分析：表1中比较了从稀疏视图NVS的SOTA方法和TranSplat。TranSplat在所有指标上的表现都超过了baseline，并且具有很快的推理速度(0.06s比0.08s)。在相同的训练条件下，TranSplat不仅在PSNR和SSIM指标上超过了所有以前的SOTA方法，而且在LPIPS指标上也有所改善，更符合人类的感知。并且与其他SOTA方法相比，TranSplat只需200K次迭代(300K的66%)就能实现卓越的性能，这表明我们基于transformer的架构通过专注于准确的深度候选而提高了收敛效率。

定性分析 ：如图 5 所示。在室内场景 中，第一行展示了具有低纹理区域的场景，这一改进归功于我们的深度感知可变形匹配transformer，它帮助网络聚合长期空间信息并通过注意力机制集中在正确的区域。第二行"室内区域"和第三行的"灯"。这一增强归功于我们的 Depth Refine U-Net，它利用单目深度先验来细化非重叠区域的高斯预测。

与最近最先进的方法MVSplat相比，TranSplat生成了逼真的3D高斯基元。如图6所示。我们的TranSplat方法可以在具有挑战性的场景中生成高质量的深度图，例如具有重复图案的场景(如"墙")。并且我们的方法在生成非重叠区域(例如，右侧屋顶)的3D高斯图方面明显优于其他方法。

4.3跨数据集泛化

TransSplat有显着的泛化优越性，如表2所示。按照MVSplat的设置，我们直接使用训练好的模型在 RealEstate10K（室内数据集）上测试 ACID（室外数据集）和 DTU（以对象为中心的数据集）。我们的方法在跨数据集设置中表现出了出色的泛化能力。这种优势归功于我们的深度感知可变形匹配transformer，它可以随着数据集规模的变化有效地调整注意力区域 。此外，单目深度先验有助于跨不同多视图相机分布进行更广义的高斯参数预测。

在图 7 中展示了更多结果。TranSplat 本质上提高了新视图中的渲染质量，即使场景在外观上存在显着差异。相比之下，MVSplat 的结果包含伪影，表明几何一致性较差。我们的方法为不匹配的区域提供可靠的深度信息，而 MVSplat 倾向于强制拟合训练数据集的深度分布。