无需姿态，即刻重建！NoPoSplat，重新定义3DGS的重建Pipeline

导读：

3D Gaussian Splatting(3DGS)目前已经在多个领域展现出巨大的应用潜力，尤其是在虚拟现实、增强现实和计算机图形学中。通过使用多视角图像技术，3DGS能够从不同的视角合成出真实世界的三维模型。

尽管3DGS的应用前景广阔，但其实施过程却面临着不少挑战。传统的三维重建方法通常依赖于准确的相机姿态信息，这在实际操作中并不容易获得，而其应用场景往往都处于一个动态或复杂的环境，如何在缺乏精确姿态输入的情况下实现高质量的三维重建，成为了亟待解决的关键问题。

针对上述挑战，作者提出了NoPoSplat的创新方法，它能够从没有位姿的稀疏图像中高效重建三维场景。该模型仅依靠光度损失进行训练，能够实时生成3DGS模型。实验结果表明，在新视角图像的合成质量方面，该方法超越了传统需要姿态信息的方法，特别是在输入图像重叠有限的情况下，展示了出色的重建效果。

1 引入

研究人员解决了从未定位的稀疏视图图像（仅需两个）中重建由3D高斯分布参数化的三维场景的问题，并采用了一种前馈网络。虽然目前一些最先进的通用三维重建方法能够在没有逐场景优化的情况下实现真实感结果，但它们通常需要准确的输入视图相机姿态。这些姿态通常通过结构光重建方法从密集视频中获取，这在实际应用中并不切实际，因为这些方法即使只使用两个帧进行三维重建，也需要密集视频中的姿态。此外，依赖现成的姿态估计方法会增加推理时间，并可能在无纹理区域或图像重叠不足的情况下失败。

最近的一些方法旨在通过将姿态估计与三维场景重建集成到一个单一的流程中来解决这一挑战。然而，这些方法生成的新视角渲染质量往往不及那些依赖已知相机姿态的最先进方法。性能差距源于这些方法在姿态估计和场景重建之间交替的顺序处理。姿态估计中的错误会降低重建质量，进而导致姿态估计的进一步不准确，从而产生累积效应。为了应对这一问题，一些工作展示了完全不依赖相机姿态进行场景重建的可行性，从而消除了姿态估计的需求。他们通过直接预测规范空间中的场景高斯表达，借鉴了最近的三维点云重建方法的成功。

此外，近期的关于3DGS的研究还发现相机的焦距在解决尺度歧义问题中至关重要，因为模型的场景重建仅基于图像外观，而图像外观受到焦距的影响。为了解决这一问题，他们设计并比较了不同的相机内参嵌入方法，最终确定将内参直接转换为特征标记并与输入图像标记连接，可以使网络在预测场景尺度时表现最佳。在成功重建了3DGS之后，将其用于新视角合成和姿态估计。对于姿态估计，他们引入了一种两阶段的流程，首先通过将相关算法应用于高斯中心来获得初步姿态估计，然后通过在估计的姿态下渲染场景，进一步优化与输入视图的对齐。

实验结果表明，这些方法在新视角合成和姿态估计任务中均表现出色。在新视角合成方面，该方法首次证明了在相同数据集和设置下，无需姿态的信息可以优于依赖姿态的方法，特别是在输入图像重叠较小的情况下。在姿态估计方面，他们的方法在多个基准测试中显著超越了现有的技术。同时，这种方法还在处理分布外数据时表现出良好的泛化能力，能够应用于用户提供的图像，以重建基础的三维场景并渲染新视角。

本研究的主要贡献包括提出了一种前馈网络，可以从未定位的稀疏视图输入中重建三维场景，并证明其可以仅通过光度损失进行训练。同时，近期的关于3DGS的研究解决了重建高斯的尺度歧义问题，并设计了一种两阶段流程来估计相机姿态。实验结果显示，该方法在新视角合成和姿态估计任务中取得了显著性能，并可广泛应用于实际数据中。

2 具体方法与实现

图1｜全文方法总览©️【深蓝AI】编译

如图1 所示：针对稀疏未定位的图像，本文方法利用前馈网络在规范空间中重建不同视图的3D高斯分布。重建得到的3D高斯可以用于准确的相对相机姿态估计和高质量的新视角合成。该方法的输入内容是稀疏的多视角图像以及对应的相机内参。该方法的实现主要由三个部分组成，分别是编码器，解码器和高斯参数预测结构，这三个部分决定了3DGS的单位场景重建，当完成对于每个场景的3DGS重建之后，通过高斯空间整合，最终在canonical space中生成最终的3DGS表达，并进行训练迭代和优化，笔者将按照这个顺序对方法部分进行介绍。

2.1 编码器与解码器

编码器和解码器均采用纯视觉变换器（ViT）结构，而不注入任何几何先验（如在pixelSplat中使用的视差约束，或在MVSplat中的代价体积）。在编码器中，RGB图像被切分成小块并展平为图像标记序列，然后与内在标记进行拼接。来自每个视图的拼接标记被分别输入到ViT编码器中。编码器对不同视图共享相同的权重。接下来，编码器的输出特征被输入到ViT解码器模块中，其中每个视图的特征通过交叉注意力层与其他视图的特征进行交互，促进多视图信息的整合。编码器和解码器的作用主要就是通过ViT将不同的图像都正和岛同一个特征空间，这样可以最大程度的利用多视角观测捕捉的全局信息，以及通过重叠的特征为后续的位姿估计提供先验，这种策略在多视图几何中比较常见。

2.2 高斯参数预测结构

为了预测高斯参数，本文采用了基于DPT架构的两个预测头。第一个头侧重于预测高斯中心位置，仅利用从变换器解码器提取的特征。第二个头预测其余的高斯参数，并将RGB图像作为输入，确保纹理信息的直接传递，这对捕捉3D重建中的细节至关重要。这种方法弥补了由ViT解码器输出的高层特征，这些特征经过16倍下采样，主要是语义信息，缺乏详细的结构信息。从图2可以看出，通过高斯参数预测结构得到的参数重建的3DGS在几何表征和尺度上都能够得到更好，更统一的结果。
图2｜不同高斯策略对比©️【深蓝AI】编译

2.3 高斯空间整合

虽然该方法在预测输入图像的像素级高斯时与以往研究有相似之处，但在输出高斯空间上有所不同。在这一部分，作者首先讨论了以往方法中的局部到全局高斯空间及其固有的局限性，并介绍了规范高斯空间，也就是canonical space。

首先，在以往的3DGS研究中，过去的方法首先预测每个像素的深度，然后利用预测的深度和相机内参将高斯参数提升到每个单独帧的局部坐标系中的高斯表达。这些局部高斯随后使用每个输入视图的给定相机姿态转换到世界坐标系。最后，所有转换后的高斯被融合以表示潜在场景。然而，这一策略存在两个主要问题：一是将高斯从局部坐标转换到全局坐标需要准确的相机姿态，而在稀疏输入视图的实际场景中，这些姿态难以获取；二是转换后融合方法在将来自不同视图的3D高斯组合成一个一致的全局表示时存在困难，尤其是当输入视图之间重叠较少时，或在推广到分布外数据时。

相较之下，研究者们直接在规范坐标系中输出不同视图的高斯。具体而言，他们将第一个输入视图作为全局参考坐标系，因此第一个输入视图的相机姿态为单位矩阵和零平移向量。网络在此规范空间中输出所有输入视图的高斯。对于每个输入视图，研究者们预测的高斯参数包括其在第一个视图局部坐标系下的高斯中心位置等。这种直接在规范空间中预测的方式带来了多个好处：首先，网络可以直接在规范空间中融合不同视图，消除对相机姿态的依赖；其次，跳过转换后融合步骤可以产生一致的全局表示，从而进一步解锁对未定位视图的姿态估计应用。

这一步中，还涉及到相机内参的问题，在前文中，相机内参这个概念经过多次铺垫，在这里终于可以进行详细的展开，正如前面提到的，该网络的输入还包括每个输入视图的相机内参。这是为了解决固有的尺度错位问题，并提供必要的几何信息，从而提高3D重建质量。研究者们介绍了三种不同的策略来将相机内参嵌入到模型中。

**1、基于内参嵌入加法：**一种直接的策略是将相机内参输入到线性层中，获取全局特征。然后，该特征被广播并加到RGB图像特征上。

**2、基于拼接内参嵌入：**在获得全局特征后，将其视为额外的内参标记，并与所有图像标记拼接。

**3、基于密集内参嵌入：**对于输入视图中的每个像素，可以获得相机光线方向。这些每像素的相机光线随后使用球面调和函数转换为更高维特征，并与RGB图像拼接作为网络输入。值得注意的是，这种逐像素的嵌入可以视为广泛使用的普鲁克射线嵌入的简化形式，因为它不需要相机的外参信息。

2.4 训练与推理

预测的3D高斯用于在新视角下渲染图像。该网络通过真实目标RGB图像进行端到端训练。研究者们还使用均方误差（MSE）和LPIPS的线性组合进行损失计算。如前所述，由于3D高斯位于规范空间，可以直接用于相对姿态估计。为了实现高效的姿态估计，研究者们提出了一种两步法。首先，利用输出高斯的中心在世界坐标中的位置，应用PnP算法获得输入两个视图的初步相对相机姿态。这一步非常高效，通常在毫秒内完成。

接下来，在保持高斯参数不变的情况下，通过优化相同的光度损失来细化初步姿态估计，同时结合结构相似性损失进行优化。给定未定位的图像对，该方法学习重建一个合理的三维场景以与给定输入对齐。然而，仅凭两个输入视图进行三维场景重建本质上是模糊的，因为许多不同场景可以生成相同的两幅图像。因此，尽管通过该方法生成的场景成功解释了输入视图，但它可能与验证数据集中真实场景并不完全一致。为了与其他基线方法进行公平比较，尤其是那些使用真实相机姿态的基线，研究者们遵循了以往的无姿态方法，通过优化目标视图的相机姿态，使得从目标视角渲染的图像尽可能接近真实图像。需要强调的是，这一优化仅用于评估目的，实际应用时并不需要使用该方法。

3 实验

本文的实验部分主要涉及到数值量化实验，可视化实验，首先作者进行的数值实验。

从图3和图4中的实验结果能够看出，本文的方法能够在多个数据集中取得SOTA的效果，即便是与将POSE作为输入的方法相比其效果也不遑多让，接下来是可视化实验。
图5｜室内重建可视化©️【深蓝AI】编译图6｜单目视觉重建可视化©️【深蓝AI】编译图7｜室外大场景重建可视化©️【深蓝AI】编译

图5、6、7分别是室内场景，室外场景和大场景的可视化重建实验，都进行了与SOTA方法的对比，能够看出来本文方法在重建尺度，统一性，以及重建质量上的领先，这一点在新视角合成方面尤其明显，如图6中第二排的不同视角渲染，以及图7中的Novel Views部分。

4 总结

NoPoSplat是一种简洁而高效的无姿态通用稀疏视图三维重建方法。它通过直接从未定位的多视图图像中预测三维高斯分布，在标准空间中进行处理，从而在新视角合成和相对姿态估计任务中展现了卓越的性能。尽管目前该方法主要适用于静态场景，但将其扩展到动态场景将是未来一个引人入胜的研究方向，值得进一步探索。

Ref：

NO POSE, NO PROBLEM: SURPRISINGLY SIMPLE 3D GAUSSIAN SPLATS FROM SPARSE UNPOSED IMAGES
编译｜阿豹
审核｜fafa

第二届线下自主机器人研讨会（ARTS）即将召开👇
第二届ARTS报名入口即详情须知
 第二届ARTS奖学金通知
 ARTS 2024 学术辩论通知抢"鲜"发布