香港理工大学最新提出精确重建3D形状的突破性方法

作者：小柠檬 | 来源：3DCV

1.摘要

传统的三维形状表示方法存在离散化和内存占用等问题，而基于深度学习的方法在恢复三维几何结构方面取得了显著的进展。然而，这些方法的离散形状表示受到空间分辨率和内存占用的限制。因此，本文提出了一种新的三维形状表示方法，即射线-表面距离场（RayDF），通过学习射线与表面之间的距离来表示三维形状。与现有的基于坐标和射线的方法相比，RayDF具有更高的效率和更准确的三维几何重建能力。同时，本文还引入了多视角一致性优化模块，以提高学习到的射线-表面距离场在不同视角下的一致性。通过在多个数据集上的实验证明，RayDF方法在三维形状重建的准确性和效率方面优于现有的方法。

2.研究思路

本研究的研究思路是通过神经网络来学习三维形状的表面距离，并保持多视角一致性。我们提出了一种称为RayDF的方法，它包括三个关键组件：

主要的射线-表面距离网络
辅助的双射线可见性分类器
多视角一致性优化模块

3.贡献

我们采用了直观的射线-表面距离场来表示三维形状，这种表示方法比现有的基于坐标的表示更高效。
我们设计了一种新的双射线可见性分类器，用于学习任意一对射线的空间关系，使学到的射线-表面距离场具有多视角几何一致性。
我们在多个数据集上展示了优越的三维形状重建准确性和效率，相比于现有的基于坐标和基于射线的基线方法，取得了显著更好的结果。

4.研究问题的解决方法

通过训练主要的射线-表面距离网络和辅助的双射线可见性分类器，并引入多视角一致性优化模块来训练这两个网络。具体而言，我们的训练模块包括两个阶段：

阶段1：训练双射线可见性分类器。关键是创建正确的数据对，将原始深度值转换为射线-表面距离值，并生成射线对和0/1标签。采用标准的交叉熵损失函数来优化双射线可见性分类器。
阶段2：训练射线-表面距离网络。将所有深度图像转换为射线-表面距离，为特定的3D场景生成训练射线-距离对。通过采样多视角射线并利用训练好的可见性分类器，优化射线-表面距离网络，使其不仅适应已见射线的距离，还能准确估计未见射线的距离，从而实现多视角一致性。

5.RayDF网络结构和训练过程

网络结构

RayDF模型包括主要的射线-表面距离网络、辅助的双射线可见性分类器和多视角一致性优化模块。

训练过程

第一阶段是训练双射线可见性分类器

首先，将所有原始深度值转换为射线-表面距离值。对于第k张图像中的第i条射线（像素），将其射线-表面点投影回剩余的（K-1）个扫描中，得到相应的（K-1）个距离值。设置10毫米作为接近阈值，确定投影的（K-1）条射线在（K-1）个图像中是否可见。总共生成K* H * W * (K-1)对射线，以及0/1标签。采用标准的交叉熵损失函数来优化双射线可见性分类器。

第二阶段是训练射线-表面距离网络

首先，将所有深度图像转换为射线-表面距离，为特定的3D场景生成K * H * W个训练射线-距离对。然后，对于特定的训练射线 ${ r , d } \left\{r,d\right\}$ {r,d}，称为主射线，我们在以表面点p为球心的球中均匀采样M条射线 ${ r 1 ... r m ... r M } \left\{r^{1}\dots r^{m}\dots r^{M}\right\}$ {r1...rm...rM}，称为多视角射线。

然后，计算表面点p与沿着每条多视角射线的边界球之间的距离，得到多视角距离 $( d ~ 1 ⋯ d ~ m ⋯ d ~ M ) (\tilde{d}^{1}\cdots \tilde{d}^{m} \cdots\tilde{d}^{M})$ (d~1⋯d~m⋯d~M)。

接下来，建立M对射线 ${ ( r , p , r 1 ) ... ( r , p , r m ) ... ( r , p , r M ) } \left\{\left(r,p,r^1\right)\dots\left(r,p,r^m\right )\dots\left(r,p,r^M\right )\right\}$ {(r,p,r1)...(r,p,rm)...(r,p,rM)}并将它们输入到训练好的可见性分类器 $h Θ h_{\Theta }$ hΘ中，推断它们的可见性得分 $( v 1 ... v m ... v M ) \left(v^1\dots v^m\dots v^M\right)$ (v1...vm...vM)。

然后，将主射线和所有采样的M条多视角射线 ${ r , r 1 ... r m ... r M } \left\{r,r^{1}\dots r^{m}\dots r^{M}\right\}$ {r,r1...rm...rM}输入到射线-表面距离网络 $f Θ f_{\Theta}$ fΘ中，估计它们的表面距离{ $d ^ , d ^ 1 ... d ^ m ... d ^ M {\hat{d},\hat{d}^{1}\dots\hat{d}^{m}\dots\hat{d}^{M}}$ d^,d^1...d^m...d^M}。

最后，使用多视角一致性损失函数来（公式如下）优化射线-表面距离网络，使其不仅适应主射线的表面距离，还满足可见的多视角射线也具有准确的距离估计。
$ℓ m v = 1 ∑ m = 1 M v m + 1 ( ∣ d ^ − d ∣ + ∑ m = 1 M ( ∣ d ^ m − d ~ m ∣ ∗ v m ) ) \ell$ {mv} = \frac{1}{ {\textstyle \sum{m=1}^{M}v_{m}+1} } \left (\left | \hat{d}-d \right |+\sum_{m=1}^{M} \left ( \left | \hat{d}^{m}-\tilde{d}^{m} \right | *v^m \right ) \right ) ℓmv=∑m=1Mvm+11(∣ ∣d^−d∣ ∣+m=1∑M(∣ ∣d^m−d~m∣ ∣∗vm))

6.创新点

主要体现在以下几个方面：

提出了一种新的神经网络模型，称为RayDF，用于学习三维场景的表面距离。与传统的基于点云或体素的方法不同，RayDF利用射线与表面的交点来表示场景的几何形状，从而更准确地捕捉细节和形状变化。
引入了多视角一致性约束，通过训练网络来学习不同视角下的一致性信息。这种约束可以提高模型在新视角下的泛化能力，使其能够更好地处理未见过的场景。
提出了双射线可见性分类器，用于判断射线是否与表面相交。这个分类器可以帮助网络学习更准确的表面距离，并提高模型在测试阶段的性能。
在实验中，本研究在多个真实世界的三维数据集上进行了评估，并与其他基线方法进行了比较。

7.实验方法

本研究采用了两组实验方法进行评估。第一组实验方法是基于多视角深度图像的三维形状表示。在这组实验中，我们使用了多视角深度图像作为输入，通过训练模型来学习三维场景的形状表示。我们与其他基线方法进行了比较，包括OF、DeepSDF、NDF、NeuS、DS-NeRF、LFN和PRIF。通过对六个ScanNet数据集场景的评估，我们发现我们的方法在ADE指标上表现明显优于其他方法，展示了我们方法在显式表面恢复方面的明显优势。第二组实验方法是基于多视角RGB图像和深度图像的三维形状和外观表示。在这组实验中，我们使用了多视角RGB图像和深度图像作为输入，通过训练模型来学习三维场景的形状和外观表示。我们与NeuS、DS-NeRF、LFN和PRIF等基线方法进行了比较。通过对DM-SR数据集的评估，我们发现我们的方法在ADE指标上再次超越了所有基线方法，展示了我们方法在形状恢复方面的优势。同时，我们的方法在PSNR、SSIM和LPIPS等指标上也取得了可比较的性能。

8.结论

本文的研究旨在提出一种称为RayDF的方法，用于准确地表示三维形状。该方法基于射线-表面距离场的概念，通过训练一个主要的射线-表面距离网络和一个辅助的双射线可见性分类器，以及一个多视角一致性优化模块来实现。主要网络直接将射线作为输入，并推断射线起点与其在表面上的击中点之间的距离。辅助网络则以一对射线作为输入，并预测它们的相互可见性。通过训练辅助网络，可以有效地利用学到的双射线可见性来训练主网络，从而使学到的射线-表面距离在任何已见或未见的视角下保持多视角一致性。研究结果表明，相比于现有的基于坐标的表示方法，RayDF方法在效率上具有优势，而相比于现有的基于射线的方法，RayDF方法在学习准确的三维几何形状方面表现出色。在多个数据集上的实验证明了RayDF方法在三维形状重建的准确性和效率方面的优越性。