香港理工大学最新提出精确重建3D形状的突破性方法

作者:小柠檬 | 来源:3DCV

1.摘要

传统的三维形状表示方法存在离散化和内存占用等问题,而基于深度学习的方法在恢复三维几何结构方面取得了显著的进展。然而,这些方法的离散形状表示受到空间分辨率和内存占用的限制。因此,本文提出了一种新的三维形状表示方法,即射线-表面距离场(RayDF),通过学习射线与表面之间的距离来表示三维形状。与现有的基于坐标和射线的方法相比,RayDF具有更高的效率和更准确的三维几何重建能力。同时,本文还引入了多视角一致性优化模块,以提高学习到的射线-表面距离场在不同视角下的一致性。通过在多个数据集上的实验证明,RayDF方法在三维形状重建的准确性和效率方面优于现有的方法。

2.研究思路

本研究的研究思路是通过神经网络来学习三维形状的表面距离,并保持多视角一致性。我们提出了一种称为RayDF的方法,它包括三个关键组件:

  • 主要的射线-表面距离网络
  • 辅助的双射线可见性分类器
  • 多视角一致性优化模块

3.贡献

  • 我们采用了直观的射线-表面距离场来表示三维形状,这种表示方法比现有的基于坐标的表示更高效。
  • 我们设计了一种新的双射线可见性分类器,用于学习任意一对射线的空间关系,使学到的射线-表面距离场具有多视角几何一致性。
  • 我们在多个数据集上展示了优越的三维形状重建准确性和效率,相比于现有的基于坐标和基于射线的基线方法,取得了显著更好的结果。

4.研究问题的解决方法

通过训练主要的射线-表面距离网络和辅助的双射线可见性分类器,并引入多视角一致性优化模块来训练这两个网络。具体而言,我们的训练模块包括两个阶段:

  • 阶段1:训练双射线可见性分类器。关键是创建正确的数据对,将原始深度值转换为射线-表面距离值,并生成射线对和0/1标签。采用标准的交叉熵损失函数来优化双射线可见性分类器。

  • 阶段2:训练射线-表面距离网络。将所有深度图像转换为射线-表面距离,为特定的3D场景生成训练射线-距离对。通过采样多视角射线并利用训练好的可见性分类器,优化射线-表面距离网络,使其不仅适应已见射线的距离,还能准确估计未见射线的距离,从而实现多视角一致性。

5.RayDF网络结构和训练过程

网络结构

RayDF模型包括主要的射线-表面距离网络、辅助的双射线可见性分类器和多视角一致性优化模块。

训练过程

第一阶段是训练双射线可见性分类器

首先,将所有原始深度值转换为射线-表面距离值。对于第k张图像中的第i条射线(像素),将其射线-表面点投影回剩余的(K-1)个扫描中,得到相应的(K-1)个距离值。设置10毫米作为接近阈值,确定投影的(K-1)条射线在(K-1)个图像中是否可见。总共生成K* H * W * (K-1)对射线,以及0/1标签。采用标准的交叉熵损失函数来优化双射线可见性分类器。

第二阶段是训练射线-表面距离网络

首先,将所有深度图像转换为射线-表面距离,为特定的3D场景生成K * H * W个训练射线-距离对。然后,对于特定的训练射线 <math xmlns="http://www.w3.org/1998/Math/MathML"> { r , d } \left\{r,d\right\} </math>{r,d},称为主射线,我们在以表面点p为球心的球中均匀采样M条射线 <math xmlns="http://www.w3.org/1998/Math/MathML"> { r 1 ... r m ... r M } \left\{r^{1}\dots r^{m}\dots r^{M}\right\} </math>{r1...rm...rM},称为多视角射线。

然后,计算表面点p与沿着每条多视角射线的边界球之间的距离,得到多视角距离 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( d ~ 1 ⋯ d ~ m ⋯ d ~ M ) (\tilde{d}^{1}\cdots \tilde{d}^{m} \cdots\tilde{d}^{M}) </math>(d~1⋯d~m⋯d~M)。

接下来,建立M对射线 <math xmlns="http://www.w3.org/1998/Math/MathML"> { ( r , p , r 1 ) ... ( r , p , r m ) ... ( r , p , r M ) } \left\{\left(r,p,r^1\right)\dots\left(r,p,r^m\right )\dots\left(r,p,r^M\right )\right\} </math>{(r,p,r1)...(r,p,rm)...(r,p,rM)}并将它们输入到训练好的可见性分类器 <math xmlns="http://www.w3.org/1998/Math/MathML"> h Θ h_{\Theta } </math>hΘ中,推断它们的可见性得分 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( v 1 ... v m ... v M ) \left(v^1\dots v^m\dots v^M\right) </math>(v1...vm...vM)。

然后,将主射线和所有采样的M条多视角射线 <math xmlns="http://www.w3.org/1998/Math/MathML"> { r , r 1 ... r m ... r M } \left\{r,r^{1}\dots r^{m}\dots r^{M}\right\} </math>{r,r1...rm...rM}输入到射线-表面距离网络 <math xmlns="http://www.w3.org/1998/Math/MathML"> f Θ f_{\Theta} </math>fΘ中,估计它们的表面距离{ <math xmlns="http://www.w3.org/1998/Math/MathML"> d ^ , d ^ 1 ... d ^ m ... d ^ M {\hat{d},\hat{d}^{1}\dots\hat{d}^{m}\dots\hat{d}^{M}} </math>d^,d^1...d^m...d^M}。

最后,使用多视角一致性损失函数来(公式如下)优化射线-表面距离网络,使其不仅适应主射线的表面距离,还满足可见的多视角射线也具有准确的距离估计。
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> ℓ m v = 1 ∑ m = 1 M v m + 1 ( ∣ d ^ − d ∣ + ∑ m = 1 M ( ∣ d ^ m − d ~ m ∣ ∗ v m ) ) \ell {mv} = \frac{1}{ {\textstyle \sum{m=1}^{M}v_{m}+1} } \left (\left | \hat{d}-d \right |+\sum_{m=1}^{M} \left ( \left | \hat{d}^{m}-\tilde{d}^{m} \right | *v^m \right ) \right ) </math>ℓmv=∑m=1Mvm+11(∣ ∣d^−d∣ ∣+m=1∑M(∣ ∣d^m−d~m∣ ∣∗vm))

6.创新点

主要体现在以下几个方面:

  • 提出了一种新的神经网络模型,称为RayDF,用于学习三维场景的表面距离。与传统的基于点云或体素的方法不同,RayDF利用射线与表面的交点来表示场景的几何形状,从而更准确地捕捉细节和形状变化。

  • 引入了多视角一致性约束,通过训练网络来学习不同视角下的一致性信息。这种约束可以提高模型在新视角下的泛化能力,使其能够更好地处理未见过的场景。

  • 提出了双射线可见性分类器,用于判断射线是否与表面相交。这个分类器可以帮助网络学习更准确的表面距离,并提高模型在测试阶段的性能。

  • 在实验中,本研究在多个真实世界的三维数据集上进行了评估,并与其他基线方法进行了比较。

7.实验方法

本研究采用了两组实验方法进行评估。 第一组实验方法是基于多视角深度图像的三维形状表示。在这组实验中,我们使用了多视角深度图像作为输入,通过训练模型来学习三维场景的形状表示。我们与其他基线方法进行了比较,包括OF、DeepSDF、NDF、NeuS、DS-NeRF、LFN和PRIF。通过对六个ScanNet数据集场景的评估,我们发现我们的方法在ADE指标上表现明显优于其他方法,展示了我们方法在显式表面恢复方面的明显优势。 第二组实验方法是基于多视角RGB图像和深度图像的三维形状和外观表示。在这组实验中,我们使用了多视角RGB图像和深度图像作为输入,通过训练模型来学习三维场景的形状和外观表示。我们与NeuS、DS-NeRF、LFN和PRIF等基线方法进行了比较。通过对DM-SR数据集的评估,我们发现我们的方法在ADE指标上再次超越了所有基线方法,展示了我们方法在形状恢复方面的优势。同时,我们的方法在PSNR、SSIM和LPIPS等指标上也取得了可比较的性能。

8.结论

本文的研究旨在提出一种称为RayDF的方法,用于准确地表示三维形状。该方法基于射线-表面距离场的概念,通过训练一个主要的射线-表面距离网络和一个辅助的双射线可见性分类器,以及一个多视角一致性优化模块来实现。主要网络直接将射线作为输入,并推断射线起点与其在表面上的击中点之间的距离。辅助网络则以一对射线作为输入,并预测它们的相互可见性。通过训练辅助网络,可以有效地利用学到的双射线可见性来训练主网络,从而使学到的射线-表面距离在任何已见或未见的视角下保持多视角一致性。 研究结果表明,相比于现有的基于坐标的表示方法,RayDF方法在效率上具有优势,而相比于现有的基于射线的方法,RayDF方法在学习准确的三维几何形状方面表现出色。在多个数据集上的实验证明了RayDF方法在三维形状重建的准确性和效率方面的优越性。

相关推荐
一勺汤2 小时前
YOLO11改进-注意力-引入多尺度卷积注意力模块MSCAM
yolo·目标检测·计算机视觉·改进·魔改·yolov11·yolov11改进
西西弗Sisyphus3 小时前
开放世界目标检测 Grounding DINO
人工智能·目标检测·计算机视觉·大模型
风清扬雨4 小时前
【计算机视觉】超简单!傅里叶变换的经典案例
人工智能·计算机视觉
YangJZ_ByteMaster6 小时前
EndtoEnd Object Detection with Transformers
人工智能·深度学习·目标检测·计算机视觉
请站在我身后9 小时前
最新的强大的文生视频模型Pyramid Flow 论文阅读及复现
论文阅读·人工智能·神经网络·计算机视觉·stable diffusion·transformer
伊一大数据&人工智能学习日志9 小时前
OpenCV计算机视觉 02 图片修改 图像运算 边缘填充 阈值处理
人工智能·opencv·计算机视觉
一勺汤12 小时前
YOLOv8模型改进 第二十五讲 添加基于卷积调制(Convolution based Attention) 替换自注意力机制
深度学习·yolo·计算机视觉·模块·yolov8·yolov8改进·魔改
西西弗Sisyphus14 小时前
基于推理的目标检测 DetGPT
目标检测·计算机视觉
伊一大数据&人工智能学习日志14 小时前
OpenCV计算机视觉 01 图像与视频的读取操作&颜色通道
人工智能·opencv·计算机视觉
18号房客15 小时前
计算机视觉-人工智能(AI)入门教程一
人工智能·深度学习·opencv·机器学习·计算机视觉·数据挖掘·语音识别