文章:https://arxiv.org/pdf/2501.17655
标题:FeatureGS: Eigenvalue-Feature Optimization in 3D Gaussian Splatting for Geometrically Accurate and Artifact-Reduced Reconstruction
文章目录
- 摘要
- 一、引言
- 二、相关工作:3D特征
- 三、算法
-
- [3.1 Photometric Loss 光度损失](#3.1 Photometric Loss 光度损失)
- [3.2 Geometric Loss](#3.2 Geometric Loss)
-
- [3.2.1 Covariance Matrix](#3.2.1 Covariance Matrix)
- [3.2.2 Eigenvalue Normalization 特征值归一化](#3.2.2 Eigenvalue Normalization 特征值归一化)
- [3.2.3 Gaussians Geometric Loss](#3.2.3 Gaussians Geometric Loss)
- [3.2.4 Gaussians Neighborhoods Geometric Loss](#3.2.4 Gaussians Neighborhoods Geometric Loss)
- [3.3 光度-几何损失](#3.3 光度-几何损失)
- 四、实验
- 总结
摘要
三维高斯溅射(3DGS)是一种功能强大的利用三维高斯数据重建三维场景的方法。然而,高斯模型的中心和表面都不能精确地对齐 ,这使得它们在点云和网格重建中的直接使用复杂化。此外,3DGS通常会产生artifacts,从而增加高斯数和存储需求。
为了解决这些问题,我们提出了FeatureGS,它将一个基于特征值导出的三维形状特征的附加几何损失项合并到3DGS的优化过程中。目的是提高局部三维邻域的几何精度,提高平面表面结构熵的性质。我们提出了基于高斯分布的"平面性planarity",以及高斯邻域的"平面度planarity"、"全方差omnivariance"和"特征熵eigenentropy"的几何损失项的四种可选公式 。我们对DTU基准数据集的15个场景进行了定量和定性的评估,重点关注以下关键方面:几何精度和伪影减少,由倒角距离测量,和内存效率,由高斯的总数评估。此外,渲染质量是由峰值信噪比监测的。FeatureGS在几何精度方面提高了30%,减少了90%的高斯数,并抑制了浮动伪影,同时保持了可比的光度渲染质量。高斯函数的"平面性"几何损失提供了最高的几何精度,而高斯邻域的"全方差"最多地减少了漂浮物的人为因素和高斯函数的数量。这使得FeatureGS成为一种几何精确、伪影减少和记忆有效的三维场景重建的强方法,从而能够直接使用高斯中心进行几何表示。
提示:以下是本篇文章正文内容,下面案例可供参考
一、引言
自神经辐射场(NeRFs)[18]的引入以来,几何三维场景重建的创建发展迅速。在nerf中,一个网络通过估计每个位置和方向的颜色和体积密度来隐式地描述场景。相比之下,三维高斯溅射(3DGS)为三维场景和点云重建提供了新的可能性,因为它通过三维高斯分布来表示场景。这些都是椭球状的结构,以缩放、旋转和颜色为特征。在优化过程中,将三维高斯分布投影到图像上。为了最小化渲染图像和训练图像之间的光度误差,对高斯分布进行了细化和适应。与NeRF不同,3DGS中的高斯分布明确地表示了据称存在几何信息的场景。然而,高斯分布的中心和表面并不能直接代表物体表面,这使得它们直接用于三维点云和网格重建显得不切实际。此外,3DGS经常会导致浮动工件,这进一步增加了已经很高的高斯函数,从而增加了存储需求。
在这项工作中,我们提出了FeatureGS,它包含了四种基于特征值导出的三维形状特征的附加几何损失项的不同公式到3DGS的优化过程中。三维形状特征被广泛应用于语义解释和点云分类[25,26]的任务。因此,由一个点及其局部邻域推导出的三维协方差矩阵(三维结构张量)是描述这种形状性质[25]的著名特征。三个特征值 λ 1 ≥ λ 2 ≥ λ 3 ≥ 0 λ_1≥λ_2≥λ_3≥0 λ1≥λ2≥λ3≥0对应于一个正交的特征向量系统( ϵ 1 , ϵ 2 , ϵ 3 ϵ_1,ϵ_2,ϵ_3 ϵ1,ϵ2,ϵ3),表示三个椭球主轴的方向(旋转),对应于三维椭球沿主轴的范围(尺度)。根据特征值的行为,可以描述λ1、λ2和λ3的结构。FeatureGS旨在提高高斯分布的几何精度,通过降低结构熵的局部三维邻域增强平面曲面的性质。首先,与之前的扁平化方法[3,6,9,11]一样,FeatureGS的目标是通过增强高斯特征的"平面性"作为三维特征来实现三维高斯特征的扁平化,以获得更高的高斯中心几何精度。其次,点云的真实物理情况可以用single value[10]的可解释的几何特征来描述。为了增强邻域中三维高斯中心的结构表示,特别是对于与曼哈顿-词假设的人造对象(曼哈顿世界假设Manhattan World Assumption 假设人造环境中的主要结构(如墙壁、地板、天花板等)倾向于沿着三个正交的主方向(通常是笛卡尔坐标系的 xyz 轴)对齐),我们利用了由每个高斯分布的k-最近邻(kNN)得到的邻域三维特征。通过在几何损失中加入"平面性"、"全方差"或"特征熵"的三维特征,加强了具有结构熵的平面为优势的局部三维结构的表征。
我们研究了FeatureGS的不同几何损失项的结合是否可以通过加强高斯和高斯邻域的特定三维形状特性来提高高斯中心的三维几何精度和抑制伪影。评估的重点是倒角云到云的距离,以实现几何三维精度和伪影减少,以及表示场景的记忆效率所需的高斯数总数。虽然我们的主要目标是实现精确的几何表示和有效的内存使用,但我们还报告了渲染质量,通过峰值信噪比(PSNR)来测量,以确保场景重建的一致性。对来自DTU基准数据集的15个场景进行了实验。
通过将三维形状特征属性集成到三维高斯飞溅的优化过程中,FeatureGS在几何精度、浮动伪影抑制和记忆效率之间取得了显著的平衡。FeatureGS提高了几何精度,使高斯中心可以作为一个更精确的几何表示。此外,FeatureGS减少了表示与3DGS相同渲染质量的场景所需的高斯数总数。所得到的三维场景重建与高精度高斯中心的几何表示是伪影减少和记忆效率。
二、相关工作:3D特征
有几种类型的三维特征用于基于点云的应用程序,如分类、配准或校准。不能直接解释的复杂特征是描述符,如形状上下文3D(SC3D)[8]、定向直方图的签名(SHOT)[22]或快速点特征直方图(FPFH)[20]。相比之下,可解释特征,如局部二维和三维形状特征。为了描述三维点周围的低结构,通常考虑局部邻域中其他三维点的空间排列。因此,三维协方差矩阵,也被称为三维结构张量,是众所周知的,适合于表征三维数据的形状性质。
它是从点本身和它的局部邻居显式地导出的。三个特征值 λ 1 ≥ λ 2 ≥ λ 3 ≥ 0 λ_1≥λ_2≥λ_3≥0 λ1≥λ2≥λ3≥0对应于一个正交的特征向量系统( ϵ 1 , ϵ 2 , ϵ 3 ϵ_1,ϵ_2,ϵ_3 ϵ1,ϵ2,ϵ3) ,表示三个椭球主轴的方向(旋转),对应于三维椭球沿主轴的范围(尺度)。基于特征值λ1、λ2和λ3的行为,可以描述线性( λ 1 ≫ λ 2 , λ 3 λ_1≫λ_2,λ_3 λ1≫λ2,λ3)、平面( λ 1 ≈ λ 2 ≫ λ 3 λ_1≈λ_2≫λ_3 λ1≈λ2≫λ3)和球形( λ 1 ≈ λ 2 ≈ λ 3 λ_1≈λ_2≈λ_3 λ1≈λ2≈λ3)结构 。在过去的几十年里,几何三维形状特征的使用已经在不同的领域发表了成千上万的出版物。它们特别用于点云的自动语义解释和分类[24--26]。也用于三维点云的校准[10]或配准[2]
三、算法
使用一个基于三维形状特征的附加几何损失项来描述FeatureGS (图1)。这些特征是由协方差矩阵的特征值推导出来的,并为每个高斯及其邻域高斯的空间结构提供了insights。几何损失与3DGS中使用的光度损失相结合,创建了光度-几何损失。
3.1 Photometric Loss 光度损失
光度损失使用像素级比较,度量渲染图像和真实图像之间的相似性,包括L1损失和结构相似性指数(SSIM)项,以捕捉图像之间的亮度、对比度和结构上的差异:

3.2 Geometric Loss
基于特征值推导出的三维形状特征,我们引入了四种不同的新型附加几何损失项,以增强三维高斯分布本身和邻域高斯分布中心的特定性质 (见图2)。对于 第一种方法,目标是压平(flatten)高斯 ,以实现高斯中心的高几何精度。这是通过将几何损失项中每个高斯值本身的特征值(scale)(图3a)的三维形状特征"平面性"来实现的; 对于第二种方法,使用协方差矩阵(每个高斯中心的k(kNN)最近邻(图3b)的三维形状特征 ,加入一个基于邻域的几何损失项。为了增强与Manhattan-Word-Assumption一致的人造物体局部三维结构的具体表征,我们加强了平面表面的优势和结构熵(predominance of planar surfaces, structural entropy)。这是通过高斯邻域三维形状特征"平面性"、"全方差"和"特征熵"来完成的,即planarity,omnivariance以及eigenentropy。

3.2.1 Covariance Matrix
高斯 。3DGS是一种场景的显式三维表示,每个点的特征是缩放、旋转和颜色,包括不透明度。缩放分量可以类似于协方差矩阵的三个特征值 s 1 ≥ s 2 ≥ s 3 ≥ 0 s_1 ≥ s_2 ≥ s_3 ≥ 0 s1≥s2≥s3≥0,旋转分量可以解释为协方差矩阵的特征向量 ( ε 1 、 ε 2 、 ε 3 ) (ε_1、ε_2、ε_3) (ε1、ε2、ε3)。通过使用高斯协方差矩阵的归一化特征值(尺度)(图3a),我们计算了三维形状特征。
高斯邻域 。三维空间中高斯的中心点 p 0 p_0 p0,它的k近邻{ p 1 , p 2 , . . . , p k p_1,p_2,...,p_k p1,p2,...,pk}。该邻域的质心 ,以及邻域(图3b)的协方差矩阵计算为:

3.2.2 Eigenvalue Normalization 特征值归一化

然后将归一化的特征值 s 1 ′ s 2 ′ s 3 ′ s'_1s'_2s'_3 s1′s2′s3′和 λ 1 ′ λ 2 ′ λ 3 ′ λ'_1λ'_2λ'_3 λ1′λ2′λ3′按降序排列
3.2.3 Gaussians Geometric Loss
平面性 度量了高斯分布与平面结构相似的程度;平面性高斯损失,偏向于高平面性:

3.2.4 Gaussians Neighborhoods Geometric Loss
为了增强人造物体的三维点云所表现出的结构特性,我们使用每个点的k-近邻合并了一个基于邻居的几何损失 。通过几何邻域损失,实现了局部邻域中具有减少的结构熵的平面表面的表征。
Neighborhood Planarity。 与保持单个高斯的平面性类似,我们希望根据Manhattan-Word-Assumption和其他(几乎)平面表面来增强人造物的性质,并抑制高斯在邻域内的球面扩散 。因此,除了高斯分布的平面性外,我们还利用邻域的平面性 ,以及对应的neighborhood planarity loss:

Neighborhood Omnivariance。 全方差表示邻域的体积,并表示点是否分散在局部各个方向上,是点云分类的一个高度相关的特征。最小化邻域全方差损失,能减少点的局部分散:

Neighborhood Eigenentropy。 特征熵通过基于归一化特征值测量局部三维邻域内的熵来量化邻域点局部结构的有序/无序性,是一个很好的三维特征来表征平面点云结构。特征熵和邻域特征熵损失定义如下,最小化邻域特征熵损失有利于最小化无序性,从而降低三维点的熵

3.3 光度-几何损失

四、实验
数据集与指标 。数据采用DTU,由真实对象场景 组成,包括49或64张RGB图像、相应的相机姿态,以及从结构化光扫描仪(SLS)获得的参考点云。评估采用了三维几何精度,需要表示场景的高斯数(兼顾效率和渲染质量)。三维评估采用了倒角cloud-to-cloud距离 。表面精度的评估,使用DTU评估程序[14],它mask out了10 mm以上的点 (后处理:剔除距离参考表面即GT表面超过 10 mm 的点,来过滤掉重建结果中的噪声和离群点,从而提高表面精度评估的可靠性)。此外,我们对所有点使用倒角cloud-to-cloud距离来评估对象外部的floater artifacts的存在。低倒角距离表明高精度和较少的伪影。使用dB中的峰值信噪比(PSNR)来评估图像的二维渲染质量
实验配置。采用NVIDIA RTX3090 GPU上,学习率为:球谐特征0.0025,不透明度调整为0.05,缩放操作为0.005,旋转转换为0.001。训练3DGS15 000次迭代,为了进行公平的比较,我们考虑达到相同PSNR值时提前停止训练。
优化的光度损失由式1中的损失函数给出,默认为θ = 0.2。公式12选择了 h p h o t o h_{photo} hphoto = 0.05的加权 。这是基于超参数调优,见图7,以在渲染质量和几何精度之间创建一个适当的平衡。随着高斯分布的三维分布及其中心通过优化而发生变化,我们确定了一个固定数量的kNN = 50 [26]的近邻。 通过训练过程中点的变量分布和密度,我们的目标是实现类似于多尺度[1]邻域的效果,这在点云分类任务中已被证明是鲁棒性的。
可以观察到,在训练过程中,3DGS的倒角云-云距离(图4)都在不断增加。例如,在场景40的情况下,距离上升到大约50毫米。相比之下,对于所有的几何FeatureGS损失,距离在整个训练过程中始终保持较低。只有轻微的增加,这是由于来自SfM的初始点云具有最高的精度,并且FeatureGS也重建了不在(不完整的)参考点云中的点。对于扫描40,这个距离稳定在4-5毫米左右。这表明,与FeatureGS不同,3DGS训练过程包含了大量具有较高几何不准确性的点。

不同的 h p h o t o h_{photo} hphoto配置下的各种指标:

指标对比:


总结
d \sqrt{d} d 1 8 \frac {1}{8} 81 x ˉ \bar{x} xˉ x ^ \hat{x} x^ x ~ \tilde{x} x~ ϵ \epsilon ϵ
ϕ \phi ϕ