GS-SLAM论文阅读--SplatMAP

前言

如今提升GS-SLAM的几何结构也是一个趋势,很多方法会采用深度信息和法线对高斯场景进行约束。本文也是如此,他优化了边缘场景,并且使用了一个致密化策略,而且是最近发布的,个人觉得很值得参考。


文章目录


1.背景介绍

  1. 现有的3D高斯溅射(3DGS)方法通常集中于光度一致性,忽略几何精度,并且未能利用SLAM的动态深度和姿态更新来进行场景细化。
  2. 单目SLAM系统,由于有限的观察,浅三角测量基线,和弱姿态约束,容易产生不准确的点云。这些不准确性传播到下游的映射任务中,导致诸如墙壁和家具上的"重影"之类的伪像,特别是当从未经训练的视点观察时。传统的3DGS致密化管道通常依赖于RGB损失来校正这些错误,从而在补偿初始不准确性时引入额外的计算开销。

2.关键内容

2.1 总体流程

我们的方法的主要思想是使用密集单目SLAM的输出来监督3D高斯溅射模型 。稠密单目SLAM可以估计密集深度图和相机姿态,同时还提供深度和姿态的不确定性估计。有了这些信息,我们可以训练一个3D高斯飞溅模型,该模型具有由深度的边缘协方差加权的密集深度损失。通过使用密集SLAM和3D高斯溅射训练的实时实现,并通过并行运行这些,我们实现了实时性能。下图显示了我们管道中的总体流程。该框架集成了基于SLAM的姿态估计和深度细化与基于高斯的3D场景表示。卷积GRU模块使用置信度权重和修正流迭代地细化深度和姿态。

2.2 跟踪

参考DROID-SLAM。

2.3 建图

一旦帧数据进入系统,它首先通过运动过滤器和关键帧阈值进行过滤,以确定当前帧是否符合关键帧的条件。关键帧是基于摄像机运动和帧特征选择的,并存储在动态因子图中。

因子图的初始化:在初始化阶段,初始帧通过建立足够的关键帧和约束来初始化因子图,为后续的优化提供稳定的基础。对于每个关键帧,我们通过SLAM的前端跟踪,获得估计的相机姿态和视差图,从估计的深度导出为1/𝑑使用这些视差图,我们然后将2D图像点反向投影到3D空间,创建一个密集的sfm点云。该点云形成了场景模型初始化的基础。

基于稠密SLAM点云的高斯场景建模:为了对稠密的SLAM点云进行建模,我们将几何形状表示为一组3D高斯,这些高斯通过协方差矩阵捕获局部几何结构和不确定性。这种变换增强了场景表示的鲁棒性,解决了SLAM生成的点云的局限性,例如噪声和缺乏局部连续性,并促进了3DGS框架内的下游优化和渲染任务。

基于SLAM信息自适应致密化

单目SLAM系统通常在映射的早期阶段期间由于有限的观测以及深度和姿态估计的不确定性而生成不准确的点云。这些不准确性源于三角测量基线不足和姿态约束较弱,这在初始化阶段尤其明显。这样的错误估计可能导致几何和拓扑不一致、不准确的深度估计以及到下游渲染任务的错误传播。如图3所示,具有错误估计深度的高斯将导致墙壁和家具上的"幽灵"伪影,特别是当从未经训练的视角观看时。此外,这些问题增加了高斯建模的计算成本,因为需要额外的资源来纠正初始的不准确性。

虽然传统的3D高斯溅射(3DGS)致密化方法在致密化稀疏点云(例如Photo-SLAM),它们对于我们的系统来说效率很低,因为我们的系统会为每一帧生成密集的点云。这种方法无法解决SLAM生成的点云的早期不准确性,并增加了不必要的计算开销的致密化。为了克服这些挑战,我们提出了SLAM通知自适应加密(SIAD),它利用SLAM的动态更新在线细化点云。通过修剪错误点,合并新的点,并根据可靠的掩模调整高斯表示,我们的方法确保了准确和有效的点云细化,而无需冗余的致密化步骤。

点可靠性掩码生成:SLAM中的可靠性掩模对于确定哪些点在密集深度和姿态估计过程中是有效或可靠的至关重要。在DROID-SLAM中,这些掩码在跟踪和优化期间迭代地导出和更新。具体来说,在我们的方法中,可靠性掩码𝑚𝑖是基于以下一致性度量创建的:
(1)深度一致性检查: 每帧深度图都保持一个密集的深度图di,并生成相应的掩码mi,以指示有效的深度点:

在这里,像素p表示帧中的像素。有效性由网络的深度预测及其跨帧的几何一致性决定。如果深度值 d i ( p ) d_i(p) di(p)在几何上与相邻帧中的其重新投影的对应物对齐并且在连续帧中保持稳定,则认为其是一致的。
(2)帧间几何一致性: 我们的系统使用相机姿态 T i j T_{ij} Tij和深度图 d i d_i di来建立帧间的几何对应关系。重投影和距离计算定义为:

其中,xi和xj是帧i和j中的3D点,并且 x ~ j \tilde{x}_j x~j是从xi重新投影的点。如果 d ( x i , x j ) d(x_i,x_j) d(xi,xj)> thresh,则该点在mi中被标记为无效。

(3)因子图置信权重: 在优化过程中,可靠的边是那些具有更高权重 w i j w_{ij} wij的边,这表明连接帧之间的几何一致性更强。这样的边被保留在图中,并且在连接的帧的掩码掩码中的相关联的点被保留。权值的置信度 w i j w_{ij} wij反映了两个帧之间的对应关系,基于它们各自点的投影和匹配质量。

对于单个点,其权重 w i j ( p ) w_{ij}(p) wij(p)独立于conv-GRU进行评估。具有低置信度权重的点被认为是不可靠的,并且从图中移除。这种删除反映在相应帧的掩码mi中,无效点标记为:

通过评估帧之间的几何距离来动态更新可靠性掩模,并且基于接近阈值来标记点的有效或无效。这可确保mask反映优化期间场景结构和相机轨迹的变化。

基于SLAM信息自适应致密化:利用动态更新的mask自适应地调整点云的密度,确保其准确反映当前场景结构。这一进程包括三个核心组成部分:

懒得打公式了。。。

几何引导优化

为了实现平衡光度一致性和几何精度的高质量渲染,我们定义了一个复合损失函数与3DGS不同,3DGS使用了L1损耗和SSIM损耗的组合,我们通过结合多尺度SSIM(MS-SSIM)来增强感知质量,该方法可以捕获不同分辨率的感知一致性。RGB损失定义为:

MS-SSIM计算多个分辨率级别的结构相似性,逐步缩小输入图像。与3DGS中使用的单尺度SSIM相比,这种公式确保了对局部变化的鲁棒性和更好的感知对齐。

为了进一步捕捉场景中的几何关系,我们在系统中添加了一个边缘感知的法线损失 L n o r m a l L_{normal} Lnormal。该损失使用从深度图D的梯度计算的法线图N,如下:

并且惩罚由权重函数 w ( x ) = ( x − 1 ) q w(x)= (x-1)^q w(x)=(x−1)q调制的N的梯度,这平衡了低梯度区域中的平滑和尖锐边缘处的细节保留:

我们注意到,添加边缘感知损失对于强调几何细节是有效的,但它放大了高梯度区域中的梯度惩罚,并抑制了平坦区域中的梯度惩罚。虽然这种方法对于强调几何细节是有效的,但它可能会过分强调尖锐的边缘,导致RGB渲染质量的改善非常有限,从而降低了整体场景的一致性。为了解决这个问题,我们提出了一个平滑的加权函数,使用高斯调制来平衡边缘强调和空间连续性:

其中,𝜎控制加权的平滑度,确保高梯度区域和低梯度区域之间的逐渐过渡。此修改减少了尖锐渐变的过度惩罚,并防止平坦区域中的惩罚过低,从而在不牺牲几何精度的情况下提高RGB渲染一致性。

最终的复合损失函数对RGB损失进行积分,计算几何引导的边缘感知法向损失:

3.文章贡献

  1. SLAM信息自适应加密:我们通过利用密集的SLAM输出来升级传统的高斯溅射,实现点云的动态加密,以实现更丰富的场景表示。
  2. 几何引导优化:我们引入了一种新的损失函数,在映射过程中集成了几何和光度约束,提高了视觉质量和结构精度。
相关推荐
梦云澜2 小时前
论文阅读(十二):全基因组关联研究中生物通路的图形建模
论文阅读·人工智能·深度学习
摸鱼仙人~5 小时前
Attention Free Transformer (AFT)-2020论文笔记
论文阅读·深度学习·transformer
AIGC大时代8 小时前
对比DeepSeek、ChatGPT和Kimi的学术写作关键词提取能力
论文阅读·人工智能·chatgpt·数据分析·prompt
梦云澜14 小时前
论文阅读(九):通过概率图模型建立连锁不平衡模型和进行关联研究:最新进展访问之旅
论文阅读·人工智能·深度学习
AIGC大时代1 天前
学术方向选则与规划DeepSeek、ChatGPT和Kimi对比
论文阅读·人工智能·chatgpt·数据分析·prompt
程序喵;2 天前
Retrieval-Augmented Generation for Large Language Models: A Survey——(1)Overview
论文阅读·人工智能·语言模型·自然语言处理·rag
好评笔记2 天前
视频多模态模型——视频版ViT
论文阅读·人工智能·深度学习·机器学习·计算机视觉·面试·aigc
梦云澜3 天前
论文阅读(十一):基因-表型关联贝叶斯网络模型的评分、搜索和评估
论文阅读·人工智能·深度学习