NGM-SLAM：首创融合神经辐射场子图的3DGS-SLAM，问鼎SOTA！

论文标题：

NGM-SLAM: Gaussian Splatting SLAM with Radiance Field Submap

论文作者：

Mingrui Li, Jingwei Huang, Lei Sun Aaron, Xuxiang Tian, Tianchen Deng, Hongyu Wang

导读：

3DGS技术因其性能卓越而备受关注，3DGS-SLAM系统应运而生。然而，当前3DGS-SLAM系统通常在大场景表示、有效的闭环校正和场景泛化能力方面存在缺陷。为此，论文作者设计了NGM-SLAM，这是第一个利用神经辐射场子图用于渐进式场景表示的GS-SLAM系统，有效地结合了神经辐射场和3DGS的优势，实现了最先进的场景重建和跟踪性能。©️【深蓝AI】编译

1. 背景简介

长期以来，SLAM技术一直是机器人学与AR/VR领域的核心议题。密集SLAM系统因广泛的应用潜力而备受重视。传统密集SLAM系统利用体素、点云和TSDF等显式表示，在追踪方面表现出色，但受限于高保真建模、空缺填补及纹理细节的处理，其应用范围受到一定局限。神经隐式SLAM系统，基于NERF的隐式表示，显著增强了SLAM系统的感知能力，但依旧面临实时性、运行速度和内存需求的瓶颈。

近期，3DGS-SLAM系统在保持NERF-SLAM系统的建图精度同时，在渲染速度和精度上取得了突破，挑战了神经隐式 SLAM 在密集重建中的主导地位。然而，值得注意的是，与NERF相比，3DGS-SLAM系统依赖点云输入，在空缺填补能力上有所欠缺，且未充分利用神经网络的泛化能力。此外，它缺乏稳健的闭环检测机制，导致在大场景中累积漂移问题凸显，影响了地图的稳定性和准确性。

2. 方案提出

针对上述挑战，作者创新性地设计了融合神经子图与3DGS表示的SLAM体系。

首先，构建以神经辐射场为基础的子图与一个全局关键帧索引。当达到地图构建阈值时，基于前序子图作为先验，将会创建新的神经子图，并实施高斯渲染。随后，执行局部捆绑调整（BA），并在子图间实施融合策略及高斯体修剪。闭环一旦被识别，即刻启用实时由粗到细的闭环校正，通过调整对应锚框的地图姿态，并运用全局BA及高斯渲染损失函数，以最小的计算成本有效修正累积漂移。

实验结果表明，本方法在跟踪和建图方面实现了SOTA性能，并且可扩展到大规模场景。

▲图1｜NGM-SLAM系统架构©️【深蓝AI】编译

3. 细节解析

图1展示了NGM-SLAM的系统架构。该系统包括跟踪和建图两个模块。在初始子图开始建立后，跟踪模块持续估计相机姿态并检测环路，同时将子图的关键帧传递给建图模块。建图模块首先构造神经子图，该神经子图也用作多尺度GS（高斯抛雪球）子图的先验，并在子图之间执行并行渲染。在子图内执行局部束缚调整（BA）以校正姿态和建图误差，一旦检测到闭环，就对所有锚框执行全局BA。最后，生成的GS地图被缝合在一起。

■3.1 先验神经子图渲染

考虑到3DGS-SLAM系统在泛化推理能力上的不足，本文引入了基于数据驱动的增量神经子图作为基础监督机制，来填补空白并增强地图表示。基于ORB特征点追踪，仅在当前帧提取特征，减少了与子图创建和空缺填充相关的漂移问题。通过设立局部与全局关键帧列表，优化了局部与全局BA流程，并在子图积累至预设关键帧阈值时新建局部子图。为优化地图融合并减少融合误差，借助DBOW模型评估关键帧间的共视关系，确保地图结构的稳定性。

■3.2 多尺度高斯子图渲染

利用神经子图提供的先验信息，采用一组各向异性3DGS分布来描绘场景，利用位置、不透明度、三阶球谐系数、3D尺度及四元数描述的3D旋转来丰富场景细节。通过多尺度渲染技术，解决了小高斯体渲染中的锯齿问题，通过不同分辨率下的高斯体聚合，提高了渲染质量，同时在保证渲染速度的前提下，通过射线引导的高斯体修剪策略进一步提升了精度与效率。

■3.3 高效子图融合策略

为适应大规模场景并有效管理内存资源，本文提出了一套高效的子图融合机制。场景被划分为多个局部子图，每个子图依据关键帧的空间位置进行定位。在每次局部BA后，地图的中心姿态得到更新，以确保子图间的良好对齐。为了避免子图边界处出现视觉上的重叠或缝隙，从每个子图的边缘剔除了多余的高斯体，从而减轻了拼接时可能出现的伪影现象。接下来，采用高斯聚合技术，将相邻子图边界的较小高斯体合并为更大的单元，以实现无缝过渡。这一系列操作确保了子图间的平滑拼接，即使在多次闭环校正和全局BA之后，也能维持地图的一致性和完整性，同时控制了内存占用的增长。

■3.4 闭环检测与全局优化

闭环检测是确保地图整体一致性的关键步骤。采用局部与全局相结合的策略，首先在每个子图内部进行局部BA，专注于局部关键帧的校正。对于全局一致性，利用词袋模型（BoW）来检测全局关键帧之间的关联性，一旦发现闭环条件满足，即启动一个由粗到精的全局调整流程。这一过程首先通过BA优化锚定子图的姿态，接着执行子图融合，以消除边界漂移。在此之后，保持锚定子图姿态固定，基于全局关键帧列表执行全局BA，进一步细化姿态调整，并再次进行子图融合，以最终完成闭环校正。通过在整个过程中整合射线采样，能够指导高斯体的生成与融合，进而利用高斯渲染损失进一步细化地图，确保了全局地图的一致性和准确性，同时保持了系统的实时性。

4. 实验

实验结果表明，与现有基于3DGS的SLAM方法相比，本方法在多个维度上实现了显著提升，不仅提高了跟踪和建图的精度，还优化了系统运行效率，特别是在处理大规模多房间序列时展现了其优越性能。

▲图2｜展示了在Replica数据集房间序列上，单目与RGB-D重建技术的对比结果©️【深蓝AI】编译

▲图3｜展示了在Replica数据集四个大型公寓序列上的重建结果，证明了本方法有效避免了灾难性遗忘，并且能够实现背景的合理填充及场景的广泛适应性©️【深蓝AI】编译

▲图4｜在ScanNet数据集的大规模多房间序列上，本方法展现了其在累积误差校正方面，相较于传统基于高斯抛雪球的方法有着更优的表现©️【深蓝AI】编译

5. 总结

总的来说，作者提出的NGM-SLAM系统成功地将神经辐射场的表达力与3DGS的高效渲染能力相结合，通过创新性的子图管理和闭环检测策略，克服了大场景建图和实时性要求的挑战，并以其稳健的跟踪性能和监督精度，展现出广泛的应用前景，这无疑将开启一股融合NeRF与3DGS技术的SLAM系统研究新浪潮。

编译｜Deep蓝同学

审核｜Los

移步公众号【深蓝AI】，第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。