FeatureSLAM:实时特征增强的 3D 高斯溅射 SLAM 技术

在同时定位与地图构建(SLAM)领域,实时性与地图质量的平衡、语义理解能力的拓展一直是核心研究方向。近年来,基于 3D 高斯溅射(3D Gaussian Splatting, 3DGS)的新型视图合成(NVS)模型凭借其超高的地图保真度受到广泛关注,但传统方法往往依赖离线训练、推理速度缓慢,难以适配真实世界的在线 SLAM 场景。同时,现有语义 SLAM 系统多局限于预定义类别标签,缺乏开放集分割与灵活的语义交互能力。

针对这些痛点,来自萨里大学与 I3D Robotics 的研究团队提出了FeatureSLAM------ 一款将基础模型特征嵌入与 3D 高斯溅射相结合的实时 RGB-D SLAM 框架。该系统不仅实现了与当前最优方法相当的实时跟踪性能,还通过多尺度特征融合提升了跟踪稳定性与地图保真度,更支持开放集分割、语言引导交互等新型下游任务。

原文链接:https://arxiv.org/pdf/2601.05738

代码链接:暂无

沐小含持续分享前沿算法论文,欢迎关注...

1. 研究背景与核心问题

1.1 领域现状与局限

SLAM 技术经过数十年发展,已形成几何驱动与数据驱动两大技术路径,但均存在显著瓶颈:

  • 传统几何 SLAM:依赖 ICP(迭代最近点)及其变体(如 GICP)进行相机跟踪,虽实时性强,但在低纹理、深度噪声大的场景中易漂移,且缺乏语义理解能力。
  • 神经辐射场(NeRF)类 SLAM:通过神经网络建模场景实现逼真渲染,但需逐帧反向传播,多为离线方法,实时性极差。
  • 3D 高斯溅射 SLAM:作为新兴技术,3DGS 通过各向异性高斯集合表示场景,兼顾渲染质量与速度,但现有方法(如 GS-ICP-SLAM、SplaTAM)仅依赖光度或几何残差优化,跟踪稳定性不足,且未充分利用语义信息。
  • 语义 SLAM:现有方法多采用预定义类别标签,局限于封闭集任务,无法应对开放场景中的灵活语义查询,且常需离线预处理,难以在线部署。

此外,基础视觉模型(如 SAM2、Grounding DINO)的快速发展为细粒度特征提取提供了可能,但如何将其高效集成到实时 SLAM 框架中,实现特征与几何的联合优化,仍是未解决的关键问题。

1.2 核心研究目标

FeatureSLAM 的核心目标是解决三大关键问题:

  1. 如何在实时在线场景下,将多尺度基础模型特征与 3DGS 深度融合,同时保证跟踪速度与地图质量;
  2. 如何突破传统语义 SLAM 的封闭集限制,实现开放集分割与语言引导的场景交互;
  3. 如何通过特征与几何的联合优化,提升低纹理、噪声环境下的跟踪鲁棒性。

2. 核心创新与技术原理

FeatureSLAM 的技术框架围绕 "特征提取 - 跟踪优化 - 地图构建" 三大模块展开,通过多尺度特征嵌入、改进 GICP 跟踪、结构感知深度渲染等创新设计,实现了实时性与性能的兼顾。其整体流程如图 2 所示:

2.1 基础理论铺垫

2.1.1 3D 高斯溅射渲染

3DGS 将场景表示为一组各向异性高斯分布的集合,每个高斯 由三维位置 、协方差、颜色和透明度定义。像素颜色通过前向 - 后向 alpha 合成计算:

其中为累积透射率。高斯的 2D 投影受相机内参、投影矩阵等影响,其透明度由投影后的 2D 覆盖范围调制,具体投影关系为:

式中 为相机内参矩阵, 为世界到相机的投影矩阵, 为旋转矩阵, 为投影局部仿射近似的雅可比矩阵。

2.1.2 GICP 跟踪

广义迭代最近点(GICP)通过将点建模为高斯分布,利用协方差估计捕捉局部表面几何,实现更鲁棒的点云配准。定义源点集 (当前帧)和目标点集 (全局地图),首先通过最近邻搜索建立对应关系:

在刚体变换作用下,源点集的位置和协方差变换为:

对应点残差服从高斯分布

最优位姿通过最小化马氏距离之和求解:

该非线性最小二乘问题通过SE(3)的李代数参数化,结合高斯 - 牛顿或莱文贝格 - 马夸特优化迭代求解。

2.2 关键技术创新

2.2.1 在线特征栅格化:多尺度基础模型特征嵌入

FeatureSLAM 的核心突破在于将 SAM2 的分层特征金字塔高效集成到 3DGS 框架中,实现实时特征蒸馏,其完整流程如下:

  1. 多尺度特征提取:采用 SAM2 的 Hiera-MAE 编码器,对每帧 RGB-D 图像提取 3 个尺度的特征图,具体参数为:

    • 尺度ℓ=4:通道数 256,空间分辨率 64×64(捕捉粗粒度语义信息);
    • 尺度ℓ=8:通道数 64,空间分辨率 128×128(平衡语义与细节);
    • 尺度ℓ=16:通道数 32,空间分辨率 256×256(保留细粒度边缘信息)。该设计通过互补的特征层级,同时兼顾语义理解与几何细节捕捉。
  2. 特征融合与压缩

    • 首先在每个高斯的投影均值 处进行双线性上采样,将三个尺度的特征图对齐到同一分辨率;
    • 拼接后的特征向量 通过联合编码器 压缩为紧凑的 latent 特征(实验验证 时在性能与效率间取得最优平衡);
    • 为支持特征重建与监督,设计轻量级解码器头 ϕ(ℓ) ,分别对应三个尺度的特征图重建任务。
  3. 高效在线适配策略

    • 特征自编码器在 COCO 和 ScanNet 数据集上预训练,学习通用特征表示;
    • 在线运行时,冻结自编码器主体网络,仅在解码器各层之间插入 LoRA(Low-Rank Adaptation)模块;
    • LoRA 模块在预训练阶段冻结为零卷积,在线阶段解冻并采用学习率渐进预热策略,既避免灾难性遗忘,又能适配体积渲染带来的独特伪影。

该设计解决了传统特征蒸馏方法速度慢、维度高的问题,使多尺度语义特征能够实时嵌入 3D 高斯模型,为后续跟踪优化与语义任务提供支撑。

2.2.2 特征引导的 GICP 跟踪:语义与几何联合优化

传统 GICP 仅依赖几何信息,在低纹理场景中易产生歧义匹配。FeatureSLAM 针对这一缺陷,提出融合语义特征与高斯透明度的改进跟踪策略,核心优化目标为:

其中各组件的设计原理与作用如下:

  1. 几何残差项:延续传统 GICP 的马氏距离计算,确保几何结构对齐的准确性,是跟踪的基础约束。
  2. 语义匹配项,其中 为调节系数,通过指数函数将特征向量的欧氏距离转换为相似度得分,惩罚语义不匹配的对应点对。该设计利用 SAM2 特征的视角稳定性,在低纹理、光照变化或遮挡场景中提供额外约束。
  3. 透明度权重 为高斯的透明度参数,作为可见性代理,降低低透明度高斯(对应场景中不重要或遮挡区域)对配准结果的影响,减少噪声干扰。

跟踪优化过程中,仍采用se(3)李代数进行线性化,结合高斯 - 牛顿法求解,确保算法的实时性,同时通过语义与几何的联合约束提升跟踪鲁棒性。

2.2.3 结构感知深度渲染:解决传统深度估计缺陷

现有 3DGS SLAM 的深度估计多假设单个高斯对应单一深度值,在表面不连续或倾斜平面区域易产生偏差。FeatureSLAM 提出结构感知深度渲染方法,其核心原理与实现步骤如下:

  1. 高斯诱导的平面深度场建模

    • 对于目标像素 对应的射线向量 ,高斯 )与射线的最大似然交点深度 定义为:

    • 通过解析推导可得闭合解,其中

    • 在高斯 2D 投影均值 附近进行一阶展开,得到平面深度场模型:


      其中由高斯协方差 、位置 和相机内参解析计算,确保深度场与高斯的形状、朝向保持一致,深度值在高斯 2D 覆盖范围内线性变化。

  2. 融合期望深度与中值深度

    • 期望深度:


      通过透射率和透明度加权融合所有高斯的平面深度场,保证深度的平滑性;

    • 中值深度 定义为累积透明度首次超过 0.5 时的深度值,能够有效保留表面锐边,降低半透明区域的偏差;

    • 两者互补使用,既保证深度场的整体平滑性,又能准确捕捉表面不连续结构。

该方法有效解决了传统深度渲染的远平面偏差问题,提升了倾斜表面重建精度与轮廓清晰度,为后续的深度 - 法向量一致性约束提供了高质量的深度输入。

2.2.4 深度 - 法向量一致性与正则化:抑制高斯坍缩

为避免高斯在优化过程中出现 "针状"(rank≈1)或 "盘状"()坍缩,FeatureSLAM 设计了三重正则化策略,从深度结构、表面一致性和高斯形状三个维度进行约束:

  1. Patch-wise Pearson 相关损失(PCC)

    • 针对传统 L1 损失对绝对尺度敏感的问题,引入 PCC 损失:


      其中 为块内零均值归一化互相关;

    • 将图像划分为 的局部块,在每个块内计算相关系数,专注于保留相对深度变化(如倾斜平面、表面不连续性),对深度偏移不敏感,特别适用于高斯混合或透射率导致的深度轻微偏差区域。

  2. 法向量一致性损失

    • 分别从期望深度、中值深度和观测深度估计表面法向量:

    • 引入余弦相似度损失,强制 之间的一致性,鼓励深度场形成连贯平面与锐边,抑制漂浮伪影。

  3. 高斯形状正则化

    • eRank 障碍损失
      • 对于高斯的尺度向量,计算归一化奇异值

      • 定义尺度分布的熵:


        进而得到有效秩 (erank≈1为针状高斯,erank≈3为各向同性高斯);

      • 设计障碍损失:


        鼓励erank>1,避免高斯坍缩为 1D 结构;

      • 为避免早期过度正则化, 采用指数递增策略:


        从初始值λ0渐进增长到最大值

    • 薄度惩罚
      • 对排序后的最小尺度分量 排序后最小的值)施加损失:

      • 该损失鼓励高斯保持最小体积,防止出现宽度为零的盘状高斯,避免深度估计过度自信,干扰 GICP 跟踪与深度渲染。

这些正则化策略协同作用,确保高斯形状与真实表面切平面对齐,为跟踪和渲染提供稳定梯度,有效减少轨迹漂移与重建伪影。

2.2.5 Per-splat 反向传播并行化

为实现实时优化,FeatureSLAM 借鉴 Taming3DGS 的 per-splat 反向传播策略,解决传统像素级线程分配导致的原子操作冲突问题,具体实现如下:

  1. 透射率分段重建

    • 将所有高斯划分为大小为 的子区间,预计算每个子区间的透射率检查点

    • 每个高斯的透射率 通过所在子区间的检查点与子区间内前序高斯的透明度乘积重建:

    • 该方式确保透射率精确重建,同时完全避免反向传播中的原子操作冲突。

  2. 梯度步长控制

    • 该并行化策略显著提升梯度计算速度,支持在每个 GICP 位姿更新期间执行更多内循环梯度步骤;
    • 但需注意权衡:过快的光度收敛可能导致高斯过度拟合局部颜色 / 特征残差,偏离初始 GICP 协方差隐含的几何结构,进而增加相机漂移;
    • 因此,FeatureSLAM 对每帧的梯度步骤数进行限制,在计算吞吐量与跟踪稳定性之间取得平衡。
2.2.6 建模损失函数设计

FeatureSLAM 采用多目标损失函数,联合优化外观、特征、深度与几何一致性,总损失为:

各损失项的具体定义与权重设计如下:

  1. RGB 损失:融合 L1 损失与 SSIM,平衡像素级精度与感知质量:

    其中 分别控制 L1 损失与 SSIM 损失的权重,实验中采用 =1 :0.1。

  2. 特征损失:通过 L1 损失确保渲染特征与观测特征的一致性,强化语义信息保留:

    其中 为渲染特征图, 为 SAM2 提取的观测特征图, 设置为 0.5 以平衡特征与外观优化。

  3. 深度损失:融合 L1 损失与 PCC 损失,兼顾绝对深度精度与相对深度结构:

    其中为块级 Pearson 相关系数(采用 =8的块大小),=1 :0.2。

  4. 法向量损失:通过余弦相似度惩罚法向量不一致性:

    其中 设置为 0.1,确保法向量约束不过度主导优化过程。

  5. 正则化损失的权重分别设置为 =0.01(渐进增长)和 =0.001,温和约束高斯形状。

2.2.7 关键帧选择与地图管理
  1. 关键帧选择策略

    • 定义关键帧插入条件:当前相机位姿 与上一关键帧位姿 满足以下任一条件:
      • 平移偏差=5cm);
      • 旋转偏差=);
      • GICP 残差为预定义的不确定性阈值);
    • 跟踪帧仅用于位姿优化,不更新 3DGS 模型;关键帧用于插入新高斯并触发模型优化,平衡地图精度与实时性。
  2. 语义梯度剪枝与细化

    • 重要性得分计算:融合光度损失与特征损失的梯度贡献,定义高斯重要性得分:


      其中 为受高斯 影响的像素集合,=1:0.5,确保颜色与特征重要性平衡。

    • 自适应剪枝策略

      • 跟踪关键帧采用保守剪枝:移除得分最低的 10% 高斯,避免删除潜在的跟踪对应点;
      • 地图关键帧采用激进剪枝:移除得分最低的 30% 高斯,控制地图规模;
      • 额外执行标准 3DGS 剪枝:移除过大(尺度超过阈值)或透明度过低(<0.01)的高斯。
  3. 轨迹后优化(可选)

    • 在线 SLAM 完成后,固定最终位姿图,利用所有关键帧对高斯模型进行全局优化;
    • 首先重新计算全图的 3D 距离滤波器,确保尺度与透明度正则化一致;
    • 执行 3k-5k 次额外优化步骤,修正在线训练积累的微小不一致;
    • 该过程仅增加约 1 分钟计算时间,却能显著提升地图保真度,且不影响在线实时性能。

3. 实验验证与结果分析

3.1 实验设置

  • 数据集:采用两个互补基准测试集:
    • Replica:虚拟室内场景,提供逼真、无噪声的 RGB-D 数据,用于评估理想条件下的性能;
    • TUM RGB-D:手持采集的真实场景数据,包含传感器噪声、运动模糊与深度缺失,用于评估实际部署鲁棒性。
  • 硬件平台:Intel Core i9-10900K CPU(32GB RAM)+ NVIDIA RTX 3090 GPU(24GB VRAM)。
  • 评估指标
    • 跟踪精度:绝对轨迹误差(ATE)RMSE;
    • 渲染质量:PSNR、SSIM、LPIPS;
    • 深度质量:L1 误差、精度、召回率、F1 分数;
    • 语义精度:平均交并比(mIoU)、像素准确率;
    • 实时性:总运行时间(含跟踪与建图)。
  • 对比方法:涵盖四类主流方法:RGB/RGB-D NVS SLAM(如 PointSLAM、GS-ICP-SLAM)、封闭集语义 SLAM(如 SemGauss-SLAM、GS3SLAM)、开放集语义 SLAM(OVO-SLAM)、离线特征蒸馏 3DGS(如 Feature3DGS、LERF)。

3.2 核心实验结果

3.2.1 跟踪与重建精度

Replica 数据集结果(表 1):

FeatureSLAM 在 Replica 数据集上实现了最优的跟踪精度(ATE=0.15m),同时渲染质量(PSNR=41.22dB)与深度精度(L1=0.73cm)显著超越现有方法。与最快的 GS-ICP-SLAM 相比,ATE 降低 9%,深度误差降低 84%,且仅需 4.44 分钟完成建图,远快于离线语义 SLAM 方法(如 GS3LAM 需 152.40 分钟)。

TUM RGB-D 数据集结果(表 2):

在真实噪声场景中,FeatureSLAM 的 ATE(2.05m)低于 GS-ICP-SLAM(2.64m),渲染质量(PSNR=18.82dB)优于所有对比方法,证明其在实际环境中的鲁棒性。虽然运行时间长于 Photo-SLAM 等 decoupled 方法,但提供了语义理解能力,且地图质量更优。

3.2.2 开放集分割性能

为评估开放集语义理解能力,FeatureSLAM 与离线特征蒸馏 3DGS 方法在 Replica 数据集上进行零样本新颖视图分割对比(表 3):

FeatureSLAM 以 5.4 分钟的训练时间(仅为次快方法 LERF 的 12%),实现了 46.3% 的 mIoU,远超所有对比方法,证明其在线开放集分割能力已达到甚至超越离线方法水平。其中,mIoU 比 Feature3DGS 高 16%,比 OVO-G.-SLAM 高 108%,充分体现了 SAM2 特征与 3DGS 融合的有效性。

3.2.3 定性结果分析

新颖视图渲染对比(图 3)显示,FeatureSLAM 重建的场景细节更丰富,无明显漂浮伪影,边缘轮廓更清晰,优于 CartGS、GS-ICP-SLAM 等方法。

语义分割结果(图 5-8)表明,FeatureSLAM 的无提示分割能准确捕捉物体边界,即使在低纹理区域也能保持语义一致性;语言引导分割支持灵活查询(如 "chair"),分割结果与自然语言描述精准匹配,且支持开放集查询,无需预定义类别。

3.3 消融实验分析

3.3.1 剪枝策略影响(表 6、7)
  • 跟踪关键帧剪枝率越高,ATE 越大(如 20% 剪枝时 ATE=2.88m vs 0% 剪枝时 ATE=2.02m),但地图规模更小;
  • 地图关键帧采用 30% 剪枝时,能在保持 ATE 稳定(2.02m)的同时,平衡渲染质量与运行效率,为最优选择。
3.3.2 轨迹后优化影响(表 8)
  • 增加后优化迭代次数可显著提升 PSNR 与 SSIM,5k 迭代时 PSNR 达 37.03dB(较无优化提升 4.7%),但超过 3k 后收益递减;
  • 3k 迭代为最优权衡,仅增加 57 秒计算时间,PSNR 提升 2.5%,LPIPS 降低 10%。
3.3.3 特征维度影响(表 10)
  • 特征维度D从 16 增至 32 时,mIoU 从 38.7% 提升至 48.1%,但 PSNR 与 SSIM 提升趋于平缓;
  • D=24时实现最优平衡:mIoU=46.3%,PSNR=18.82dB,且内存占用与计算速度满足实时要求。

4. 结论与未来展望

4.1 核心贡献总结

FeatureSLAM 通过将多尺度基础模型特征与 3D 高斯溅射深度融合,实现了三大核心突破:

  1. 提出首个实时在线的特征增强 3DGS SLAM 框架,支持开放集语义映射;
  2. 设计特征引导的 GICP 跟踪策略,融合几何与语义信息,提升低纹理场景的跟踪稳定性;
  3. 提出结构感知深度渲染、语义梯度剪枝等优化策略,在保证实时性的同时,提升地图保真度与语义表达能力。

定量结果显示,FeatureSLAM 的 ATE 比现有基线低 9%,地图精度高 8%,开放集分割 mIoU 达 46.3%,且运行速度满足实时要求(约 5 FPS),为机器人导航、增强现实(AR)等应用提供了高性能解决方案。

4.2 未来工作方向

论文指出未来将重点关注:

  1. 利用嵌入特征实现闭环检测,进一步提升长轨迹跟踪稳定性;
  2. 优化特征压缩与计算效率,适配资源受限设备(如边缘计算平台);
  3. 拓展多模态特征融合(如融合音频、惯性测量数据),提升极端场景鲁棒性;
  4. 探索动态场景中的语义分割与跟踪,适配更复杂的真实环境。

5. 总结

FeatureSLAM 创新性地将基础视觉模型的细粒度特征与 3D 高斯溅射 SLAM 相结合,突破了传统 SLAM 在语义理解与实时性上的双重限制。其核心设计 ------ 多尺度特征嵌入、语义 - 几何联合跟踪、结构感知深度渲染等,为 SLAM 技术的发展提供了新的思路。实验证明,该框架不仅在跟踪精度与地图质量上达到当前最优水平,还支持开放集分割、语言引导交互等新型下游任务,有望推动 SLAM 技术在智能机器人、AR/VR 等领域的实际应用。

相关推荐
何如千泷21 小时前
【论文阅读】Invasive carcinoma segmentation in whole slide images usingMS-ResMTUNet
论文阅读·wsi·病理图像分割
狐571 天前
2026-01-20-论文阅读-Can-1B-LLM-Surpass-405B-LLM?
论文阅读·笔记
静听松涛1331 天前
信息系统规划到上线全流程指南
论文阅读·面试·职场和发展·流程图
EEPI1 天前
【论文阅读】AbsoluteZero: ReinforcedSelf-play Reasoningwith Zero Data
论文阅读
狐571 天前
2026-01-19-论文阅读-Agentic-Reasoning-for-Large-Language-Models
论文阅读·笔记
EEPI1 天前
论文阅读汇总
论文阅读
敲代码的猴先生1 天前
论文分享 | 基于红绿列表的大语言模型水印技术
论文阅读·人工智能·深度学习·语言模型
狐572 天前
2026-01-13-论文阅读-AdvancesUavAvionics
论文阅读·无人机·综述论文
有Li2 天前
IGUANe:一种用于脑部MRI多中心协调的3D通用CycleGAN模型/文献速递-基于人工智能的医学影像技术
论文阅读·文献·医学生