在同时定位与地图构建(SLAM)领域,实时性与地图质量的平衡、语义理解能力的拓展一直是核心研究方向。近年来,基于 3D 高斯溅射(3D Gaussian Splatting, 3DGS)的新型视图合成(NVS)模型凭借其超高的地图保真度受到广泛关注,但传统方法往往依赖离线训练、推理速度缓慢,难以适配真实世界的在线 SLAM 场景。同时,现有语义 SLAM 系统多局限于预定义类别标签,缺乏开放集分割与灵活的语义交互能力。
针对这些痛点,来自萨里大学与 I3D Robotics 的研究团队提出了FeatureSLAM------ 一款将基础模型特征嵌入与 3D 高斯溅射相结合的实时 RGB-D SLAM 框架。该系统不仅实现了与当前最优方法相当的实时跟踪性能,还通过多尺度特征融合提升了跟踪稳定性与地图保真度,更支持开放集分割、语言引导交互等新型下游任务。

原文链接:https://arxiv.org/pdf/2601.05738
代码链接:暂无
沐小含持续分享前沿算法论文,欢迎关注...
1. 研究背景与核心问题
1.1 领域现状与局限
SLAM 技术经过数十年发展,已形成几何驱动与数据驱动两大技术路径,但均存在显著瓶颈:
- 传统几何 SLAM:依赖 ICP(迭代最近点)及其变体(如 GICP)进行相机跟踪,虽实时性强,但在低纹理、深度噪声大的场景中易漂移,且缺乏语义理解能力。
- 神经辐射场(NeRF)类 SLAM:通过神经网络建模场景实现逼真渲染,但需逐帧反向传播,多为离线方法,实时性极差。
- 3D 高斯溅射 SLAM:作为新兴技术,3DGS 通过各向异性高斯集合表示场景,兼顾渲染质量与速度,但现有方法(如 GS-ICP-SLAM、SplaTAM)仅依赖光度或几何残差优化,跟踪稳定性不足,且未充分利用语义信息。
- 语义 SLAM:现有方法多采用预定义类别标签,局限于封闭集任务,无法应对开放场景中的灵活语义查询,且常需离线预处理,难以在线部署。
此外,基础视觉模型(如 SAM2、Grounding DINO)的快速发展为细粒度特征提取提供了可能,但如何将其高效集成到实时 SLAM 框架中,实现特征与几何的联合优化,仍是未解决的关键问题。
1.2 核心研究目标
FeatureSLAM 的核心目标是解决三大关键问题:
- 如何在实时在线场景下,将多尺度基础模型特征与 3DGS 深度融合,同时保证跟踪速度与地图质量;
- 如何突破传统语义 SLAM 的封闭集限制,实现开放集分割与语言引导的场景交互;
- 如何通过特征与几何的联合优化,提升低纹理、噪声环境下的跟踪鲁棒性。
2. 核心创新与技术原理
FeatureSLAM 的技术框架围绕 "特征提取 - 跟踪优化 - 地图构建" 三大模块展开,通过多尺度特征嵌入、改进 GICP 跟踪、结构感知深度渲染等创新设计,实现了实时性与性能的兼顾。其整体流程如图 2 所示:

2.1 基础理论铺垫
2.1.1 3D 高斯溅射渲染
3DGS 将场景表示为一组各向异性高斯分布的集合,每个高斯 由三维位置
、协方差
、颜色
和透明度
定义。像素颜色通过前向 - 后向 alpha 合成计算:

其中
为累积透射率。高斯的 2D 投影受相机内参、投影矩阵等影响,其透明度由投影后的 2D 覆盖范围调制,具体投影关系为:

式中 为相机内参矩阵,
为世界到相机的投影矩阵,
为旋转矩阵,
为投影局部仿射近似的雅可比矩阵。
2.1.2 GICP 跟踪
广义迭代最近点(GICP)通过将点建模为高斯分布,利用协方差估计捕捉局部表面几何,实现更鲁棒的点云配准。定义源点集
(当前帧)和目标点集
(全局地图),首先通过最近邻搜索建立对应关系:

在刚体变换
作用下,源点集的位置和协方差变换为:

对应点残差
服从高斯分布
。
最优位姿通过最小化马氏距离之和求解:

该非线性最小二乘问题通过SE(3)的李代数参数化,结合高斯 - 牛顿或莱文贝格 - 马夸特优化迭代求解。
2.2 关键技术创新
2.2.1 在线特征栅格化:多尺度基础模型特征嵌入
FeatureSLAM 的核心突破在于将 SAM2 的分层特征金字塔高效集成到 3DGS 框架中,实现实时特征蒸馏,其完整流程如下:
-
多尺度特征提取:采用 SAM2 的 Hiera-MAE 编码器,对每帧 RGB-D 图像提取 3 个尺度的特征图,具体参数为:
- 尺度ℓ=4:通道数 256,空间分辨率 64×64(捕捉粗粒度语义信息);
- 尺度ℓ=8:通道数 64,空间分辨率 128×128(平衡语义与细节);
- 尺度ℓ=16:通道数 32,空间分辨率 256×256(保留细粒度边缘信息)。该设计通过互补的特征层级,同时兼顾语义理解与几何细节捕捉。
-
特征融合与压缩:
- 首先在每个高斯的投影均值
处进行双线性上采样,将三个尺度的特征图对齐到同一分辨率;
- 拼接后的特征向量
通过联合编码器
压缩为紧凑的 latent 特征
(实验验证 时在性能与效率间取得最优平衡);
- 为支持特征重建与监督,设计轻量级解码器头 ϕ(ℓ) ,分别对应三个尺度的特征图重建任务。
- 首先在每个高斯的投影均值
-
高效在线适配策略:
- 特征自编码器在 COCO 和 ScanNet 数据集上预训练,学习通用特征表示;
- 在线运行时,冻结自编码器主体网络,仅在解码器各层之间插入 LoRA(Low-Rank Adaptation)模块;
- LoRA 模块在预训练阶段冻结为零卷积,在线阶段解冻并采用学习率渐进预热策略,既避免灾难性遗忘,又能适配体积渲染带来的独特伪影。
该设计解决了传统特征蒸馏方法速度慢、维度高的问题,使多尺度语义特征能够实时嵌入 3D 高斯模型,为后续跟踪优化与语义任务提供支撑。
2.2.2 特征引导的 GICP 跟踪:语义与几何联合优化
传统 GICP 仅依赖几何信息,在低纹理场景中易产生歧义匹配。FeatureSLAM 针对这一缺陷,提出融合语义特征与高斯透明度的改进跟踪策略,核心优化目标为:

其中各组件的设计原理与作用如下:
- 几何残差项:延续传统 GICP 的马氏距离计算,确保几何结构对齐的准确性,是跟踪的基础约束。
- 语义匹配项:
,其中 为调节系数,通过指数函数将特征向量的欧氏距离转换为相似度得分,惩罚语义不匹配的对应点对。该设计利用 SAM2 特征的视角稳定性,在低纹理、光照变化或遮挡场景中提供额外约束。
- 透明度权重 :
为高斯的透明度参数,作为可见性代理,降低低透明度高斯(对应场景中不重要或遮挡区域)对配准结果的影响,减少噪声干扰。
跟踪优化过程中,仍采用se(3)李代数进行线性化,结合高斯 - 牛顿法求解,确保算法的实时性,同时通过语义与几何的联合约束提升跟踪鲁棒性。
2.2.3 结构感知深度渲染:解决传统深度估计缺陷
现有 3DGS SLAM 的深度估计多假设单个高斯对应单一深度值,在表面不连续或倾斜平面区域易产生偏差。FeatureSLAM 提出结构感知深度渲染方法,其核心原理与实现步骤如下:
-
高斯诱导的平面深度场建模:
-
对于目标像素
对应的射线向量
,高斯
(
和
)与射线的最大似然交点深度
定义为:

-
通过解析推导可得闭合解
,其中
; -
在高斯 2D 投影均值
附近进行一阶展开,得到平面深度场模型:
其中
由高斯协方差 、位置
和相机内参解析计算,确保深度场与高斯的形状、朝向保持一致,深度值在高斯 2D 覆盖范围内线性变化。
-
-
融合期望深度与中值深度:
-
期望深度:

通过透射率和透明度加权融合所有高斯的平面深度场,保证深度的平滑性; -
中值深度
定义为累积透明度首次超过 0.5 时的深度值,能够有效保留表面锐边,降低半透明区域的偏差; -
两者互补使用,既保证深度场的整体平滑性,又能准确捕捉表面不连续结构。
-
该方法有效解决了传统深度渲染的远平面偏差问题,提升了倾斜表面重建精度与轮廓清晰度,为后续的深度 - 法向量一致性约束提供了高质量的深度输入。
2.2.4 深度 - 法向量一致性与正则化:抑制高斯坍缩
为避免高斯在优化过程中出现 "针状"(rank≈1)或 "盘状"(
)坍缩,FeatureSLAM 设计了三重正则化策略,从深度结构、表面一致性和高斯形状三个维度进行约束:
-
Patch-wise Pearson 相关损失(PCC):
-
针对传统 L1 损失对绝对尺度敏感的问题,引入 PCC 损失:

其中为块内零均值归一化互相关;
-
将图像划分为
的局部块,在每个块内计算相关系数,专注于保留相对深度变化(如倾斜平面、表面不连续性),对深度偏移不敏感,特别适用于高斯混合或透射率导致的深度轻微偏差区域。
-
-
法向量一致性损失:
-
分别从期望深度、中值深度和观测深度估计表面法向量:

-
引入余弦相似度损失,强制
与
、
与
之间的一致性,鼓励深度场形成连贯平面与锐边,抑制漂浮伪影。
-
-
高斯形状正则化:
- eRank 障碍损失:
-
对于高斯的尺度向量
,计算归一化奇异值
; -
定义尺度分布的熵:

进而得到有效秩
(erank≈1为针状高斯,erank≈3为各向同性高斯); -
设计障碍损失:

鼓励erank>1,避免高斯坍缩为 1D 结构; -
为避免早期过度正则化,
采用指数递增策略:

从初始值λ0渐进增长到最大值。
-
- 薄度惩罚:
-
对排序后的最小尺度分量
(
排序后最小的值)施加损失:
-
该损失鼓励高斯保持最小体积,防止出现宽度为零的盘状高斯,避免深度估计过度自信,干扰 GICP 跟踪与深度渲染。
-
- eRank 障碍损失:
这些正则化策略协同作用,确保高斯形状与真实表面切平面对齐,为跟踪和渲染提供稳定梯度,有效减少轨迹漂移与重建伪影。
2.2.5 Per-splat 反向传播并行化
为实现实时优化,FeatureSLAM 借鉴 Taming3DGS 的 per-splat 反向传播策略,解决传统像素级线程分配导致的原子操作冲突问题,具体实现如下:
-
透射率分段重建:
-
将所有高斯划分为大小为
的子区间,预计算每个子区间的透射率检查点
:
-
每个高斯的透射率
通过所在子区间的检查点与子区间内前序高斯的透明度乘积重建:

-
该方式确保透射率精确重建,同时完全避免反向传播中的原子操作冲突。
-
-
梯度步长控制:
- 该并行化策略显著提升梯度计算速度,支持在每个 GICP 位姿更新期间执行更多内循环梯度步骤;
- 但需注意权衡:过快的光度收敛可能导致高斯过度拟合局部颜色 / 特征残差,偏离初始 GICP 协方差隐含的几何结构,进而增加相机漂移;
- 因此,FeatureSLAM 对每帧的梯度步骤数进行限制,在计算吞吐量与跟踪稳定性之间取得平衡。
2.2.6 建模损失函数设计
FeatureSLAM 采用多目标损失函数,联合优化外观、特征、深度与几何一致性,总损失为:

各损失项的具体定义与权重设计如下:
-
RGB 损失:融合 L1 损失与 SSIM,平衡像素级精度与感知质量:

其中
和
分别控制 L1 损失与 SSIM 损失的权重,实验中采用
:
=1 :0.1。
-
特征损失:通过 L1 损失确保渲染特征与观测特征的一致性,强化语义信息保留:

其中
为渲染特征图,
为 SAM2 提取的观测特征图,
设置为 0.5 以平衡特征与外观优化。
-
深度损失:融合 L1 损失与 PCC 损失,兼顾绝对深度精度与相对深度结构:

其中
为块级 Pearson 相关系数(采用 =8的块大小),
:
=1 :0.2。
-
法向量损失:通过余弦相似度惩罚法向量不一致性:

其中
设置为 0.1,确保法向量约束不过度主导优化过程。
-
正则化损失:
与
的权重分别设置为 =0.01(渐进增长)和
=0.001,温和约束高斯形状。
2.2.7 关键帧选择与地图管理
-
关键帧选择策略:
- 定义关键帧插入条件:当前相机位姿
与上一关键帧位姿
满足以下任一条件:
- 平移偏差
(=5cm);
- 旋转偏差
(=
);
- GICP 残差
(为预定义的不确定性阈值);
- 平移偏差
- 跟踪帧仅用于位姿优化,不更新 3DGS 模型;关键帧用于插入新高斯并触发模型优化,平衡地图精度与实时性。
- 定义关键帧插入条件:当前相机位姿
-
语义梯度剪枝与细化:
-
重要性得分计算:融合光度损失与特征损失的梯度贡献,定义高斯重要性得分:

其中为受高斯
影响的像素集合,
=1:0.5,确保颜色与特征重要性平衡。
-
自适应剪枝策略:
- 跟踪关键帧采用保守剪枝:移除得分最低的 10% 高斯,避免删除潜在的跟踪对应点;
- 地图关键帧采用激进剪枝:移除得分最低的 30% 高斯,控制地图规模;
- 额外执行标准 3DGS 剪枝:移除过大(尺度超过阈值)或透明度过低(
<0.01)的高斯。
-
-
轨迹后优化(可选):
- 在线 SLAM 完成后,固定最终位姿图,利用所有关键帧对高斯模型进行全局优化;
- 首先重新计算全图的 3D 距离滤波器,确保尺度与透明度正则化一致;
- 执行 3k-5k 次额外优化步骤,修正在线训练积累的微小不一致;
- 该过程仅增加约 1 分钟计算时间,却能显著提升地图保真度,且不影响在线实时性能。
3. 实验验证与结果分析
3.1 实验设置
- 数据集:采用两个互补基准测试集:
- Replica:虚拟室内场景,提供逼真、无噪声的 RGB-D 数据,用于评估理想条件下的性能;
- TUM RGB-D:手持采集的真实场景数据,包含传感器噪声、运动模糊与深度缺失,用于评估实际部署鲁棒性。
- 硬件平台:Intel Core i9-10900K CPU(32GB RAM)+ NVIDIA RTX 3090 GPU(24GB VRAM)。
- 评估指标:
- 跟踪精度:绝对轨迹误差(ATE)RMSE;
- 渲染质量:PSNR、SSIM、LPIPS;
- 深度质量:L1 误差、精度、召回率、F1 分数;
- 语义精度:平均交并比(mIoU)、像素准确率;
- 实时性:总运行时间(含跟踪与建图)。
- 对比方法:涵盖四类主流方法:RGB/RGB-D NVS SLAM(如 PointSLAM、GS-ICP-SLAM)、封闭集语义 SLAM(如 SemGauss-SLAM、GS3SLAM)、开放集语义 SLAM(OVO-SLAM)、离线特征蒸馏 3DGS(如 Feature3DGS、LERF)。
3.2 核心实验结果
3.2.1 跟踪与重建精度
Replica 数据集结果(表 1):

FeatureSLAM 在 Replica 数据集上实现了最优的跟踪精度(ATE=0.15m),同时渲染质量(PSNR=41.22dB)与深度精度(L1=0.73cm)显著超越现有方法。与最快的 GS-ICP-SLAM 相比,ATE 降低 9%,深度误差降低 84%,且仅需 4.44 分钟完成建图,远快于离线语义 SLAM 方法(如 GS3LAM 需 152.40 分钟)。
TUM RGB-D 数据集结果(表 2):

在真实噪声场景中,FeatureSLAM 的 ATE(2.05m)低于 GS-ICP-SLAM(2.64m),渲染质量(PSNR=18.82dB)优于所有对比方法,证明其在实际环境中的鲁棒性。虽然运行时间长于 Photo-SLAM 等 decoupled 方法,但提供了语义理解能力,且地图质量更优。
3.2.2 开放集分割性能
为评估开放集语义理解能力,FeatureSLAM 与离线特征蒸馏 3DGS 方法在 Replica 数据集上进行零样本新颖视图分割对比(表 3):

FeatureSLAM 以 5.4 分钟的训练时间(仅为次快方法 LERF 的 12%),实现了 46.3% 的 mIoU,远超所有对比方法,证明其在线开放集分割能力已达到甚至超越离线方法水平。其中,mIoU 比 Feature3DGS 高 16%,比 OVO-G.-SLAM 高 108%,充分体现了 SAM2 特征与 3DGS 融合的有效性。
3.2.3 定性结果分析
新颖视图渲染对比(图 3)显示,FeatureSLAM 重建的场景细节更丰富,无明显漂浮伪影,边缘轮廓更清晰,优于 CartGS、GS-ICP-SLAM 等方法。

语义分割结果(图 5-8)表明,FeatureSLAM 的无提示分割能准确捕捉物体边界,即使在低纹理区域也能保持语义一致性;语言引导分割支持灵活查询(如 "chair"),分割结果与自然语言描述精准匹配,且支持开放集查询,无需预定义类别。


3.3 消融实验分析
3.3.1 剪枝策略影响(表 6、7)


- 跟踪关键帧剪枝率越高,ATE 越大(如 20% 剪枝时 ATE=2.88m vs 0% 剪枝时 ATE=2.02m),但地图规模更小;
- 地图关键帧采用 30% 剪枝时,能在保持 ATE 稳定(2.02m)的同时,平衡渲染质量与运行效率,为最优选择。
3.3.2 轨迹后优化影响(表 8)

- 增加后优化迭代次数可显著提升 PSNR 与 SSIM,5k 迭代时 PSNR 达 37.03dB(较无优化提升 4.7%),但超过 3k 后收益递减;
- 3k 迭代为最优权衡,仅增加 57 秒计算时间,PSNR 提升 2.5%,LPIPS 降低 10%。
3.3.3 特征维度影响(表 10)

- 特征维度D从 16 增至 32 时,mIoU 从 38.7% 提升至 48.1%,但 PSNR 与 SSIM 提升趋于平缓;
- D=24时实现最优平衡:mIoU=46.3%,PSNR=18.82dB,且内存占用与计算速度满足实时要求。
4. 结论与未来展望
4.1 核心贡献总结
FeatureSLAM 通过将多尺度基础模型特征与 3D 高斯溅射深度融合,实现了三大核心突破:
- 提出首个实时在线的特征增强 3DGS SLAM 框架,支持开放集语义映射;
- 设计特征引导的 GICP 跟踪策略,融合几何与语义信息,提升低纹理场景的跟踪稳定性;
- 提出结构感知深度渲染、语义梯度剪枝等优化策略,在保证实时性的同时,提升地图保真度与语义表达能力。
定量结果显示,FeatureSLAM 的 ATE 比现有基线低 9%,地图精度高 8%,开放集分割 mIoU 达 46.3%,且运行速度满足实时要求(约 5 FPS),为机器人导航、增强现实(AR)等应用提供了高性能解决方案。
4.2 未来工作方向
论文指出未来将重点关注:
- 利用嵌入特征实现闭环检测,进一步提升长轨迹跟踪稳定性;
- 优化特征压缩与计算效率,适配资源受限设备(如边缘计算平台);
- 拓展多模态特征融合(如融合音频、惯性测量数据),提升极端场景鲁棒性;
- 探索动态场景中的语义分割与跟踪,适配更复杂的真实环境。
5. 总结
FeatureSLAM 创新性地将基础视觉模型的细粒度特征与 3D 高斯溅射 SLAM 相结合,突破了传统 SLAM 在语义理解与实时性上的双重限制。其核心设计 ------ 多尺度特征嵌入、语义 - 几何联合跟踪、结构感知深度渲染等,为 SLAM 技术的发展提供了新的思路。实验证明,该框架不仅在跟踪精度与地图质量上达到当前最优水平,还支持开放集分割、语言引导交互等新型下游任务,有望推动 SLAM 技术在智能机器人、AR/VR 等领域的实际应用。