清华Mars Lab发布SLAM-Former:用一个Transformer统一SLAM的前端与后端(附项目地址)

将前端跟踪与后端优化统一在一个模型中,实现实时、高一致性的视觉SLAM

在机器人感知领域,同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术至关重要。它使机器人能够在未知环境中构建地图,并同时跟踪自身位置,是实现自主导航的核心技术。

传统SLAM系统通常分为前端 (实时跟踪与局部建图)和后端(全局优化与回环检测),二者分离设计,虽成熟但存在误差累积与全局一致性难以保证的问题。

传统SLAM的局限与神经SLAM的兴起

早期SLAM系统如ORB-SLAM、LSD-SLAM等主要依赖稀疏特征点,虽然高效稳定,但无法提供丰富的环境几何信息。近年来,随着深度学习的发展,尤其是光流估计多视图深度估计 技术的进步,基于单目相机的密集SLAM 方法逐渐成熟。

这类方法仅依靠图像输入就能实现高质量的地图重建,例如DROID-SLAM、SceneFactory等。近年来,更出现了基于几何基础模型(如DUSt3R、VGGT)的SLAM系统,如MASt3R-SLAM、VGGT-SLAM等。

然而,这些方法仍存在明显缺陷:

  • 依赖局部子图对齐,导致全局不一致
  • 增量式处理方法无法修正历史估计,造成漂移现象

SLAM-Former:统一的前端-后端Transformer架构

清华大学Mars Lab团队提出SLAM-Former ,将完整的SLAM能力集成于单一Transformer模型中。其核心思想是:前端与后端共享同一套Transformer骨干网络,交替执行,相互促进

前端负责实时处理序列图像,进行关键帧检测、姿态估计与增量式地图更新;后端则以较低频率启动,对所有历史地图令牌进行全局优化,确保几何一致性。

关键技术设计

  • 前端:实时跟踪与建图

前端采用因果注意力机制,每到来一帧图像,模型会决定是否将其设为关键帧。若是,则利用历史KV缓存生成新的地图令牌,并更新当前地图状态:

  • 后端:全局优化

后端使用全注意力机制,对所有地图令牌进行一次性优化:

这种设计相当于在密集因子图上执行回环检测,无需传统SLAM中复杂的图优化模块。

  • 缓存共享机制

后端优化后的KV缓存会更新至前端,使得后续帧能在优化后的全局结构基础上进行跟踪,显著减少长序列中的误差累积。

三种训练模式

SLAM-Former通过三种训练模式统一前端与后端功能:

  • 模式1(前端训练): 使用因果注意力,模拟在线推理
  • 模式2(前后端协作训练): 混合注意力,后端优化与前端处理同步进行
  • 模式3(后端训练): 全注意力,专注于全局一致性优化

三种模式在单次迭代中顺序执行,共享模型权重,实现端到端联合训练。

实验成果

  • 跟踪性能领先

在TUM RGB-D、7-Scenes和Replica等标准数据集上,SLAM-Former在未标定设置下显著优于现有方法,甚至在许多场景下超越需要相机标定的传统方法。

  • 重建质量大幅提升

在7-Scenes数据集上,SLAM-Former的重建精度达到0.017m,比其他方法提升约50%以上;在Replica数据集上同样取得最佳重建质量。

  • 前后端协作的有效性

消融实验证明,后端模块的引入显著提升了系统性能。前端单独使用会随时间的推移积累误差,而结合后端后,系统能保持全局一致性。

实时性能

SLAM-Former在保持高质量的同时,也满足了实时性要求:

  • 关键帧检测:< 100ms
  • 前端处理:< 100ms
  • 整体速度:> 10Hz

总结

SLAM-Former首次将完整SLAM能力整合到单一Transformer中,通过前端-后端的交替协作,在保持实时性的同时实现了全局一致性,在多个标准数据集上取得了领先的性能。

当前局限与未来方向:

后端全注意力的O(n²)复杂度限制可扩展性

需探索稀疏注意力、令牌合并等Transformer加速技术

支持纯局部前端模式,减少历史依赖

SLAM-Former为神经SLAM的发展开辟了新方向,证明统一的前端-后端设计能在单一模型中实现高效、一致的SLAM能力,为机器人的长期自主运行奠定了基础。

文档及项目地址

perl 复制代码
文档地址:https://arxiv.org/abs/2509.16909Github 
项目地址:https://tsinghua-mars-lab.github.io/SLAM-Former/
相关推荐
mjhcsp20 小时前
C++ 递推与递归:两种算法思想的深度解析与实战
开发语言·c++·算法
_OP_CHEN20 小时前
算法基础篇:(三)基础算法之枚举:暴力美学的艺术,从穷举到高效优化
c++·算法·枚举·算法竞赛·acm竞赛·二进制枚举·普通枚举
高洁0120 小时前
面向强化学习的状态空间建模:RSSM的介绍和PyTorch实现(3)
人工智能·python·深度学习·神经网络·transformer
m0_7482480220 小时前
《详解 C++ Date 类的设计与实现:从运算符重载到功能测试》
java·开发语言·c++·算法
天选之女wow20 小时前
【代码随想录算法训练营——Day61】图论——97.小明逛公园、127.骑士的攻击
算法·图论
im_AMBER21 小时前
Leetcode 47
数据结构·c++·笔记·学习·算法·leetcode
kyle~21 小时前
算法数学---差分数组(Difference Array)
java·开发语言·算法
从零开始的奋豆21 小时前
计算机视觉(一):相机标定
计算机视觉
apocalypsx21 小时前
深度学习-深度卷积神经网络AlexNet
人工智能·深度学习·cnn
橘颂TA21 小时前
机器人+工业领域=?
算法·机器人