清华Mars Lab发布SLAM-Former：用一个Transformer统一SLAM的前端与后端（附项目地址）

将前端跟踪与后端优化统一在一个模型中，实现实时、高一致性的视觉SLAM

在机器人感知领域，同时定位与地图构建（Simultaneous Localization and Mapping，SLAM）技术至关重要。它使机器人能够在未知环境中构建地图，并同时跟踪自身位置，是实现自主导航的核心技术。

传统SLAM系统通常分为前端（实时跟踪与局部建图）和后端（全局优化与回环检测），二者分离设计，虽成熟但存在误差累积与全局一致性难以保证的问题。

传统SLAM的局限与神经SLAM的兴起

早期SLAM系统如ORB-SLAM、LSD-SLAM等主要依赖稀疏特征点，虽然高效稳定，但无法提供丰富的环境几何信息。近年来，随着深度学习的发展，尤其是光流估计 与多视图深度估计 技术的进步，基于单目相机的密集SLAM 方法逐渐成熟。

这类方法仅依靠图像输入就能实现高质量的地图重建，例如DROID-SLAM、SceneFactory等。近年来，更出现了基于几何基础模型（如DUSt3R、VGGT）的SLAM系统，如MASt3R-SLAM、VGGT-SLAM等。

然而，这些方法仍存在明显缺陷：

清华大学Mars Lab团队提出SLAM-Former ，将完整的SLAM能力集成于单一Transformer模型中。其核心思想是：前端与后端共享同一套Transformer骨干网络，交替执行，相互促进。

前端负责实时处理序列图像，进行关键帧检测、姿态估计与增量式地图更新；后端则以较低频率启动，对所有历史地图令牌进行全局优化，确保几何一致性。

前端采用因果注意力机制，每到来一帧图像，模型会决定是否将其设为关键帧。若是，则利用历史KV缓存生成新的地图令牌，并更新当前地图状态：

后端使用全注意力机制，对所有地图令牌进行一次性优化：

这种设计相当于在密集因子图上执行回环检测，无需传统SLAM中复杂的图优化模块。

后端优化后的KV缓存会更新至前端，使得后续帧能在优化后的全局结构基础上进行跟踪，显著减少长序列中的误差累积。

SLAM-Former通过三种训练模式统一前端与后端功能：

三种模式在单次迭代中顺序执行，共享模型权重，实现端到端联合训练。

在TUM RGB-D、7-Scenes和Replica等标准数据集上，SLAM-Former在未标定设置下显著优于现有方法，甚至在许多场景下超越需要相机标定的传统方法。

在7-Scenes数据集上，SLAM-Former的重建精度达到0.017m，比其他方法提升约50%以上；在Replica数据集上同样取得最佳重建质量。

消融实验证明，后端模块的引入显著提升了系统性能。前端单独使用会随时间的推移积累误差，而结合后端后，系统能保持全局一致性。

SLAM-Former在保持高质量的同时，也满足了实时性要求：

SLAM-Former首次将完整SLAM能力整合到单一Transformer中，通过前端-后端的交替协作，在保持实时性的同时实现了全局一致性，在多个标准数据集上取得了领先的性能。

当前局限与未来方向：

后端全注意力的O(n²)复杂度限制可扩展性

需探索稀疏注意力、令牌合并等Transformer加速技术

支持纯局部前端模式，减少历史依赖

SLAM-Former为神经SLAM的发展开辟了新方向，证明统一的前端-后端设计能在单一模型中实现高效、一致的SLAM能力，为机器人的长期自主运行奠定了基础。

perl 复制代码

文档地址：https://arxiv.org/abs/2509.16909Github 
项目地址：https://tsinghua-mars-lab.github.io/SLAM-Former/