近年来,SLAM(Simultaneous Localization and Mapping) 研究正经历一场深刻的范式变革。传统以"几何主导"的方法逐渐被一种更智能、更鲁棒、更具泛化能力的 「几何 + 学习 + 语义 + 高效表示」 融合架构所取代。这一趋势不仅体现在算法设计上,也反映在系统部署、多模态感知与大模型赋能等多个层面。
本文将围绕近年来顶会顶刊中聚焦的 六大核心趋势,梳理六篇代表性论文(SLAM-Former、MAGiC-SLAM、RUSSO、SPAQ-DROID、Hier-SLAM、FoundationSLAM),深入解析其技术路线、创新点,并附上开源地址与详细描述,帮助读者全面把握当前SLAM领域的前沿动态。

🔍 1. 深度学习 + 几何融合:SLAM-Former
✅ 论文名称:SLAM-Former: A Transformer-Based Unified Framework for Visual SLAM
📅 会议:CVPR'25
💡 核心创新:Transformer统一前后端
🖥️ GitHub:https://github.com/SLAM-Former/SLAM-Former
简介:
SLAM-Former 是首个完全基于 Transformer 架构的视觉 SLAM 系统,打破了传统 SLAM 中前端(特征提取)与后端(位姿优化)分离的设计模式。它使用一个统一的 Transformer 编码器-解码器结构,同时处理图像序列、关键帧匹配和位姿估计任务。
关键技术点:
- 使用 时空注意力机制 对连续帧进行建模,捕捉长期运动依赖;
- 前端采用 自监督学习策略,无需人工标注即可训练;
- 后端引入 BA(Bundle Adjustment)模块,嵌入于 Transformer 解码器中,实现端到端优化;
- 支持实时运行,在 VIO 和纯视觉场景下均表现优异。
优势:
- 统一架构简化了系统复杂度;
- 在动态场景下表现出更强的鲁棒性;
- 可扩展性强,易于集成其他模态或任务。
适用场景:机器人导航、AR/VR、自动驾驶中的视觉定位。
🔮 2. 隐式表示革新:MAGiC-SLAM
✅ 论文名称:MAGiC-SLAM: Multi-View Geometry with Implicit 3D Gaussian Splatting
📅 会议:CVPR'25
💡 核心创新:3DGS + 子图闭环
🖥️ GitHub:https://github.com/MAGiC-SLAM/MAGiC-SLAM
简介:
MAGiC-SLAM 将最新的 3D Gaussian Splatting(3DGS) 技术引入 SLAM 系统,实现了高质量、可微分的三维重建。相比传统的网格或点云表示,3DGS 更加紧凑且渲染质量更高。
关键技术点:
- 使用 隐式函数表示法 表达环境,每个高斯分布代表一个局部体积;
- 提出 子图级闭环检测机制,避免全局优化带来的计算瓶颈;
- 实现了 增量式更新,支持在线重建;
- 与传统方法相比,重建精度提升约 15%,内存占用减少 30%。
亮点:
- 支持动态物体移除与遮挡处理;
- 输出结果可用于后续的神经渲染任务;
- 为未来"数字孪生"提供高质量底座。
挑战:目前仍需较高 GPU 资源,适合服务器端部署。
🔄 3. 多模态融合:RUSSO
✅ 论文名称:RUSSO: Robust Underwater SLAM using Sonar, Vision, and IMU Fusion
📅 会议:IROS'25
💡 核心创新:声呐 + 视觉 + IMU 融合
🖥️ GitHub:https://github.com/RUSSO-SLAM/RUSSO
简介:
RUSSO 是面向水下环境的多模态 SLAM 系统,专为解决深海低光照、无GPS条件下的导航难题而设计。该系统首次实现了 声呐(Sonar)、视觉(Camera)与惯性测量单元(IMU) 的深度融合。
关键技术点:
- 设计了一种 跨模态特征对齐模块,解决不同传感器空间尺度不一致问题;
- 使用 因子图优化框架,将各传感器观测统一建模;
- 引入 动态权重分配机制,根据环境变化自动调节各模态置信度;
- 在真实海洋实验中达到亚米级定位精度。
应用场景:
- 海底探测
- 水下机器人自主巡航
- 潜艇导航辅助
意义:打破了单一传感器局限,推动了极端环境下 SLAM 的实用化进程。
⚙️ 4. 轻量化部署:SPAQ-DROID
✅ 论文名称:SPAQ-DROID: Sparse Quantized DROID for Efficient Visual SLAM on Edge Devices
📅 会议:ICRA'25
💡 核心创新:剪枝 + 量化
🖥️ GitHub:https://github.com/SPAQ-DROID/SPAQ-DROID
简介:
SPAQ-DROID 是 DROID-SLAM 的轻量化版本,专注于在移动设备(如手机、无人机)上实现高性能 SLAM。通过模型压缩技术大幅降低推理成本。
关键技术点:
- 应用 结构化剪枝(Structured Pruning) 移除冗余卷积层;
- 使用 混合精度量化(INT8/FP16) 降低内存访问频率;
- 保留原始 DROID 的 光流+BA优化流程,保证精度;
- 在 Jetson AGX Orin 上实现实时运行(>30 FPS)。
性能对比:
- 模型大小减少 60%
- 推理延迟下降 45%
- 定位误差仅增加 <5%
目标用户:消费级 AR/VR 设备、小型无人机、智能眼镜开发者。
🤖 5. 大模型 + 具身智能:Hier-SLAM
✅ 论文名称:Hier-SLAM: Hierarchical Semantic SLAM with Large Language Models
📅 会议:ICRA'25
💡 核心创新:LLM语义层级 + 3DGS
🖥️ GitHub:https://github.com/Hier-SLAM/Hier-SLAM
简介:
Hier-SLAM 是首个将 大型语言模型(LLM) 用于 SLAM 语义理解的系统。它构建了一个层次化的语义地图,允许机器人理解"房间"、"走廊"、"厨房"等抽象概念,并据此规划路径。
关键技术点:
- 使用 CLIP + LLM 提取图像语义标签;
- 构建 语义树结构,将物体组织成类目层级(如家具→椅子→沙发);
- 将语义信息注入 3DGS 地图,实现"可读"地图;
- 支持自然语言指令驱动导航(如:"去客厅拿遥控器")。
创新之处:
- 实现了"具身智能"初步形态;
- 语义地图可被人类直接解读;
- 开启了人机协作的新范式。
潜在应用:
- 家庭服务机器人
- 医疗陪护机器人
- 智能楼宇管理
🛠️ 6. 鲁棒架构升级:FoundationSLAM
✅ 论文名称:FoundationSLAM: A Foundation Model for Generalizable SLAM
📅 会议:AAAI'26(预计)
💡 核心创新:深度基础模型 + BA
🖥️ GitHub:https://github.com/FoundationSLAM/FoundationSLAM
简介:
FoundationSLAM 是 SLAM 领域迈向"基础模型"时代的里程碑工作。它提出一个通用的 深度基础模型(Deep Foundation Model),能够适配多种传感器输入、任务类型和环境条件。
核心技术架构:
- 采用 预训练 + 微调 策略,在大规模数据集上训练通用 SLAM 模块;
- 内置 自适应 BA 模块,可根据输入不确定性动态调整优化策略;
- 支持 零样本迁移,例如在未见过的室内环境中快速启动;
- 提供 API 接口,便于第三方集成。
三大特性:
- 通用性:支持单目、双目、RGB-D、LiDAR 等多种输入;
- 鲁棒性:在光照变化、动态物体、遮挡等条件下保持稳定;
- 可扩展性:可通过插件形式添加新功能(如语义分割、轨迹预测)。
愿景:成为未来机器人系统的"通用感知引擎"。
📊 总结对比表

🔮 展望未
SLAM 正从"工具级"向"智能体级"跃迁。未来的 SLAM 不再仅仅是定位与建图,而是将成为 具身智能(Embodied AI)的核心组件,具备以下特征:
- 通用性:一个模型适应所有场景;
- 语义理解:能理解世界并回应指令;
- 持续学习:可在运行中自我进化;
- 低资源部署:支持从手机到卫星的全栈覆盖。