1 前言
目前市面上的辅助驾驶功能,应用场景主要包括城区,高速以及地下停车场等场景,跑好村路的都不多,更别说山路,野路了。本篇博客主要介绍一种新的无地图(不包括SD图)导航算法。
无地图导航要求智能体在无先验地图条件下,仅通过自身感知完成长距离移动,核心依赖映射(Mapping)和规划(Planning)能力。传统方法采用显式建图与规划分离的流程;端到端强化学习则通过 RNN 隐式融合历史与当前观测,但存在显著局限。

本篇博客所述论文于 2025 年 10 月发布,聚焦无地图长距离导航任务,核心是提出空间增强循环单元(SRU)解决传统循环神经网络(RNN)空间记忆不足的问题,结合注意力机制与强化学习,实现仅依赖单目前向立体相机的端到端导航,并完成零样本仿真到真实场景的迁移。
2 SRU+架构
在此之前,先简单总结无图导航(不包括SD图)的难点:
- 传统 RNN(如 LSTM、GRU)擅长捕捉时间依赖,但难以有效处理空间记忆,无法将不同视角的序列观测进行空间变换与整合,形成连贯的空间表征。
- 长距离导航中,视角变化导致观测的空间错位,现有模型易丢失全局空间信息,影响规划精度与鲁棒性。
- 仿真到真实场景的迁移难度大,感知噪声与环境差异导致模型泛化能力不足。
论文提出 SRU + 注意力机制的网络架构,配合强化学习训练策略与仿真到真实迁移方案,具体如下:
2.1 空间增强循环单元(SRU)
SRU 是对传统 RNN 单元的改进,核心是增强空间记忆能力,实现观测的空间对齐与整合。
- 设计思路:在循环单元中引入空间变换模块,通过学习隐式的空间转换矩阵,将当前观测与历史记忆进行空间对齐,解决视角变化导致的观测错位问题。
- 结构改进
- 输入变换:对当前观测(图像特征)进行空间编码,生成带空间信息的特征向量。
- 记忆融合:通过门控机制融合历史记忆与当前空间特征,更新记忆状态时保留空间一致性。
- 输出生成:结合空间增强的记忆状态,输出用于规划的隐向量。
- 优势:无需显式建图,通过循环单元隐式完成空间表征构建,计算效率高于显式建图方法。
2.2 强化学习架构
整体网络架构以 SRU 为核心,结合注意力机制提升规划能力,具体流程如下:
- 感知输入:单目前向立体相机获取 RGB 图像与深度信息,经卷积神经网络(CNN)提取特征。
- SRU 记忆模块:输入 CNN 特征与上一时刻记忆状态,输出空间增强的当前记忆状态。
- 注意力机制:计算当前观测与历史记忆的注意力权重,聚焦关键空间信息,辅助规划决策。
- 策略网络:融合注意力输出与记忆状态,输出导航动作(如速度、转向角)。
- 强化学习训练:采用近端策略优化(PPO)算法,以导航成功率、路径长度等为奖励信号,端到端训练网络。
2.3 仿真到真实的零样本迁移
为解决泛化问题,采用以下方案:
- 大规模仿真预训练:在多样化的合成环境中训练模型,学习鲁棒的空间表征。
- 深度噪声模型:在训练中加入并行化的深度噪声模拟真实传感器噪声,提升模型抗干扰能力。
- 硬件适配:针对腿轮式机器人平台,优化模型推理速度,适配真实场景的实时性要求。
3 实验设计与结果
3.1 实验设置
- 环境:仿真环境采用 Habitat 等大规模 3D 场景,真实场景涵盖室内外多样化地形。
- 对比基线:传统 RNN(LSTM、GRU)、显式建图 + 规划的 RL 方法、堆叠历史观测的 RL 方法。
- 评价指标:导航成功率、路径效率、终点误差、整体性能提升百分比等。
3.2 实验结果
| 对比对象 | 性能提升 | 核心结论 |
|---|---|---|
| 传统 RNN(LSTM/GRU) | 23.5% | SRU 有效解决空间记忆不足问题 |
| 显式建图 RL 基线 | 29.6% | 隐式空间记忆优于显式建图方案 |
| 堆叠历史观测 RL 基线 | 105.0% | SRU + 注意力机制大幅提升长距离导航鲁棒性 |
3.3 迁移实验
模型在仿真环境预训练后,直接部署到真实腿轮式机器人,仅使用单目前向立体相机,在无地图条件下完成长距离导航,验证零样本迁移能力。
3.4 消融实验
- 去除 SRU:性能显著下降,证明空间增强模块的必要性。
- 去除注意力机制:路径规划精度降低,验证注意力对关键空间信息提取的作用。
- 去除深度噪声模型:真实场景中鲁棒性下降,证明噪声训练的有效性。
4 总结
论文主要通过 SRU 单元弥补传统 RNN 的空间记忆短板,结合注意力机制与强化学习,实现高效的无地图长距离导航,且具备零样本迁移能力。未来可进一步优化 SRU 的空间变换效率,拓展多传感器融合场景,并探索在动态环境中的应用。
参考文献:
《Spatially-Enhanced Recurrent Memory for Long-Range Mapless Navigation》
开源代码: