【机器人】REGNav 具身导航 | 跨房间引导 | 图像目标导航 AAAI 2025

REGNav 突破跨房间导航瓶颈，让智能体像人一样推理空间关系;

通过 "先学房间风格，再学导航决策" 的分层思路，解决跨房间导航的视觉关联难题。

让机器人学会 "看风格识空间"------ 通过房间的装饰、家具、布局等稳定特征判断位置关系，再结合视觉细节导航。

这种 "先判断大方向，再寻找精确位置" 的思路，让机器人导航更接近人类的自然认知方式，是具身智能领域的进展。

论文地址：REGNav: Room Expert Guided Image-Goal Navigation

代码地址：https://github.com/leeBooMla/REGNav

一、框架思路流程

REGNav 的框架思路流程，如下图所示：

分 离线预训练--找房间（左图 a） 和 在线导航（右图 b） 两个阶段拆解，核心是 "先让模型学会'认房间风格'，再用这种能力指导导航决策"。

分层决策：先通过 "房间专家" 判断宏观空间关系 （是否同房间），再通过视觉特征优化微观路径规划（如同一房间内找目标物体），模仿人类 "先找区域，再找细节" 的导航习惯。
无监督预训练的价值：避免人工标注房间标签的成本，同时让模型学习环境固有规律（如不同房屋的房间风格差异），提升泛化能力。
轻量与高效：仅依赖单目 RGB 相机，无需深度传感器 / GPS，硬件部署灵活；预训练的房间专家可复用，降低在线训练成本。

1.1 左图（a）：房间专家的离线预训练 ------ 无监督学习房间风格

目标：让模型学会从图像中提取房间风格特征，并判断 "两张图像是否来自同一房间"（无需人工标注房间标签）。

A. 数据输入与预处理

无标签数据 ：从 Gibson 数据集选取室内图像（涵盖不同房间、不同房屋），但没有人工标注的 "房间类别" 标签。
数据清洗：用 SAM 模型过滤无效图像（如纯墙面、过暗画面），保留包含房间风格的有效样本。

B. 核心流程：从特征提取到伪标签生成

（1）风格特征提取：

通过 风格编码器 Es（ResNet-50 backbone），将每张图像转化为低维风格特征向量（捕捉房间的装饰、布局、材质等风格信息）。

（2）约束驱动的距离修正：

利用环境固有规律 （无需人工标注）构建 约束集（Constraints set），修正特征间的距离矩阵 D：

Must-link（必须关联）：同一位置拍摄的图像→必属同一房间（距离设为小值，如约束值 1）。
Cannot-link（不能关联）：不同房屋的图像→必属不同房间（距离设为大值，如约束值 - 1）。
其他情况（同房屋不同难度任务）：按概率设置约束值（0.5 或 - 0.5）。
修正公式：Refined Distance=D−γ×约束矩阵（γ 是修正强度）。

（3）聚类与伪标签生成：

基于修正后的距离矩阵，用 InfoMap 聚类算法 将风格相似的特征聚为一类，生成伪标签（同一聚类内的图像视为 "同房间"，不同聚类视为 "不同房间"）。

B. 双损失训练优化模型

聚类损失 Lcluster：让同一聚类的风格特征更接近（类似对比学习，拉近同类距离）。
关系预测损失 Lpred ：训练 关系网络 Er 直接判断 "两张图像是否同房间"，输入是两张图像的风格特征，输出是二元分类结果（同房间 / 不同房间），与伪标签计算交叉熵损失。
总损失：Ltotal = Lcluster + ωLpred（ω 平衡两个损失的权重），优化 Es 和 Er 的参数。

1.2 右图（b）：融合房间专家的图像目标导航架构（把 "房间知识" 融入导航决策）

目标：利用预训练好的 "房间专家"（Es 和 Er 冻结参数），指导智能体在未知环境中从当前观测 It 导航到目标图像 Ig 对应的位置。

A. 输入感知：当前观测与目标图像

智能体通过 RGB 传感器获取 当前视角图像 It ，同时接收 目标图像 Ig（导航终点的参考图像）。

B. 两大特征流：房间关系 + 视觉细节

（1）房间关系推理（宏观决策）：

It 和 Ig 分别输入 风格编码器 Es （复用预训练的权重，冻结参数，保证风格特征一致），输出两者的风格特征向量。
风格特征输入 关系网络 Er （同样冻结参数），输出 房间关系预测（如 "同房间" 概率 0.8，"不同房间" 概率 0.2），指导智能体判断 "是否需要找房间出口"。

（2）视觉细节提取（微观决策）：

将 It 和 Ig 通道拼接 （变成 6 通道图像，同时包含当前和目标的视觉细节），输入 视觉特征提取器 Ev （ResNet-9，从头训练），提取视觉语义特征 vvis（捕捉物体位置、视角差异等细节）。

C. 特征融合与导航决策

融合特征 ：将 "房间关系信息" 与 "视觉特征 vvis" 拼接，输入 导航策略网络 π（Actor-Critic 架构）。
强化学习训练 ：
- Actor：输出动作 at（前进、转向、停止）；
- Critic：评估当前状态的价值（预测未来奖励）；
- 环境反馈：根据动作 at 给予奖励 rt（距离缩减、角度修正、成功奖励等，见前文公式），反向优化策略 π。

2、图像目标导航

图像目标导航（ImageNav）的核心任务是：

让智能体在未知环境中，仅通过一张目标图像 Ig（拍摄于目标位置）
从随机初始位置 p0 出发，通过自身携带的 RGB 传感器实时获取的第一视角图像 It，自主导航至目标图像对应的精确位置。

在每个时间步 t，智能体的决策流程为：

感知：通过 RGB 传感器获取当前环境的观测图像 It；
决策：基于当前观测 It 和目标图像 Ig 的特征，通过训练好的强化学习策略输出动作 at（包括前进 0.25m、左转 30°、右转 30°、停止）；
反馈：环境根据动作给予奖励 rt，鼓励智能体以最短路径到达目标。

奖励机制的设计直接影响导航效率，REGNav采用的奖励函数为：

rd 是与目标距离的缩减奖励（距离越近奖励越高）；
rα 是视角角度的修正奖励（视角与目标方向越一致奖励越高）；
γ 是效率惩罚项（避免无意义徘徊）；
当智能体到达目标 1 米范围内（ds=1m）且视角偏差≤25°（αs=25∘）时，获得最大成功奖励

3、第一阶段：房间专家（Room Expert）的离线预训练

房间专家的核心目标是：让智能体学会从 RGB 图像中提取房间风格特征，并判断 "两张图像是否来自同一房间"。

这一阶段无需人工标注房间类别，完全通过无监督学习实现。

3.1 数据集收集：聚焦 "风格而非物体" 的图像选取

为确保模型学习房间风格（如装饰、布局、材质）而非物体差异，数据集需满足：

包含同一房间不同角度的图像（物体不同但风格一致）；
覆盖不同场景 / 房屋的图像（保证风格泛化性）；
过滤无效图像（如传感器过近拍摄的纯墙面 / 纯黑图像）。

最终数据来自 Gibson 室内数据集的训练场景（与导航任务环境一致，避免数据偏差），并通过 SAM（Segment Anything Model）图像分割工具筛选：保留物体掩码数量≥阈值的图像，剔除空白 / 无效样本，确保输入图像包含有效房间风格信息。

3.2 无监督学习：基于约束规则的房间关系推理

由于缺乏人工标注的 "房间类别" 标签，REGNav 设计了基于环境固有规律的 "必须关联（must-link）" 和 "不能关联（cannot-link）" 约束，自动生成训练标签：

约束规则（用于构建距离修正矩阵 M）：
1. 若两张图像来自不同房屋 → 必属不同房间（cannot-link），设 Mi,j=−1；
2. 若两张图像拍摄于同一位置→ 必属同一房间（must-link），设 Mi,j=1；
3. 若同一场景且任务难度为 "简单"（距离近）→ 可能同一房间，设 Mi,j=0.5；
4. 若同一场景且任务难度为 "困难"（距离远）→ 可能不同房间，设 Mi,j=−0.5。
模型训练流程：
1. 特征提取：采用预训练的 ResNet-50 作为风格编码器 Es，提取所有图像的风格特征向量；
2. 距离修正：通过约束矩阵 M 优化特征间的距离矩阵 D；
3. 聚类与伪标签生成：基于修正后的距离矩阵，用 InfoMap 聚类算法将风格相似的特征聚为一类，生成伪标签；
4. 双损失优化：
  - 聚类损失 Lcluster：让同类风格特征更接近；
  - 关系损失 Lpred：训练关系网络 Er 判断 "两张图像是否同房间"，采用交叉熵损失；
  - 总损失：Ltotal = Lcluster + ωLpred（ω 为损失平衡参数）。

4、第二阶段：导航策略学习 ------ 融合房间知识的决策优化

在预训练好房间专家后，REGNav 冻结其参数，重点训练视觉编码器和导航策略，核心是将房间关系知识高效融入导航决策，设计了两种融合方案。

4.1 视觉特征提取：目标与观测的联合编码

视觉特征提取器以 "观测图像 It 与目标图像 Ig 的通道拼接" 为输入（形成 6 通道图像），

通过视觉编码器 Ev 提取语义特征，公式为：

其中 ⊕ 表示通道维度拼接，确保模型同时捕获观测与目标的细节关联。

4.2 两种融合方式：房间知识如何指导导航？

隐式融合：直接将视觉特征与房间风格嵌入融合，让智能体自主推断空间关系。

融合特征为房间风格编码器输出的观测特征 Es(It)、目标特征 Es(Ig) 与视觉特征 Vvis 的拼接，动作决策公式为：

显式融合：通过房间关系网络直接输出 "是否同房间" 的二元关系，作为导航先验。

先通过关系网络计算空间关系：（输出为 2 维向量，表示同房间 / 不同房间的概率）

再将关系特征与视觉特征融合后输入导航策略，公式为：

5、实验验证与效果

数据集选择

Gibson：室内导航经典数据集，用于基准测试（模型训练与测试同域，验证基础能力）。
Matterport3D（MP3D）、Habitat-Matterport3D（HM3D）：场景与 Gibson 差异大，用于跨域泛化测试（验证模型在陌生环境的适应力）。

评估指标

SR（Success Rate，成功率）：成功到达目标（1 米内，视角偏差≤25°）的任务比例 → 测 "能不能到"。
SPL（Success weighted by Path Length，效率成功率）：SPL=SR×（实际路径长度 / 最短路径长度）→ 同时测 "能不能到" 和 "路径是否高效"（值越高，导航越聪明）。

Gibson 测试集上进行验证：（输入单张图片）