【机器人】REGNav 具身导航 | 跨房间引导 | 图像目标导航 AAAI 2025

REGNav 突破跨房间导航瓶颈,让智能体像人一样推理空间关系;

通过 "先学房间风格再学导航决策" 的分层思路,解决跨房间导航的视觉关联难题。

让机器人学会 "看风格识空间"------ 通过房间的装饰、家具、布局等稳定特征判断位置关系,再结合视觉细节导航。

这种 "先判断大方向,再寻找精确位置" 的思路,让机器人导航更接近人类的自然认知方式,是具身智能领域的进展。

论文地址:REGNav: Room Expert Guided Image-Goal Navigation

代码地址:https://github.com/leeBooMla/REGNav

一、框架思路流程

REGNav 的框架思路流程,如下图所示:

离线预训练--找房间(左图 a)在线导航(右图 b) 两个阶段拆解,核心是 "先让模型学会'认房间风格',再用这种能力指导导航决策"。

  1. 分层决策:先通过 "房间专家" 判断宏观空间关系 (是否同房间),再通过视觉特征优化微观路径规划(如同一房间内找目标物体),模仿人类 "先找区域,再找细节" 的导航习惯。
  2. 无监督预训练的价值:避免人工标注房间标签的成本,同时让模型学习环境固有规律(如不同房屋的房间风格差异),提升泛化能力。
  3. 轻量与高效:仅依赖单目 RGB 相机,无需深度传感器 / GPS,硬件部署灵活;预训练的房间专家可复用,降低在线训练成本。

1.1 左图(a):房间专家的离线预训练 ------ 无监督学习房间风格

目标:让模型学会从图像中提取房间风格特征,并判断 "两张图像是否来自同一房间"(无需人工标注房间标签)。

A. 数据输入与预处理

  • 无标签数据 :从 Gibson 数据集选取室内图像(涵盖不同房间、不同房屋),但没有人工标注的 "房间类别" 标签
  • 数据清洗:用 SAM 模型过滤无效图像(如纯墙面、过暗画面),保留包含房间风格的有效样本。

B. 核心流程:从特征提取到伪标签生成

(1)风格特征提取

通过 风格编码器 Es​(ResNet-50 backbone),将每张图像转化为低维风格特征向量(捕捉房间的装饰、布局、材质等风格信息)。

(2)约束驱动的距离修正

利用环境固有规律 (无需人工标注)构建 约束集(Constraints set),修正特征间的距离矩阵 D:

  • Must-link(必须关联):同一位置拍摄的图像→必属同一房间(距离设为小值,如约束值 1)。
  • Cannot-link(不能关联):不同房屋的图像→必属不同房间(距离设为大值,如约束值 - 1)。
  • 其他情况(同房屋不同难度任务):按概率设置约束值(0.5 或 - 0.5)。
  • 修正公式:Refined Distance=D−γ×约束矩阵(γ 是修正强度)。

(3)聚类与伪标签生成

基于修正后的距离矩阵,用 InfoMap 聚类算法 将风格相似的特征聚为一类,生成伪标签(同一聚类内的图像视为 "同房间",不同聚类视为 "不同房间")。

B. 双损失训练优化模型

  • 聚类损失 Lcluster​:让同一聚类的风格特征更接近(类似对比学习,拉近同类距离)。
  • 关系预测损失 Lpred​ :训练 关系网络 Er​ 直接判断 "两张图像是否同房间",输入是两张图像的风格特征,输出是二元分类结果(同房间 / 不同房间),与伪标签计算交叉熵损失。
  • 总损失:Ltotal = Lcluster + ωLpred(ω 平衡两个损失的权重),优化 Es 和 Er 的参数。

1.2 右图(b):融合房间专家的图像目标导航架构(把 "房间知识" 融入导航决策

目标:利用预训练好的 "房间专家"(Es​ 和 Er​ 冻结参数),指导智能体在未知环境中从当前观测 It​ 导航到目标图像 Ig​ 对应的位置。

A. 输入感知:当前观测与目标图像

智能体通过 RGB 传感器获取 当前视角图像 It​ ,同时接收 目标图像 Ig​(导航终点的参考图像)。

B. 两大特征流:房间关系 + 视觉细节

(1)房间关系推理(宏观决策)

  • It 和 Ig 分别输入 风格编码器 Es​ (复用预训练的权重,冻结参数,保证风格特征一致),输出两者的风格特征向量
  • 风格特征输入 关系网络 Er​ (同样冻结参数),输出 房间关系预测(如 "同房间" 概率 0.8,"不同房间" 概率 0.2),指导智能体判断 "是否需要找房间出口"。

(2)视觉细节提取(微观决策)

  • 将 It 和 Ig 通道拼接 (变成 6 通道图像,同时包含当前和目标的视觉细节),输入 视觉特征提取器 Ev​ (ResNet-9,从头训练),提取视觉语义特征 vvis​(捕捉物体位置、视角差异等细节)。

C. 特征融合与导航决策

  • 融合特征 :将 "房间关系信息" 与 "视觉特征 vvis" 拼接,输入 导航策略网络 π(Actor-Critic 架构)。
  • 强化学习训练
    • Actor:输出动作 at(前进、转向、停止);
    • Critic:评估当前状态的价值(预测未来奖励);
    • 环境反馈:根据动作 at 给予奖励 rt(距离缩减、角度修正、成功奖励等,见前文公式),反向优化策略 π。

2、图像目标导航

图像目标导航(ImageNav)的核心任务是:

  • 让智能体在未知环境中,仅通过一张目标图像 Ig(拍摄于目标位置)
  • 从随机初始位置 p0 出发,通过自身携带的 RGB 传感器实时获取的第一视角图像 It,自主导航至目标图像对应的精确位置。

在每个时间步 t,智能体的决策流程为

  1. 感知:通过 RGB 传感器获取当前环境的观测图像 It;
  2. 决策:基于当前观测 It 和目标图像 Ig 的特征,通过训练好的强化学习策略输出动作 at(包括前进 0.25m、左转 30°、右转 30°、停止);
  3. 反馈:环境根据动作给予奖励 rt,鼓励智能体以最短路径到达目标。

奖励机制的设计直接影响导航效率,REGNav采用的奖励函数为

  • rd 是与目标距离的缩减奖励(距离越近奖励越高);
  • rα 是视角角度的修正奖励(视角与目标方向越一致奖励越高);
  • γ 是效率惩罚项(避免无意义徘徊);
  • 当智能体到达目标 1 米范围内(ds=1m)且视角偏差≤25°(αs=25∘)时,获得最大成功奖励

3、第一阶段:房间专家(Room Expert)的离线预训练

房间专家的核心目标是:让智能体学会从 RGB 图像中提取房间风格特征,并判断 "两张图像是否来自同一房间"。

这一阶段无需人工标注房间类别,完全通过无监督学习实现。

3.1 数据集收集:聚焦 "风格而非物体" 的图像选取

为确保模型学习房间风格(如装饰、布局、材质)而非物体差异,数据集需满足:

  • 包含同一房间不同角度的图像(物体不同但风格一致);
  • 覆盖不同场景 / 房屋的图像(保证风格泛化性);
  • 过滤无效图像(如传感器过近拍摄的纯墙面 / 纯黑图像)。

最终数据来自 Gibson 室内数据集的训练场景(与导航任务环境一致,避免数据偏差),并通过 SAM(Segment Anything Model)图像分割工具筛选:保留物体掩码数量≥阈值的图像,剔除空白 / 无效样本,确保输入图像包含有效房间风格信息。

3.2 无监督学习:基于约束规则的房间关系推理

由于缺乏人工标注的 "房间类别" 标签,REGNav 设计了基于环境固有规律的 "必须关联(must-link)" 和 "不能关联(cannot-link)" 约束,自动生成训练标签:

  • 约束规则(用于构建距离修正矩阵 M):

    1. 若两张图像来自不同房屋 → 必属不同房间(cannot-link),设 Mi,j=−1;
    2. 若两张图像拍摄于同一位置→ 必属同一房间(must-link),设 Mi,j=1;
    3. 若同一场景且任务难度为 "简单"(距离近)→ 可能同一房间,设 Mi,j=0.5;
    4. 若同一场景且任务难度为 "困难"(距离远)→ 可能不同房间,设 Mi,j=−0.5。
  • 模型训练流程

    1. 特征提取:采用预训练的 ResNet-50 作为风格编码器 Es,提取所有图像的风格特征向量;
    2. 距离修正:通过约束矩阵 M 优化特征间的距离矩阵 D;
    3. 聚类与伪标签生成:基于修正后的距离矩阵,用 InfoMap 聚类算法将风格相似的特征聚为一类,生成伪标签;
    4. 双损失优化:
      • 聚类损失 Lcluster:让同类风格特征更接近;
      • 关系损失 Lpred:训练关系网络 Er 判断 "两张图像是否同房间",采用交叉熵损失;
      • 总损失:Ltotal = Lcluster + ωLpred(ω 为损失平衡参数)。

4、第二阶段:导航策略学习 ------ 融合房间知识的决策优化

在预训练好房间专家后,REGNav 冻结其参数,重点训练视觉编码器和导航策略,核心是将房间关系知识高效融入导航决策,设计了两种融合方案。

4.1 视觉特征提取:目标与观测的联合编码

视觉特征提取器以 "观测图像 It​ 与目标图像 Ig​ 的通道拼接" 为输入(形成 6 通道图像),

通过视觉编码器 Ev​ 提取语义特征,公式为:

其中 ⊕ 表示通道维度拼接,确保模型同时捕获观测与目标的细节关联。

4.2 两种融合方式:房间知识如何指导导航?

隐式融合:直接将视觉特征与房间风格嵌入融合,让智能体自主推断空间关系。

融合特征为房间风格编码器输出的观测特征 Es​(It​)、目标特征 Es​(Ig​) 与视觉特征 Vvis​ 的拼接,动作决策公式为:

显式融合:通过房间关系网络直接输出 "是否同房间" 的二元关系,作为导航先验。

先通过关系网络计算空间关系:(输出为 2 维向量,表示同房间 / 不同房间的概率)

再将关系特征与视觉特征融合后输入导航策略,公式为:

5、实验验证与效果

数据集选择

  • Gibson:室内导航经典数据集,用于基准测试(模型训练与测试同域,验证基础能力)。

  • Matterport3D(MP3D)、Habitat-Matterport3D(HM3D):场景与 Gibson 差异大,用于跨域泛化测试(验证模型在陌生环境的适应力)。

评估指标

  • SR(Success Rate,成功率):成功到达目标(1 米内,视角偏差≤25°)的任务比例 → 测 "能不能到"。

  • SPL(Success weighted by Path Length,效率成功率):SPL=SR×(实际路径长度 / 最短路径长度 )→ 同时测 "能不能到" 和 "路径是否高效"(值越高,导航越聪明)。

Gibson 测试集上进行验证:(输入单张图片)

其中,1RGB 表示机器人仅使用前置 RGB 传感器,且观察类型为单幅 RGB 图像。

在 Gibson 数据集的简单、中等和困难三个级别上进行评估

  • 4RGB 表示智能体从 4 个 RGB 传感器获取全景图像作为观察类型。
  • 4RGB-D 表示深度图像可以作为附加输入。

在 MP3D 和 HM3D 上进行跨领域评估的比较

  • 所有方法均在 Gibson 上进行训练,并直接在这两个未见过的数据集上进行测试,无需进行网络调整。

对示例场景进行可视化:

  • 起始是绿色位置,蓝色线条表示智能体的轨迹,颜色随步数变化。
  • 灰色区域表示智能体摄像头探索过的区域。
  • 与基线相比,REGNav 规划出了更高效的导航路径。

分享完成~

相关文章推荐:

UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客

【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation-CSDN博客

【机器人】复现 UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客

【机器人】复现 WMNav 具身导航 | 将VLM集成到世界模型中-CSDN博客

【机器人】复现 ECoT 具身思维链推理-CSDN博客

【机器人】复现 SG-Nav 具身导航 | 零样本对象导航的 在线3D场景图提示-CSDN博客

【机器人】复现 3D-Mem 具身探索和推理 | 3D场景记忆 CVPR 2025 -CSDN博客

【机器人】复现 Embodied-Reasoner 具身推理 | 具身任务 深度推理模型 多模态场景 长远决策 多轮互动_embodied reasoner-CSDN博客

【机器人】DualMap 具身导航 | 动态场景 开放词汇语义建图 导航系统-CSDN博客

【机器人】ForesightNav | 高效探索 动态场景 CVPR2025_pointnav中的指标介绍-CSDN博客

【机器人】复现 HOV-SG 机器人导航 | 分层 开放词汇 | 3D 场景图-CSDN博客

【机器人】复现 DOV-SG 机器人导航 | 动态开放词汇 | 3D 场景图-CSDN博客

【机器人】复现 Aether 世界模型 | 几何感知统一 ICCV 2025-CSDN博客

【机器人】Aether 多任务世界模型 | 4D动态重建 | 视频预测 | 视觉规划 -CSDN博客

相关推荐
想要成为计算机高手5 小时前
6.isaac sim4.2 教程-Core API-多机器人,多任务
人工智能·python·机器人·英伟达·模拟器·仿真环境
触想工业平板电脑一体机10 小时前
触想CX-3588主板在安保巡检领域的落地实践:解锁机器人自主智能
人工智能·机器人
遨博学院10 小时前
机器人搬运程序编写
机器人
沫儿笙10 小时前
焊接机器人智能节气阀
人工智能·机器人
苏三福10 小时前
手机当路由,连接机器人和电脑
智能手机·机器人
小坏坏的大世界2 天前
ROS2中的QoS(Quality of Service)详解
linux·机器人
贾全2 天前
从LLM到VLM:视觉语言模型的核心技术与Python实现
人工智能·python·ai·机器人·视觉语言模型·vlm
xiaoyaolangwj2 天前
AGX Xavier 搭建360环视教程【一、先确认方案】
目标检测·机器人·自动驾驶
pk_xz1234562 天前
在Intel Mac的PyCharm中设置‘add bin folder to the path‘的解决方案
ide·人工智能·科技·算法·macos·pycharm·机器人