【机器人】DualMap 具身导航 | 动态场景开放词汇语义建图导航系统

DualMap 是一个在线的开放词汇语义映射系统，使得机器人能够通过自然语言查询在动态变化的环境中理解和导航

双地图导航，结合全局抽象地图进行高层次候选选择，以及局部具体地图进行精确目标定位，有效管理和更新环境中的动态变化。

DualMap的框架思路流程，如下图所示：

通过"具体地图"和"抽象地图"的双地图，进行目标导航：

输入RGB-D数据、机器人的Pose信息
使用YOLO + FastSAM，进行物体对象检测
生成一组带有类别标签、语义特征和点云的观测物体对象
将新观测的物体与地图中已有的对象集进行匹配对比（特征相似度＋点云重叠匹配 ）；如果匹配成功****更新该对象的点云与 CLIP 特征，如果匹配失败则插入为新对象
生成当前最新的细粒度 3D语义地图，也就是具体地图；包含场景中所有静态／动态物体的点云与语义信息

Concrete Map 具体地图（三维）：

在线增量构建，记录"长得什么样、在哪儿、语义是谁"的全套信息：每个物体的3D点云、类别标签、以及 CLIP文本+图像混合特征（0.7 图像 + 0.3 文本加权）。
通过"匹配--累积--检查"循环，既能吸纳新出现的物体，也能剔除偶发误检物体。

Abstract Map 抽象地图（二维）：

作用：既能保证速度（YOLO 30 FPS），也能"开箱即用"地识别千奇百怪的新物体。

初次导航：在 Abstract Map 上，根据用户语言（"找红色水杯"）在每个锚的语义列表里打分，选出最可能放杯子的家具（比如餐桌）。
局部搜索：机器人边走边用 Concrete Map 精细感知，到了目标家具附近再仔细找；
若没找到，就把局部新观测到的物体（例如之前遗漏的一堆杯子）抽象到 Abstract Map，对哪个家具下挂了哪些物件进行补充，然后再选下一个最优家具做第二次尝试。

传统开放词汇建图系统（如 HOV-SG）依赖 3D 物体合并操作处理分割碎片，需消耗大量计算资源（Replica 场景中每帧处理耗时 42 秒）

DualMap 提出的轻量级对象状态检查通过两大创新突破效率瓶颈：

通过两种主要机制实现：稳定性和分裂检测

稳定性检查 目的是过滤掉那些观察不足或可能由噪声引起的对象，从而提高地图的可靠性。

示例：会议室场景中，误检为 "椅子" 的阴影区域若在 15 帧内未被重新观测，且 "椅子" 类别占比仅 30%，则被删除
触发条件：当对象超过T帧（默认 15 帧）未更新时，启动稳定性评估
检查标准：对象需要满足两个条件才能通过稳定性检查：
1. 累积的观测数量超过一个设定的阈值。
2. 在对象的观测列表中，最频繁出现的类别ID至少占总观测数的三分之二。
结果处理 ：如果对象未通过稳定性检查，它将被视为不稳定对象并从地图中移除。