【导读】基于层次化多模态场景图的快慢推理视觉语言导航

基于层次化多模态场景图的快慢推理视觉语言导航

全文概述

本文提出了一种名为FSR-VLN的视觉-语言导航系统，旨在解决现有方法在长距离空间推理中的低成功率和高推理延迟问题。该系统通过构建分层多模态场景图（HMSG）和引入快慢双阶段推理机制，实现了从粗略房间定位到精细目标识别的渐进式检索。HMSG将环境划分为楼层、房间、视角和物体四层结构，每个节点包含几何属性、语义信息和拓扑关系，支持多模态特征融合。FSR机制首先通过CLIP模型进行快速匹配筛选候选目标，再利用VLM进行视觉验证和优化，仅在快速匹配失败时激活慢速推理，显著降低计算开销。实验表明，FSR-VLN在四个真实室内数据集的87条指令测试中，以92%的成功率超越现有方法，响应时间比MobilityVLA减少82%。系统已集成到Unitree-G1人形机器人中，支持自然语言交互和实时导航，为具身智能体在复杂环境中的部署提供了新范式。

术语解释

HMSG（Hierarchical Multi-modal Scene Graph）：一种四层结构的场景图表示法，包含楼层、房间、视角和物体节点，每个节点融合几何属性、语义特征和拓扑关系，支持渐进式多模态检索。
FSR（Fast-to-Slow Reasoning）：双阶段导航推理机制，第一阶段通过CLIP模型快速匹配候选目标，第二阶段利用VLM进行视觉验证和优化，仅在快速匹配失败时激活慢速推理，平衡效率与准确性。
VLM（Vision-Language Model）：视觉-语言模型，用于慢速推理阶段的视觉验证和目标优化，通过GPT-4o等模型实现图像描述生成和跨模态推理，提升目标定位的鲁棒性。

论文速读

论文方法

方法描述

本文提出了两种导航方法：基于语义点云地图的导航和基于图像拓扑图的导航，并结合多模态场景图谱构建了一种新的导航系统。该系统利用语音识别模块将用户的语音指令转换为文本，然后通过预训练的语言模型（如GPT-4）解析用户指令并提取相应的查询。在导航推理过程中，首先使用CLIP进行快速匹配，确定目标房间、视角和物体；然后通过使用视觉语言模型（如GPT-4）进行慢速推理来进一步优化选择的目标视角和物体。最后，根据选定的目标视角和物体，在多模态场景图谱中计算路径规划并控制机器人移动到目标位置。

方法改进

与传统的基于语义点云地图的导航方法相比，本文的方法引入了图像拓扑图和多模态场景图谱，提高了导航系统的性能。同时，通过引入视觉语言模型（如GPT-4），可以更准确地理解用户的意图，从而提高导航的成功率。

解决的问题

本文的方法解决了传统导航方法中存在的几个问题：

依赖单个地图表示形式限制了与其他模型（如LLM和VLM）的集成。
对于复杂的环境，需要更多的空间信息才能提高导航成功率。
快速匹配可能无法提供精确的目标视角和物体，导致导航失败。

通过引入图像拓扑图和多模态场景图谱，以及使用视觉语言模型（如GPT-4），本文的方法成功地解决了这些问题，提高了导航系统的性能。

论文实验

本文主要介绍了基于CLIP和VLM的视觉语言导航系统FSR-VLN，并通过与其他方法的对比实验证明了其有效性。具体来说，本文进行了以下对比实验：

对比方法选择：本文选择了CLIP-based 3D voxel maps（OK-Robot）、CLIP-based 3D scene graphs（HOVSG）和image-based topological graphs（MobilityVLA）作为基准方法进行比较。
实验设置：本文使用了一个Unitree-G1人形机器人配备了校准的Intel RealSense D455 RGBD相机和Mid360 LiDAR来收集LiDAR-camera数据，用于在办公室环境中测试导航性能。此外，还使用了来自HM3D-SEM数据集的八个场景进行评估。对于用户指令，本文采用了MobilityVLA的实验设置，包括四种类型的指令：不需要推理的目标（Reasoning-Free，RF），需要隐式目标推断的目标（Reasoning-Required，RR），具有挑战性的小物体（Small Objects，SO）以及空间目标（Spatial Target，ST）。这些指令涵盖了23个、18个、15个和14个不同的对象类别。
评估指标：本文主要关注目标是否成功检索，因此使用了成功率（success rate，SR）和检索成功率（retrieval success rate，RSR）作为评估指标。其中，RSR定义为查询中至少有一个前n（n取值为1、5）预测结果位于距离真实位置k米以内的比例。为了考虑2D图像衍生节点和3D点云之间的位置变化，本文对k进行了多次计算，即k取值分别为1、2、3、4、5。
实验结果与分析：在四个评价集合上，FSR-VLN的平均成功率（SR）达到了92%，明显优于其他基准方法：MobilityVLA为34.5%、OK-Robot为60.9%、HOVSG为51.7%。这表明FSR-VLN的有效性。同时，在不同距离阈值下，FSR-VLN的RSR也表现出色，达到96.6%（84/87）。

总的来说，本文通过与其他方法的对比实验证明了基于CLIP和VLM的视觉语言导航系统的有效性，并且进一步探讨了HMSG表示法和FSR机制的作用。

论文总结

文章优点

本文提出了一种名为FSR-VLN的人形机器人视觉导航系统，该系统将层次化的多模态场景图（HMSG）与快速到慢速导航推理（FSR）相结合，以实现高效的目标检索和精确的导航。实验结果表明，FSR-VLN在成功率方面优于现有最佳基线，并且具有更好的鲁棒性和更快的响应时间。此外，作者还介绍了语音交互、规划和控制模块，以构建一个全面的人形机器人导航系统。

方法创新点

本文的主要贡献在于提出了FST-VLN这一新的视觉导航系统，其核心是层次化的多模态场景图（HMSG），该图能够有效地编码几何、语义和拓扑关系，支持快速检索候选目标并对其进行更准确的导航。同时，作者还引入了双过程理论来指导导航推理，使得系统能够在快慢两个阶段中完成目标匹配和验证，从而提高了系统的效率和准确性。

未来展望

尽管FSR-VLN已经取得了显著的成功，但仍然存在一些局限性。例如，HMSG的构建需要耗费大量时间和资源，限制了其实时映射的能力；另外，该系统仅适用于静态环境，无法应对动态变化的情况。因此，未来的改进方向包括提高HMSG的构建效率、增强系统的动态适应能力以及集成探索性导航能力等。这些改进将进一步拓展FSR-VLN的应用范围，使其能够更好地满足实际需求。