ACL-2024 | MapGPT:基于地图引导提示和自适应路径规划机制的视觉语言导航

主要贡献

  • 论文提出了MapGPT,基于地图引导的GPT智能体,用于解决视觉语言导航中的全局探索和路径规划问题。

  • 提出了在线构建的语言形式的地图,包括节点信息和拓扑关系,以促进GPT进行全局探索。并将地图的拓扑关系转换为文本Prompt,使GPT更容易理解空间结构,激活GPT的多步路径规划能力。

  • MapGPT能够动态生成和更新其多步路径规划,而不是记录每一步的思考过程,更符合人类思维模式。

  • MapGPT可以应用于GPT-4和GPT-4V,并且能够轻松适应不同的指令风格,在R2R和REVERIE数据集上均达到了最先进的zero-shot性能。

研究背景

研究问题

论文主要解决的问题是如何在视觉语言导航(VLN)任务中,利用大语言模型(LLMs)进行zero-shot导航。

现有的zero-shot VLN智能体仅prompt GPT-4选择局部环境中的潜在位置,而没有构建一个有效的"全局视图"来理解整体环境。

研究难点

该问题的研究难点包括:

  • 如何在不依赖大规模训练数据的情况下,使智能体能够进行全局探索和路径规划;

  • 如何在多模态LLM(如GPT-4V)上进行有效的导航。

相关工作

该问题的研究相关工作有:

  • 基于学习的方法(如Anderson等人,2018b),

  • 预训练模型(如Hong等人,2021),

  • 以及基于GPT的zero-shot智能体(如Zhou等人,2023)。

这些方法在处理多模态信息和zero-shot导航方面存在一定的局限性。

研究方法

论文提出了MapGPT,一种基于地图引导的GPT智能体,用于解决视觉语言导航中的全局探索和路径规划问题。

单专家Prompt系统

提出了单专家Prompt系统,该系统适用于GPT-4和GPT-4V,并且可以灵活地应用于不同的指令风格。该系统集成了指令、历史记录、观察结果和行动空间等多种输入信息。

地图引导Prompt

为了促进全局探索,提出了地图引导的Prompt方法,将在线构建的拓扑地图转换为文本Prompt,帮助GPT理解导航环境。

  • 拓扑映射:在线构建地图并将其存储为动态更新的图,记录所有观察到的节点及其连接关系。

  • 构建地图:将地图的拓扑关系转换为文本Prompt,保留节点的ID而不使用精确的GPS坐标。

  • 地图注释:在每个节点上添加注释,使智能体能够在路径规划时进行参考。

自适应路径规划

提出了自适应规划机制,使智能体能够在每一步动态生成和更新多步路径规划。具体步骤包括:

  • 规划迭代:智能体结合当前的思考、地图和之前的规划,自适应地更新新的多步路径规划。

  • 多步规划:智能体在规划过程中可以关注多个潜在的节点或子目标,并在必要时回溯到特定节点进行重新探索。

实验设计

数据集

选择了R2R和REVERIE两个流行的VLN基准数据集进行验证。

  • R2R提供详细的逐步指令,

  • REVERIE仅提供高层次的目标描述。

评估指标

评估指标包括导航错误(NE)、成功率(SR)、Oracle成功率(OSR)和路径长度加权成功率(SPL)。

实验设置

在Matterport3D模拟器中进行实验,该模拟器提供了一个离散的导航环境,预定义了可导航的视点。

每个视点处,智能体可以获得视觉观察结果和一些可连接的可导航候选视点,这些信息被整合到Prompt中供GPT使用。

结果与分析

R2R数据集上的结果

在各种场景下,MapGPT在zero-shot性能上优于现有的NavGPT和DiscussNav。例如,在使用GPT-4V作为一级智能体时,MapGPT的成功率为47.7%。

与基于GPT-4的MapGPT相比,基于GPT-4V的MapGPT在SPL指标上表现更好,达到38.1%。

REVERIE数据集上的结果

MapGPT在REVERIE数据集上表现出更强的竞争力,成功率达到31.6%,显著优于zero-shot NavGPT和一些训练的方法。

此外,与经过预训练和微调的HAMT相比,MapGPT也表现出可观的性能。

消融研究

通过消融实验,验证了地图引导和自适应路径规划机制在提高导航性能方面的有效性。

与基于精确坐标的地图相比,基于拓扑关系的地图显著提高了性能。自适应路径规划机制也比全局动作规划机制更有效。

总结

论文提出zero-shot智能体MapGPT,用于视觉语言导航任务。MapGPT利用地图引导的提示方法,构建了在线拓扑地图,并通过自适应路径规划机制实现了多步路径规划。

实验结果表明,MapGPT在R2R和REVERIE数据集上均达到了最先进的zero-shot性能,展示了全局思考和路径规划能力。

相关推荐
罗西的思考11 小时前
AI Agent框架探秘:拆解 OpenHands(10)--- Runtime
人工智能·算法·机器学习
冬奇Lab12 小时前
OpenClaw 源码精读(2):Channel & Routing——一条消息如何找到它的 Agent?
人工智能·开源·源码阅读
冬奇Lab12 小时前
一天一个开源项目(第38篇):Claude Code Telegram - 用 Telegram 远程用 Claude Code,随时随地聊项目
人工智能·开源·资讯
格砸13 小时前
从入门到辞职|从ChatGPT到OpenClaw,跟上智能时代的进化
前端·人工智能·后端
可观测性用观测云13 小时前
可观测性 4.0:教系统如何思考
人工智能
sunny86513 小时前
Claude Code 跨会话上下文恢复:从 8 次纠正到 0 次的工程实践
人工智能·开源·github
小笼包包仔14 小时前
OpenClaw 多Agent软件开发最佳实践指南
人工智能
smallyoung14 小时前
AgenticRAG:智能体驱动的检索增强生成
人工智能
_skyming_14 小时前
OpenCode 如何做到结果不做自动质量评估,为什么结果还不错?
人工智能
南山安14 小时前
手写 Cursor 核心原理:从 Node.js 进程到智能 Agent
人工智能·agent·设计