ACL-2024 | MapGPT:基于地图引导提示和自适应路径规划机制的视觉语言导航

主要贡献

  • 论文提出了MapGPT,基于地图引导的GPT智能体,用于解决视觉语言导航中的全局探索和路径规划问题。

  • 提出了在线构建的语言形式的地图,包括节点信息和拓扑关系,以促进GPT进行全局探索。并将地图的拓扑关系转换为文本Prompt,使GPT更容易理解空间结构,激活GPT的多步路径规划能力。

  • MapGPT能够动态生成和更新其多步路径规划,而不是记录每一步的思考过程,更符合人类思维模式。

  • MapGPT可以应用于GPT-4和GPT-4V,并且能够轻松适应不同的指令风格,在R2R和REVERIE数据集上均达到了最先进的zero-shot性能。

研究背景

研究问题

论文主要解决的问题是如何在视觉语言导航(VLN)任务中,利用大语言模型(LLMs)进行zero-shot导航。

现有的zero-shot VLN智能体仅prompt GPT-4选择局部环境中的潜在位置,而没有构建一个有效的"全局视图"来理解整体环境。

研究难点

该问题的研究难点包括:

  • 如何在不依赖大规模训练数据的情况下,使智能体能够进行全局探索和路径规划;

  • 如何在多模态LLM(如GPT-4V)上进行有效的导航。

相关工作

该问题的研究相关工作有:

  • 基于学习的方法(如Anderson等人,2018b),

  • 预训练模型(如Hong等人,2021),

  • 以及基于GPT的zero-shot智能体(如Zhou等人,2023)。

这些方法在处理多模态信息和zero-shot导航方面存在一定的局限性。

研究方法

论文提出了MapGPT,一种基于地图引导的GPT智能体,用于解决视觉语言导航中的全局探索和路径规划问题。

单专家Prompt系统

提出了单专家Prompt系统,该系统适用于GPT-4和GPT-4V,并且可以灵活地应用于不同的指令风格。该系统集成了指令、历史记录、观察结果和行动空间等多种输入信息。

地图引导Prompt

为了促进全局探索,提出了地图引导的Prompt方法,将在线构建的拓扑地图转换为文本Prompt,帮助GPT理解导航环境。

  • 拓扑映射:在线构建地图并将其存储为动态更新的图,记录所有观察到的节点及其连接关系。

  • 构建地图:将地图的拓扑关系转换为文本Prompt,保留节点的ID而不使用精确的GPS坐标。

  • 地图注释:在每个节点上添加注释,使智能体能够在路径规划时进行参考。

自适应路径规划

提出了自适应规划机制,使智能体能够在每一步动态生成和更新多步路径规划。具体步骤包括:

  • 规划迭代:智能体结合当前的思考、地图和之前的规划,自适应地更新新的多步路径规划。

  • 多步规划:智能体在规划过程中可以关注多个潜在的节点或子目标,并在必要时回溯到特定节点进行重新探索。

实验设计

数据集

选择了R2R和REVERIE两个流行的VLN基准数据集进行验证。

  • R2R提供详细的逐步指令,

  • REVERIE仅提供高层次的目标描述。

评估指标

评估指标包括导航错误(NE)、成功率(SR)、Oracle成功率(OSR)和路径长度加权成功率(SPL)。

实验设置

在Matterport3D模拟器中进行实验,该模拟器提供了一个离散的导航环境,预定义了可导航的视点。

每个视点处,智能体可以获得视觉观察结果和一些可连接的可导航候选视点,这些信息被整合到Prompt中供GPT使用。

结果与分析

R2R数据集上的结果

在各种场景下,MapGPT在zero-shot性能上优于现有的NavGPT和DiscussNav。例如,在使用GPT-4V作为一级智能体时,MapGPT的成功率为47.7%。

与基于GPT-4的MapGPT相比,基于GPT-4V的MapGPT在SPL指标上表现更好,达到38.1%。

REVERIE数据集上的结果

MapGPT在REVERIE数据集上表现出更强的竞争力,成功率达到31.6%,显著优于zero-shot NavGPT和一些训练的方法。

此外,与经过预训练和微调的HAMT相比,MapGPT也表现出可观的性能。

消融研究

通过消融实验,验证了地图引导和自适应路径规划机制在提高导航性能方面的有效性。

与基于精确坐标的地图相比,基于拓扑关系的地图显著提高了性能。自适应路径规划机制也比全局动作规划机制更有效。

总结

论文提出zero-shot智能体MapGPT,用于视觉语言导航任务。MapGPT利用地图引导的提示方法,构建了在线拓扑地图,并通过自适应路径规划机制实现了多步路径规划。

实验结果表明,MapGPT在R2R和REVERIE数据集上均达到了最先进的zero-shot性能,展示了全局思考和路径规划能力。

相关推荐
强哥之神24 分钟前
英伟达发布 Llama Nemotron Nano 4B:专为边缘 AI 和科研任务优化的高效开源推理模型
人工智能·深度学习·语言模型·架构·llm·transformer·边缘计算
Green1Leaves26 分钟前
pytorch学习-9.多分类问题
人工智能·pytorch·学习
kyle~1 小时前
计算机视觉---RealSense深度相机技术
人工智能·数码相机·计算机视觉·机器人·嵌入式·ros·传感器
碣石潇湘无限路1 小时前
【AI篇】当Transformer模型开始学习《孙子兵法》
人工智能·学习
看到我,请让我去学习2 小时前
OpenCV开发-初始概念
人工智能·opencv·计算机视觉
汀沿河2 小时前
8.1 prefix Tunning与Prompt Tunning模型微调方法
linux·运维·服务器·人工智能
陈敬雷-充电了么-CEO兼CTO2 小时前
大模型技术原理 - 基于Transformer的预训练语言模型
人工智能·深度学习·语言模型·自然语言处理·chatgpt·aigc·transformer
学术 学术 Fun2 小时前
✨ OpenAudio S1:影视级文本转语音与语音克隆Mac整合包
人工智能·语音识别
风铃喵游3 小时前
让大模型调用MCP服务变得超级简单
前端·人工智能
booooooty3 小时前
基于Spring AI Alibaba的多智能体RAG应用
java·人工智能·spring·多智能体·rag·spring ai·ai alibaba