ACL-2024 | MapGPT:基于地图引导提示和自适应路径规划机制的视觉语言导航

主要贡献

  • 论文提出了MapGPT,基于地图引导的GPT智能体,用于解决视觉语言导航中的全局探索和路径规划问题。

  • 提出了在线构建的语言形式的地图,包括节点信息和拓扑关系,以促进GPT进行全局探索。并将地图的拓扑关系转换为文本Prompt,使GPT更容易理解空间结构,激活GPT的多步路径规划能力。

  • MapGPT能够动态生成和更新其多步路径规划,而不是记录每一步的思考过程,更符合人类思维模式。

  • MapGPT可以应用于GPT-4和GPT-4V,并且能够轻松适应不同的指令风格,在R2R和REVERIE数据集上均达到了最先进的zero-shot性能。

研究背景

研究问题

论文主要解决的问题是如何在视觉语言导航(VLN)任务中,利用大语言模型(LLMs)进行zero-shot导航。

现有的zero-shot VLN智能体仅prompt GPT-4选择局部环境中的潜在位置,而没有构建一个有效的"全局视图"来理解整体环境。

研究难点

该问题的研究难点包括:

  • 如何在不依赖大规模训练数据的情况下,使智能体能够进行全局探索和路径规划;

  • 如何在多模态LLM(如GPT-4V)上进行有效的导航。

相关工作

该问题的研究相关工作有:

  • 基于学习的方法(如Anderson等人,2018b),

  • 预训练模型(如Hong等人,2021),

  • 以及基于GPT的zero-shot智能体(如Zhou等人,2023)。

这些方法在处理多模态信息和zero-shot导航方面存在一定的局限性。

研究方法

论文提出了MapGPT,一种基于地图引导的GPT智能体,用于解决视觉语言导航中的全局探索和路径规划问题。

单专家Prompt系统

提出了单专家Prompt系统,该系统适用于GPT-4和GPT-4V,并且可以灵活地应用于不同的指令风格。该系统集成了指令、历史记录、观察结果和行动空间等多种输入信息。

地图引导Prompt

为了促进全局探索,提出了地图引导的Prompt方法,将在线构建的拓扑地图转换为文本Prompt,帮助GPT理解导航环境。

  • 拓扑映射:在线构建地图并将其存储为动态更新的图,记录所有观察到的节点及其连接关系。

  • 构建地图:将地图的拓扑关系转换为文本Prompt,保留节点的ID而不使用精确的GPS坐标。

  • 地图注释:在每个节点上添加注释,使智能体能够在路径规划时进行参考。

自适应路径规划

提出了自适应规划机制,使智能体能够在每一步动态生成和更新多步路径规划。具体步骤包括:

  • 规划迭代:智能体结合当前的思考、地图和之前的规划,自适应地更新新的多步路径规划。

  • 多步规划:智能体在规划过程中可以关注多个潜在的节点或子目标,并在必要时回溯到特定节点进行重新探索。

实验设计

数据集

选择了R2R和REVERIE两个流行的VLN基准数据集进行验证。

  • R2R提供详细的逐步指令,

  • REVERIE仅提供高层次的目标描述。

评估指标

评估指标包括导航错误(NE)、成功率(SR)、Oracle成功率(OSR)和路径长度加权成功率(SPL)。

实验设置

在Matterport3D模拟器中进行实验,该模拟器提供了一个离散的导航环境,预定义了可导航的视点。

每个视点处,智能体可以获得视觉观察结果和一些可连接的可导航候选视点,这些信息被整合到Prompt中供GPT使用。

结果与分析

R2R数据集上的结果

在各种场景下,MapGPT在zero-shot性能上优于现有的NavGPT和DiscussNav。例如,在使用GPT-4V作为一级智能体时,MapGPT的成功率为47.7%。

与基于GPT-4的MapGPT相比,基于GPT-4V的MapGPT在SPL指标上表现更好,达到38.1%。

REVERIE数据集上的结果

MapGPT在REVERIE数据集上表现出更强的竞争力,成功率达到31.6%,显著优于zero-shot NavGPT和一些训练的方法。

此外,与经过预训练和微调的HAMT相比,MapGPT也表现出可观的性能。

消融研究

通过消融实验,验证了地图引导和自适应路径规划机制在提高导航性能方面的有效性。

与基于精确坐标的地图相比,基于拓扑关系的地图显著提高了性能。自适应路径规划机制也比全局动作规划机制更有效。

总结

论文提出zero-shot智能体MapGPT,用于视觉语言导航任务。MapGPT利用地图引导的提示方法,构建了在线拓扑地图,并通过自适应路径规划机制实现了多步路径规划。

实验结果表明,MapGPT在R2R和REVERIE数据集上均达到了最先进的zero-shot性能,展示了全局思考和路径规划能力。

相关推荐
YF云飞17 分钟前
数据仓库进化:Agent驱动数智化新范式
数据仓库·人工智能·ai
ningmengjing_33 分钟前
理解损失函数:机器学习的指南针与裁判
人工智能·深度学习·机器学习
程序猿炎义1 小时前
【NVIDIA AIQ】自定义函数实践
人工智能·python·学习
小陈phd1 小时前
高级RAG策略学习(四)——上下文窗口增强检索RAG
人工智能·学习·langchain
居然JuRan1 小时前
阿里云多模态大模型岗三面面经
人工智能
THMAIL1 小时前
深度学习从入门到精通 - BERT与预训练模型:NLP领域的核弹级技术详解
人工智能·python·深度学习·自然语言处理·性能优化·bert
nju_spy1 小时前
Kaggle - LLM Science Exam 大模型做科学选择题
人工智能·机器学习·大模型·rag·南京大学·gpu分布计算·wikipedia 维基百科
中國龍在廣州2 小时前
GPT-5冷酷操盘,游戏狼人杀一战封神!七大LLM狂飙演技,人类玩家看完沉默
人工智能·gpt·深度学习·机器学习·计算机视觉·机器人
东哥说-MES|从入门到精通2 小时前
Mazak MTF 2025制造未来参观总结
大数据·网络·人工智能·制造·智能制造·数字化
CodeCraft Studio2 小时前
Aspose.Words for .NET 25.7:支持自建大语言模型(LLM),实现更安全灵活的AI文档处理功能
人工智能·ai·语言模型·llm·.net·智能文档处理·aspose.word