arXiv-2024 | STMR:语义拓扑度量表示引导的大模型推理无人机视觉语言导航

  • 作者:Yunpeng Gao, Zhigang Wang, Linglin Jing, Dong Wang, Xuelong Li, Bin Zhao

  • 单位:西北工业大学,上海人工智能实验室,中国电信人工智能研究院

  • 原文链接:Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning (https://arxiv.org/pdf/2410.08500)

主要贡献

  • 本文首次提出基于大语言模型(LLM)的端到端框架,用于空中视觉语言导航任务,无需训练和额外的低级动作规划器,便于集成。

  • 通过分解自然语言指令为多个子目标,促进了逐步推理和导航。设计了一种独特的矩阵表示(STMR),包含拓扑、语义和度量信息,显著增强了LLM在户外环境中的空间感知推理能力。

  • 在真实和模拟环境中进行了广泛的实验,证明了所提方法的有效性和鲁棒性,在AerialVLN-S数据集上实现了15.9%和12.5%的OSR提升。

研究背景

研究问题

论文主要解决的问题是无人机(UAV)通过自然语言指令和视觉线索在室外环境中进行导航的任务,即空中视觉语言导航(Aerial Vision-and-Language Navigation, Aerial VLN)。

研究难点

该问题的研究难点包括:

  • 室外空中场景的空间关系复杂,现有方法多适用于室内或地面环境,对空中环境的适应性差;

  • 现有方法在处理长距离和复杂空间关系时存在困难,容易误解指令或未能捕捉区域间的上下文关系。

相关工作

该问题的研究相关工作有:

  • 早期的VLN方法使用序列到序列的LSTM进行低级或高级动作预测;

  • 最近的方法利用大语言模型(LLMs)的推理和对话能力取得显著进展,但大多基于地面离散VLN设置,限制了UAV在现实世界中的自由移动空间。

研究方法

论文提出了一种基于大语言模型(LLM)的端到端零样本框架,用于解决空中VLN任务。

语义-拓扑-度量表示(STMR)

提出了一种矩阵表示方法,将指令相关的语义掩码投影到包含周围地标位置信息的俯视图中,并将其转换为包含距离度量的文本提示,输入到LLM中进行动作预测。

2D视觉感知

使用Grounding DINO和Tokenize Anything模型进行视觉感知,生成2D语义掩码和描述。

子目标驱动的俯视图

将语义掩码映射到3D空间,并转换为俯视图,记录无人机的位置作为航点。

矩阵表示

将俯视图处理成20x20的坐标网格,并应用语义最大池化,生成包含语义、拓扑和度量信息的矩阵表示。

LLM规划

设计了格式化的文本提示和动作空间,输出当前的想法和行动。提示包括任务描述、历史记录、地图和计划,利用Chain-of-Thought推理进行逐步规划和动作预测。

实验设计

数据集

使用AerialVLN-S数据集进行实验,该数据集模拟了真实世界的城市环境,包含超过870种不同的对象和各种场景,如市中心、工厂、公园和村庄。数据集包含8446条由经验丰富的UAV飞行员记录的飞行路径。

评估指标

使用导航误差(NE)、成功率(SR)和Oracle成功率(OSR)作为评估指标:

  • 导航误差衡量UAV停止点与实际目的地之间的距离,

  • 成功率衡量成功到达目的地的导航比例,

  • Oracle成功率考虑轨迹上任何接近目的地的点都视为成功。

实现细节

论文方法在模拟器(Airsim和UE4)和真实环境中验证。

模拟器在Intel i9第12代CPU和Nvidia RTX 4090 GPU的笔记本电脑上运行。

真实环境测试在一架搭载Intel RealSense D435i深度相机和NVIDIA Jetson Xavier NX的Q250无人机上进行。

结果与分析

模拟器定量结果

与几种其他方法相比,提出的方法在大多数指标上显著优于其他方法。例如,在valid-unseen上,提出的方法在OSR上提高了23.0%,在SR上提高了19.4%。

在模拟器中,最常见的失败原因是错误的规划或执行,包括对模糊指令的误解和视觉感知器的不准确性。

真实环境定量结果

在真实环境中收集的10个户外场景中,提出的方法成功导航,表现优于大多数基于LLM的VLN方法。

总结

论文提出了一种基于LLM的端到端框架,用于解决空中VLN任务,通过引入语义-拓扑-度量表示(STMR)显著增强了LLMs的空间推理能力。

实验结果表明,提出的方法在AerialVLN-S数据集上取得了最先进的成果,展示了其有效性。

相关推荐
Blossom.1184 分钟前
机器学习在智能供应链中的应用:需求预测与物流优化
人工智能·深度学习·神经网络·机器学习·计算机视觉·机器人·语音识别
Gyoku Mint11 分钟前
深度学习×第4卷:Pytorch实战——她第一次用张量去拟合你的轨迹
人工智能·pytorch·python·深度学习·神经网络·算法·聚类
zzywxc78713 分钟前
AI大模型的技术演进、流程重构、行业影响三个维度的系统性分析
人工智能·重构
点控云14 分钟前
智能私域运营中枢:从客户视角看 SCRM 的体验革新与价值重构
大数据·人工智能·科技·重构·外呼系统·呼叫中心
zhaoyi_he22 分钟前
多模态大模型的技术应用与未来展望:重构AI交互范式的新引擎
人工智能·重构
葫三生1 小时前
如何评价《论三生原理》在科技界的地位?
人工智能·算法·机器学习·数学建模·量子计算
m0_751336392 小时前
突破性进展:超短等离子体脉冲实现单电子量子干涉,为飞行量子比特奠定基础
人工智能·深度学习·量子计算·材料科学·光子器件·光子学·无线电电子
美狐美颜sdk5 小时前
跨平台直播美颜SDK集成实录:Android/iOS如何适配贴纸功能
android·人工智能·ios·架构·音视频·美颜sdk·第三方美颜sdk
DeepSeek-大模型系统教程6 小时前
推荐 7 个本周 yyds 的 GitHub 项目。
人工智能·ai·语言模型·大模型·github·ai大模型·大模型学习
郭庆汝6 小时前
pytorch、torchvision与python版本对应关系
人工智能·pytorch·python