-
作者:Shubo Liu, Hongsheng Zhang, Yuankai Qi, Peng Wang, Yanning Zhang, Qi Wu
-
单位:西北工业大学,阿德莱德大学
-
原文链接:AerialVLN: Vision-and-Language Navigation for UAVs (https://openaccess.thecvf.com/content/ICCV2023/papers/Liu_AerialVLN_Vision-and-Language_Navigation_for_UAVs_ICCV_2023_paper.pdf)
主要贡献
-
论文提出了AerialVLN任务,允许智能体在四自由度(前向、左转/右转、上升/下降、左移/右移)中移动,更接近真实的无人机飞行行为。
-
开发了包含25个城市级场景的模拟器,支持连续导航和环境扩展配置,能够模拟动态的户外环境,如风吹树叶、车辆运行、光照变化等。
-
收集了8,446条飞行路径和相应的自然语言指令,数据集规模大且多样性强。平均路径长度为661.8米,远长于地面VLN任务的路径长度。
-
提出了前瞻指导(Look-ahead Guidance,LAG)策略,通过生成"前瞻"路径来改进模型的性能。每个子路径与其子指令对齐,实现了细粒度的跨模态匹配学习。
研究背景
研究问题
论文主要解决的问题是如何在无人机(UAV)上进行视觉语言导航。现有的视觉语言导航(VLN)任务主要针对地面上的智能体,而忽略了无人机在空中导航的应用场景。
研究难点
该问题的研究难点包括:
-
无人机导航需要考虑飞行高度和更复杂的空间关系推理。
-
无人机导航的环境更大且更复杂,涵盖多种城市级场景。
-
无人机导航的路径比地面VLN更长,平均路径长度为661.8米。
-
智能体需要学习在三维空间中躲避障碍物。
相关工作
该问题的研究相关工作有:
-
UAV导航:早期的UAV自主导航需要解决感知、映射、定位、决策、动作分解和控制等挑战。
-
地面VLN任务:如R2R、RxR、REVERIE、TouchDown等,这些任务主要针对地面上的智能体,无法反映无人机在空中导航的挑战。
研究方法
论文提出了AerialVLN任务,用于解决无人机在空中进行视觉语言导航的问题。
任务定义
AerialVLN任务要求智能体(多旋翼无人机)通过自然语言指令和其第一人称视角的视觉感知,从起点飞到终点。
任务不提供预建的导航图,任何未被物体占据的点都是可导航的。
模拟器
使用Unreal Engine 4和Microsoft AirSim插件开发了一个3D模拟器,渲染了25个城市级场景的接近真实图片。模拟器支持连续导航、环境扩展和配置。
模拟器输出前视图的RGB图像和深度图像,并支持动态环境(如风吹树叶、车辆行驶、不同光照和气候模式)。
数据集收集
收集了25个不同城市级环境的数据,涵盖市中心、工厂、公园和村庄等多种场景,包含超过870种不同的对象。
数据集由经验丰富的无人机飞行员生成飞行路径,最终包含8446条飞行路径,每条路径配有3条自然语言指令。
并由AMT工人标注语言指令,共收集了25,338条指令,词汇总量为4,470个词,平均每条指令包含83个词。
实验设计
数据集划分
将数据集划分为训练集、验证集(可见和不可见)和测试集。训练集包含16,380条指令,验证集包含1,818条指令,测试集包含4,830条指令。
基线模型
评估五种基线模型在AerialVLN任务上的性能,并使用前瞻指导策略改进最佳基线模型的性能。包括:
-
随机模型:在每个位置随机选择动作,直到选择"停止"动作或达到最大步数。
-
动作采样模型:根据训练集的动态度分布采样动作。
-
LingUNet模型:将LingUNet模型适应为步进范式。
-
Seq2Seq模型:使用循环策略的序列到序列模型。
-
CMA模型:基于双向LSTM的跨模态注意力模型。
提出了前瞻指导策略(Look-ahead Guidance,LAG),通过生成"前瞻"路径来改进模型性能。具体步骤包括:
-
找到返回真实路径的最短路径,
-
沿真实路径前进10步,生成前瞻路径,
-
根据前瞻路径确定下一步的真实动作。
结果与分析
基线模型性能
-
随机模型的成功率为0%,动作采样模型的成功率低于1%。
-
LingUNet模型在不可见情况下的成功率略高于动作采样模型。
-
Seq2Seq和CMA模型在完整数据集的不可见分割上的成功率分别为1.0%~1.6%和2.2%~3.9%。
-
数据集聚合技术(DA)提高了模型性能,但仍未达到人类表现。
前瞻指导策略效果
前瞻指导策略显著提高了模型在不可见分割上的成功率和SDTW指标。
模态消融研究
视觉和语言输入对任务至关重要,去除任一输入都会导致任务变得无意义。RGB信息对最终成功贡献更大。
总结
论文介绍了一个新的任务AerialVLN和一个大规模数据集,用于探索空中的视觉语言导航。
结果表明,现有的基线模型在AerialVLN任务上表现不佳,远低于人类表现。前瞻指导策略显著提高了模型性能,但仍需进一步研究以应对这一具有挑战性的任务。