北航现实场景无人机VLN新基准! OpenUAV：面向真实环境的无人机视觉语言导航，平台、基准与方法

作者：Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu1, Hongsheng Li, Yue Liao, Si Liu
单位：北京航空航天大学人工智能学院，香港中文大学多媒体实验室，感知与交互智能中心
原文链接：TOWARDS REALISTIC UAV VISION-LANGUAGE NAVIGATION: PLATFORM, BENCHMARK, AND METHODOLOGY (https://arxiv.org/pdf/2410.07087)
项目主页：https://prince687028.github.io/OpenUAV

主要贡献

OpenUAV平台：
- 提出了OpenUAV开源平台，专注于实现真实的无人机VLN任务。
- 该平台集成了多样化的环境、真实的飞行模拟和广泛的算法支持，提供了用于开发和评估复杂的无人机导航系统的基础。
目标导向的真实无人机VLN数据集：
- 构建了UAV-Need-Help的目标导向真实无人机VLN数据集，这是首个专门为无人机VLN任务设计的真实数据集。
- 数据集包含了约12,000个轨迹，每个轨迹都精确捕捉了无人机的6自由度（DoF）运动，反映了无人机飞行的复杂性。
UAV-Need-Help基准测试：
- 引入了UAV-Need-Help测试基准，是一个辅助引导的无人机对象搜索任务，旨在通过提供不同级别的指导信息来帮助无人机更好地完成复杂的VLN任务。
- 基准定义了三种不同的辅助级别，从高频指导到仅在遇到困难时提供低频修正，以及仅在危险情况下提供避障协助。
无人机导航LLM：
- 提出了一种无人机导航大语言模型（LLM），该模型能够处理多视图图像、任务描述和辅助指令。
- LLM利用多模态理解能力，通过分层轨迹生成模型来处理长距离和细粒度的轨迹规划。
- 引入了基于回溯采样的数据聚合策略，以增强模型在复杂场景中的障碍物避障能力。

研究背景

研究问题

现有的大多数视觉语言导航研究集中在地面机器人上，而基于无人机的VLN相对较少被探索。

因此，本文主要解决基于语言指令和视觉信息的无人机导航问题。

研究难点

该问题的研究难点包括：

地面机器人与无人机在运动动态和导航任务复杂性上的显著差异；
现有研究通常采用预定义的离散动作空间，未能充分捕捉无人机的真实飞行动态；
无人机在复杂环境中的导航路径通常较长且复杂，难以仅依靠目标描述进行精确定位和导航。

OpenUAV仿真平台

OpenUAV仿真平台是专门为真实无人机视觉语言导航（VLN）任务设计的开源平台。

该平台整合了环境构建、飞行模拟和算法支持三个模块，以提供全面的功能。

环境构建

OpenUAV提供了多样化的场景资源，通过UE4的高级图形渲染能力实现高保真度视觉效果。
平台集成了22个不同的场景，包括城市、乡村和自然景观，并支持动态环境的模拟，如植被摇摆和光照变化。
平台还提供了丰富的独立对象资产，用户可以根据任务需求使用不同的方法放置物体。

飞行模拟

平台集成了AirSim插件以实现真实的无人机飞行控制，支持6自由度（DoF）轨迹表示和精确的飞行控制。
OpenUAV支持多种传感器负载的模拟，包括IMU、RGB和深度相机、激光雷达和GPS，并提供了人类控制接口，支持遥控器操作和两种操作API。

算法支持

平台包含了数据收集框架，用于解决有限的无人机训练数据问题，并实现了异步采集方法和闭环仿真。
平台还提供了并行化策略，允许多个模拟环境同时运行以提高数据收集和闭环评估的效率。

目标导向的真实无人机VLN数据集

数据集构建

使用OpenUAV平台进行数据收集，包括目标描述和异步轨迹收集。

目标描述由目标方向、对象描述和环境信息组成，使用GPT-4生成并经过人工审核以确保质量。

轨迹分析

数据集包含12,149条轨迹，根据轨迹长度分为简单和困难两类，目标距离从50米到400米不等，涵盖不同的空间规模。

描述分析

最常见的描述包括建筑、树木和汽车等，这些描述提供了上下文信息，帮助无人机通过视觉线索估计对象位置。

数据集划分

为了全面评估模型性能，数据集被划分为Train, Test Seen, Test Unseen Map, and Test Unseen Object，每个test子集又分为简单和困难类别。

UAV-NEED-HELP基准

论文提出UAV-Need-Help辅助引导无人机目标搜索任务，要求无人机根据目标描述、环境信息和来自助手的指导来导航至目标对象。

任务定义

无人机从初始位置和姿态开始，接收一个目标描述，该描述指定了目标的方向、对象特征及其周围环境。
在每个时间步骤，无人机获取其状态（位置、姿态、速度），以及来自五个视角（前、左、右、后、下）的RGB图像和深度图像。
一个助手监控无人机的状态，并在需要时提供额外的指令，建议飞行策略。
无人机导航模型预测一个6自由度（DoF）的轨迹序列，并使用OpenUAV平台的飞行API导航至预测的每个位置。
任务成功当无人机在目标20米半径范围内着陆。

助手机制

引入了三种不同层次的助手设置，提供不同程度的指导：

L1助手提供与地面真实轨迹紧密对齐的高频指导。
L2助手在无人机遇到困难时提供低频纠正，引导其回到真实轨迹。
L3助手仅在无人机处于危险场景时提供避障协助。

挑战与复杂性

由于空中环境的复杂性和动态性，仅依靠基本的目标描述不足以完成无人机对象搜索任务。
助手的引入旨在通过提供额外信息来增强无人机的导航能力，特别是在复杂环境中。

UAV导航大模型

该模型能够处理包括图像和文本在内的多种输入类型，并通过层次化轨迹生成模型来解决对象搜索任务。

多模态信息符号化

模型首先对任务描述和助手指令进行符号化，使用预训练的语言标记器和视觉特征提取结构（如EVA-CLIP和Q-former）来处理多视图图像。然后将这些标记连接起来，形成多模态输入序列。

层次化轨迹解码器

解码器分为两个层次：一个基于LLM的高层轨迹解码器和一个细粒度路径解码器。

高层解码器使用特殊的学习轨迹标记来提取轨迹特定特征，并通过多层感知器（MLP）解码目标位姿。
细粒度路径解码器则结合前视图视觉标记和处理后的位姿特征，生成详细的轨迹。

回溯采样数据聚合

为了增强模型在复杂场景中的障碍物避障能力，论文实现了一个基于DAgger的模块，采用回溯采样机制。

当无人机在模拟中发生碰撞时，它会回退到两帧前的状态，并遵循教师模型提供的轨迹，从而避免碰撞并保持在正确路径上。

实验

实验设置

评估指标：包括成功率（SR）、最优成功率（OSR）、按路径长度加权的成功率（SPL）和导航误差（NE）。
基线模型：包括随机选择轨迹、固定动作映射和跨模态注意力（CMA）模型。

定量结果

实验结果表明，所提出的方法在不同难度级别上的测试已见集中均优于基线模型。
特别是在L1助手的连续指导下，所提方法的成功率显著提高。
此外，通过基于回溯采样的数据聚合策略训练的模型在成功率上也有所提升。
实验还考察了训练数据量对模型性能的影响，结果显示随着数据量的增加，模型性能得到提升。

定性结果

第一个示例中，无人机成功地遵循了指令，穿越建筑物并最终定位到了一辆黄色车辆。在这个过程中，无人机由于姿态变化经历了摄像头视角的变化，这突出了平台在模拟真实环境方面的真实性。

尽管如此，第三个示例展示了一个失败的情况，无人机在穿越森林区域时由于高度不足而发生了碰撞。这个例子突显了复杂环境给无人机导航带来的挑战。

总结

论文通过提出OpenUAV平台、UAV-Need-Help基准和无人机导航LLM，解决了真实无人机VLN任务的挑战。

提出的方法在多个指标上显著优于现有方法，并在新场景中表现出良好的泛化能力。