中科院空天院无人机视觉语言导航新基准！AeroVerse：模拟、预训练、微调和评估空中无人机具身世界模型的测试基准

作者： Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu
单位：中国科学院空天信息创新研究院网络信息系统技术重点实验室，中国科学院大学电子电气与通信工程学院
原文链接： AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models (https://arxiv.org/pdf/2408.15511)

主要贡献

构建了首个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k：

该数据集利用无人机从第一人称视角拍摄的高分辨率城市图像，涵盖了广泛的城市场景。
数据集包含10,000张图像，用于增强无人机智能体在理解和描述真实城市环境中的能力。

开发了虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k：

该数据集包括500,000张从四个虚拟城市景观（深圳、学校、住宅区和上海）中采集的第一人称视角图像。
每张图像都配有详细的文本描述和无人机的姿态信息，用于虚拟环境中的预训练，以提高无人机在实际环境中的适应能力。

定义了五个航空航天具身下游任务并构建了相应的指令数据集：

这些任务包括场景感知、空间推理、导航探索、任务规划和运动决策。
为了支持这些任务的微调，论文构建了五个指令数据集：SkyAgent-Scene3k、SkyAgent-Reason3k、SkyAgent-Nav3k、SkyAgent-Plan3k和SkyAgent-Act3k。

开发了基于GPT-4的自动化评估方法SkyAgent-Eval：

该方法利用GPT-4的多方面能力，通过设计不同的提示模板，对下游任务进行定制化评估。
评估方法包括LLM-Judge-Scene、LLM-Judge-Reason&Nav和LLM-Judge-Plan，分别针对场景感知、空间推理与导航探索以及路径规划任务。

研究背景

研究问题

现有的具身世界模型主要关注室内场景中的地面智能体，而对UAV智能体的研究尚未充分探索。
论文主要解决的问题是如何增强无人航空飞行器（UAV）和其他航天平台的自主感知、认知和行动能力，从而实现与人类和环境之间的以自我为中心的活动交互。

研究难点

该问题的研究难点包括：

UAV具身任务的定义不明确：现有的具身任务定义主要集中在室内外导航、命令跟随和具身问答等方面，而UAV智能体需要在四维时空中进行感知和行动，涉及环境意识、认知、规划和决策等多个方面。
UAV 3D数据获取困难：获取室外3D数据需要专业设备和技能，成本较高。
UAV具身数据收集成本高：UAV在大范围内操作，需要广泛的训练数据来标注。

任务描述

论文介绍了无人机智能体在航空航天领域中实现闭环训练的五个下游任务，并对每个任务的概念进行了清晰的定义，对输入输出格式进行标准化：

场景感知：无人机智能体根据其在三维空间中的位置，从四个方向（前、后、左、右）描述周围的环境元素，增强认知过程和行动能力。
空间推理：基于无人机收集的数据，智能体理解3D空间场景图中的对象关系、意图、反事实等维度，进行推理。
导航探索：无人机智能体根据长距离多阶段导航指令，自主探索大都市环境，并回答与物体特征相关的问题。
任务规划：智能体整合3D环境，生成详细的步骤路径规划，识别每个阶段的显著地标，提高路径规划的准确性。
运动决策：无人机智能体实时操作，动态调整策略，直至到达目的地，实现感知、推理、规划和行动的闭环。

仿真平台

论文开发了AeroSimulator模拟平台，用于模拟无人机在城市环境中的飞行场景。

模拟器的开发

使用Unreal Engine 4加载城市环境，并选择AirSim来构建无人机模型，从而开发出AeroSimulator。

多动作空间支持

模拟器支持无人机执行多种动作，如改变位置、方向和速度，以及通过加速度调整和力向量应用进行更复杂的机动。

场景选择

从UrbanScene3D数据集中选择了四个具有代表性的场景：深圳、上海、学校和住宅区，这些场景基于实际物理位置的3D重建。

环境多样性

模拟器能够模拟不同的光照条件和天气情况，并生成视觉输出，包括RGB图像、深度图和分割数据，减少模拟环境与现实世界的差异。

数据采集

无人机在虚拟城市环境中飞行，记录下密集采样区域的无人机姿态，生成大量第一人称视角图像。

数据对齐

除了图像和文本描述外，数据集还包括无人机在3D空间中的姿态，以增强无人机自我中心的场景理解能力。

统计信息

CyberAgent-Ego500k数据集的统计结果显示，图像描述的最大长度为865词，平均长度为127词，包含4,725,682句和63,539,302词，以及94,823个词汇。

这在规模、文本长度、句子数和对齐的无人机姿态方面超越了大多数现有的视觉-语言数据集。

数据集

为了弥补无人机智能体在大规模训练数据上的不足，促进航空航天具身模型的训练，并推进航空航天具身智能研究，论文开发了综合数据集套装，包括两个预训练数据集和五个下游任务指令微调数据集。

AerialAgent-Ego10k

多分辨率无人机第一人称视角的城市图像数据集，从UrbanBIS数据集中获取了多个实际地点的航拍照片，包含来自六个实际地点的0.5TB航拍照片和15,094张图像。

使用LLaVA-1.5-13B生成高质量的环境描述，并注重多样性和准确性。

CyberAgent-Ego500k

图像-文本-姿态对齐数据集，包含在四个虚拟城市环境中由专业无人机飞行员操作的无人机姿态记录。

数据集通过多属性的第一人称文本描述和图像-文本-姿态对齐来增强无人机的空间推理能力。

SkyAgent-Scene3k

场景描述数据集，要求标注者控制无人机在3D虚拟城市场景中导航，并从四个方向描述周围环境。

数据集具有多样化的对象类型和指令，以及多视角和多属性的环境描述。

SkyAgent-Reason3k

推理数据集，旨在增强无人机智能体在三维城市环境中的认知推理能力。

数据集包含六种推理模式，并通过专业标注者创建问题和答案对。

SkyAgent-Nav3k

导航数据集，要求标注者控制无人机在城市环境中飞行特定距离，记录飞行路径的文本描述，并设计问答对。

数据集强调对象属性描述的精确性和基于多个连续空间推理的长距离导航路径。

SkyAgent-Plan3k

路径规划数据集，要求无人机飞行员识别起点和终点，并在飞行指定时间后选择一个中途点，提供路线描述。

数据集注重自我中心对象的详细描述和多视角对象定位。

SkyAgent-Act3k

动作决策数据集，记录无人机的运动序列和姿态，要求无人机选择起点和终点，并提供详细的分路描述。

数据集强调起始点和终点超出视线范围的能力，以及专业的路径选择和平滑的动作序列。

实验设置

基线模型

模型选择：

选择了包括LLaMA、MiniGPT4、BLIP2在内的几种主流2D视觉-语言模型。
由于开源的3D视觉-语言模型较少，仅选择了3D-LLM作为3D模型的代表。

模型调整：

由于现有视觉-语言模型的输入格式与定义的下游任务不匹配，作者对这些模型进行了修改以适应任务需求。
例如，在航空航天具身场景感知任务中，2D视觉-语言模型需要从无人机的四个视角（前、后、左、右）获取图像，并生成环境观察的输出。

调整示例：

在场景感知任务中，修改后的2D视觉-语言模型通过提供四个视角的图像生成环境观察的输出。
在空间推理任务中，调整输入以包括观察图像和直接在无人机位置前方的问题，并基于此生成空间推理答案。
在导航探索任务中，输入包括无人机飞行路径上的图像和问题，生成导航探索的解决方案。
在任务规划任务中，输入包括多个图像描绘的飞行路径和终点图像，生成路径规划的答案。

评估指标

传统指标

BLEU：BLEU分数通过比较参考翻译和候选翻译之间的n-gram重叠程度来评估翻译质量。它被广泛应用于机器翻译任务的评价。
CIDEr：CIDEr是一种用于图像描述任务的评估指标，通过计算每个句子的n-gram TF-IDF向量，并使用余弦相似度来衡量候选句子与参考句子之间的语义一致性。
SPICE：SPICE利用基于图的语义表示来编码描述中的对象、属性和关系。它通过解析描述和参考描述为语法依赖树，并使用概率上下文无关文法(PCFG)依赖解析器来进行评估。

基于GPT-4的指标

LLM-Judge-Scene：用于评估场景感知任务。该指标设计了特定的提示模板，分别评分描述的细节水平和每个方向响应的准确性。
LLM-Judge-Reason&Nav：用于评估空间推理和导航探索任务。该指标通过分析AI助手响应与正确答案之间的相关性和实用性，客观识别和纠正错误，并提供解释。
LLM-Judge-Plan：用于评估任务规划任务。该指标关注关键动作序列与参考答案的对齐程度，以及路径上建筑物的描述准确性，包括顺序和方向。

结果与分析

SkyAgent-Scene3k 任务结果

使用BLEU、SPICE和LLM-JUDGE-SCENE评估模型的词汇丰富度、语义准确性和人类偏好。
Qwen-lv-7b模型在BLEU上表现最强，而gpt-4o在SPICE上表现最佳。
LLM-JUDGE-SCENE结果显示gpt-4-vision-review和gpt-4o与人类偏好一致。

SkyAgent-Reason3k 任务结果

使用LLM-JUDGE-REASON评估人类偏好。
llama-adapter-v2-7B、qwen-lv-7b和gpt-4o在空间推理和问答任务中表现突出。
gpt-4o在第一人称空间推理和问答任务中表现出色。

SkyAgent-Nav3k 任务结果

使用LLM-JUDGE-NAV评估人类偏好。
gpt-4o在大多数城市场景和评估指标中排名第一，表现出色。
llama-adapter-v2-7B在住宅区场景中表现出色。

SkyAgent-Plan3k 任务结果

使用LLM-JUDGE-PLAN评估人类偏好。
许多模型在该任务中表现不佳，得分较低。
gpt-4o在所有城市中排名第一，表现出色。

定性分析

3D-LLM在室外3D城市场景中表现出泛化能力不足，输出类似于室内环境的描述。
2D视觉-语言模型在描述基于第一人称视角的城市设置时表现更好，但仍有幻觉现象。
3D视觉-语言模型在短期空间推理上表现出色，但在复杂城市环境中仍需改进。

讨论

场景泛化能力：在校园场景中，所有模型表现有所提升，qwen-lv-7b和gpt-4o表现最佳。
任务泛化能力：Instruct-BLIP和BLIP2在任务1中表现优异，而Llama、MiniGPT和MPLUG系列在任务4中表现更好。
规模效应：模型大小对性能的影响不大，增加参数数量并不一定带来性能提升。

总结

论文通过开发AeroVerse基准套件，解决了UAV具身世界模型的研究空白，提升了UAV智能体的端到端自主感知、认知和行动能力。

构建了第一个大规模的真实世界图像-文本预训练数据集AerialAgent-Ego10k和虚拟图像-文本-姿态对齐数据集CyberAgent-Ego500k。
首次明确了五个航天具身下游任务，并构建了相应的指令数据集。
开发了基于GPT-4的自动化评估方法SkyAgent-Eval。
通过广泛的实验分析了十个主要基线的性能，揭示了2D/3D视觉语言模型在UAV智能体任务中的潜力和局限性。
未来工作将扩展仿真城市范围，包括纽约等地点，并将场景扩展到森林、山脉等户外环境，继续积累训练数据并优化下游任务，以促进航天具身智能的应用。