哈工深无人机目标导航新基准!UAV-ON:开放世界空中智能体目标导向导航基准测试

  • 作者:Jianqiang Xiao, Yuexuan Sun, Yixin Shao, Boxi Gan, Rongqiang Liu, Yanjing Wu, Weili Gua, Xiang Deng·
  • 单位:哈尔滨工业大学(深圳)
  • 论文标题:UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents
  • 论文链接:https://arxiv.org/pdf/2508.00288
  • 代码链接:https://github.com/Kyaren/UAV_ON

主要贡献

  • 提出首个大规模的开放世界环境中基于语义目标指令的无人机目标导航基准UAV-ON。UAV-ON定义了超过11000个导航任务,涵盖14个高保真户外场景,这些场景具有多样化的布局和真实的物体放置。
  • UAV-ON要求无人机在复杂的真实环境中执行离散的、参数化的动作,通过物理模拟进行导航,同时处理障碍物规避和碰撞动力学等现实挑战。
  • 提出了一组无人机目标导航的基线策略,包括随机策略、基于CLIP的语义启发算法(CLIP-H),以及提出的空中目标导航智能体(AOA)。

研究背景

  • 无人机应用需求:近年来,无人机在货物运输、紧急救援、环境监测等众多领域得到了快速部署。随着智能城市的发展和低空空域管理的进步,无人机被期望能够在多样化的真实环境中大规模自主运行。为了实现这一目标,无人机需要具备感知、理解和导航复杂、动态、非结构化环境的能力,其中智能导航能力尤为关键。
  • 现有导航研究的局限性:目前大多数无人机导航研究遵循视觉语言导航(VLN)范式,依赖于详细的、逐步的语言指令,这限制了其在开放世界环境中的可扩展性和自主性。而目标导航(ObjectNav)作为一种替代方案,要求智能体仅基于语义线索定位目标物体,不依赖于密集的指令序列,但在大规模非结构化户外环境中的空中导航潜力尚未得到充分探索。

任务定义

任务概述

UAV-ON 定义了一个开放世界环境中的实例级目标导航(ObjectNav)任务,无人机(UAV)需要根据语义指令导航到目标物体。

  • 在每个episode开始时,无人机被随机初始化为一个六自由度(6-DoF)姿态 P0=[x,y,z,0,ψ,0]P_0 = [x, y, z, 0, \psi, 0]P0=[x,y,z,0,ψ,0],其中 (x,y,z)∈R3(x, y, z) \in \mathbb{R}^3(x,y,z)∈R3 表示位置,ψ\psiψ 是偏航角。
  • 无人机接收到一个语义指令 c={name,size,description}∈Cc = \{ \text{name}, \text{size}, \text{description} \} \in Cc={name,size,description}∈C,包含目标物体的类别、估计大小和实例级视觉描述。
  • 目标物体保证位于以起始位置为中心、水平搜索半径为 50 单位的区域内。

环境感知与动作空间

  • 环境感知 :无人机仅配备多视角 RGB-D 相机(前方、左方、右方和下方),获取环境的多模态观测。每个视角的 RGB 和深度图像分别表示为 vtRv^R_tvtR 和 vtDv^D_tvtD。无人机不依赖任何全局定位信号(如 GPS、全局地图或外部定位系统),仅依靠自身感知进行导航。
  • 动作空间:任务采用参数化动作空间,无人机可以选择平移、旋转和停止等运动原语,每个动作都与一个连续控制参数相关联。例如,平移原语包括前进、左移、右移、上升和下降,旋转动作包括左转和右转。停止动作在无人机估计自身距离目标物体 20 单位以内时触发,用于终止episode。

成功条件

  • 成功episode定义 :如果无人机在episode结束时距离目标物体的距离 did_idi 小于或等于成功阈值 τ=20\tau = 20τ=20 单位,则认为该episode成功。
  • 终止条件:episode在无人机发出停止命令、与障碍物碰撞或达到最大步数限制 150 时终止。

无人机模拟器

传感器配置

  • 多视角 RGB-D 相机 :无人机在每个时间步 ttt 通过四个同步的 RGB-D 相机获取多模态观测,分别面向前方、左方、右方和下方。每个视角的 RGB 和深度图像分别表示为 vtR={vt,frontR,vt,leftR,vt,rightR,vt,downR}v^R_t = \{ v^R_{t,\text{front}}, v^R_{t,\text{left}}, v^R_{t,\text{right}}, v^R_{t,\text{down}} \}vtR={vt,frontR,vt,leftR,vt,rightR,vt,downR} 和 vtD={vt,frontD,vt,leftD,vt,rightD,vt,downD}v^D_t = \{ v^D_{t,\text{front}}, v^D_{t,\text{left}}, v^D_{t,\text{right}}, v^D_{t,\text{down}} \}vtD={vt,frontD,vt,leftD,vt,rightD,vt,downD}。所有视图的分辨率和视场角一致,并且时间同步。
  • 无全局定位信号:无人机无法访问任何全局定位信号,包括 GPS、全局地图或外部定位系统,导航完全依赖于自身感知。

动作空间

  • 参数化动作空间:无人机可以选择的运动原语包括平移(前进、左移、右移、上升、下降)、旋转(左转、右转)和停止。每个动作都与一个连续的控制参数相关联,允许无人机根据周围环境动态调整运动幅度。
  • 物理执行与碰撞检测:与以往依赖固定步长离散动作空间或瞬移控制的基准不同,UAV-ON 中的动作是物理执行的,要求无人机确保每次选择的运动轨迹是无碰撞的。任何与障碍物的接触都被视为失败,显著提高了导航的安全性和可靠性标准。

UAV-ON基准

场景构建

  • 高保真环境:UAV-ON 包含 14 个高保真的户外环境,涵盖自然和人造景观,如村庄、城镇、城市、公园、道路、森林、山脉、雪山和水域等。这些环境被划分为具有语义类别的区域,反映了多样化的真实世界地理环境。
  • 目标物体放置:采用基于提示的对象映射策略,利用大型语言模型(LLM)根据场景类型生成可能出现在该设置中的候选物体,并手动筛选以确保语义相关性和空间合理性。例如,在公园中放置长椅和垃圾桶,在道路旁放置自行车,在水域附近放置船只等。

数据集分析

  • 环境多样性:14 个场景在水平尺度(从 350×250 到 1400×1250 单位)和目标物体分布上具有丰富的空间和结构多样性。总共放置了 1270 个独特的目标物体,覆盖约 900 万平方单位的水平区域,平均目标物体密度约为每 100 平方单位 1.4 个。
  • 语义指令:每个目标物体都配有一个语义指令,包含类别、估计大小和视觉描述,帮助无人机进行目标推理和定位。

数据集划分

  • 训练集:使用 10 个多样化的户外环境生成 10000 个导航episode。每个episode都初始化在一个随机位置,并与一个在固定搜索半径内的可达目标配对。在训练过程中,无人机可以访问其绝对位置和到目标的实时欧几里得距离,支持基于距离的奖励的强化学习方法。
  • 测试集:包含 1000 个测试episode,分布在 10 个训练环境和 4 个额外环境中,以评估无人机在熟悉和新颖环境中的泛化能力。

评估指标

  • 成功率(SR):衡量无人机在episode结束时是否成功停在目标物体附近。
  • Oracle 成功率(OSR):衡量无人机在episode中是否曾经接近目标物体,无论是否发出停止命令。
  • 成功距离(DTS):衡量无人机在episode结束时与目标物体的欧几里得距离。
  • 路径长度加权成功率(SPL):综合考虑任务成功和轨迹效率,将导航路径长度与最短可能路径长度进行比较,仅计算成功episode。

实验与结果

基线方法

  • Random(随机策略):随机选择运动方向,不利用任何观测或目标信息。
  • CLIP-H(基于 CLIP 的启发式探索):结合 CLIP 模型的图像-文本匹配能力与基于规则的探索策略,依赖视觉相似性进行导航。
  • AOA(空中目标导航智能体) :零样本导航系统,利用大型语言模型(LLM)的空间推理能力。有两种变体:
    • AOA-F(固定步长):使用固定平移和旋转参数。
    • AOA-V(可变步长):灵活确定动作类型及其幅度。

实验结果

  • AOA-V:在 Oracle 成功率(OSR)上表现最佳,但成功率(SR)和SPL较低,表明其在语义理解和探索方面有优势,但在精确停止决策上存在困难。
  • AOA-F:在成功率(SR)和SPL上表现更为一致,尤其是在导航到大型和视觉显著目标时,但探索范围略逊于 AOA-V。
  • CLIP-H:在SPL上表现较好,但 Oracle 成功率(OSR)和成功率(SR)较低,表明其对语义目标的理解有限,更多依赖于静态停止启发式方法。
  • Random:在所有指标上表现最差,通常无法朝着任何目标取得有意义的进展。

终止行为和安全导航分析

  • 终止行为
    • AOA-V:探索能力强,但停止动作不稳定。
    • AOA-F:运动和停止动作较为平衡,但偶尔在接近障碍物时失败。
    • CLIP-H:停止动作可靠性高,但探索不够积极。
    • Random:无目标意图,表现最差。
  • 安全导航:所有方法的碰撞率都超过了 30%,表明当前导航策略与现实世界中无人机的安全和可靠运行要求之间存在显著差距。

结论与未来工作

  • 结论
    • UAV-ON作为一个大规模的、语义化的开放世界环境中无人机目标导航基准,通过实验验证了其在语义推理、障碍物感知探索和目标定位方面的复合挑战。
    • 当前的导航策略与现实世界空中系统的安全性要求之间存在显著差距,高碰撞率是未来需要重点解决的问题。
  • 未来工作
    • 未来的研究可以基于UAV-ON基准,进一步探索多模态感知、基于提示的控制和可扩展自主性的研究。
    • 此外,还可以致力于开发更安全、更可靠的控制策略,以满足现实世界中无人机在复杂环境中的自主运行需求。
相关推荐
Hello123网站18 分钟前
Flowith-节点式GPT-4 驱动的AI生产力工具
人工智能·ai工具
yzx99101339 分钟前
Yolov模型的演变
人工智能·算法·yolo
若天明1 小时前
深度学习-计算机视觉-微调 Fine-tune
人工智能·python·深度学习·机器学习·计算机视觉·ai·cnn
爱喝奶茶的企鹅1 小时前
Ethan独立开发新品速递 | 2025-08-19
人工智能
J_bean2 小时前
Spring AI Alibaba 项目接入兼容 OpenAI API 的大模型
人工智能·spring·大模型·openai·spring ai·ai alibaba
SelectDB2 小时前
Apache Doris 4.0 AI 能力揭秘(一):AI 函数之 LLM 函数介绍
数据库·人工智能·数据分析
倔强青铜三2 小时前
苦练Python第39天:海象操作符 := 的入门、实战与避坑指南
人工智能·python·面试
飞哥数智坊2 小时前
GPT-5 初战:我用 Windsurf,体验了“结对编程”式的AI开发
人工智能·windsurf
数据超市2 小时前
香港数据合集:建筑物、手机基站、POI、职住数据、用地类型
大数据·人工智能·智能手机·数据挖掘·数据分析