南科大周博宇团队新突破:AirHunt 实现无人机连续语义导航,飞行效率提升59%!

解决VLM导航"走一步停一步"难题

目录

[01 语音不仅控制座舱,并且参与驾驶决策](#01 语音不仅控制座舱,并且参与驾驶决策)

[02 技术亮点](#02 技术亮点)

主动语义查询(ADTR):减少"问模型"的次数,但提高每次的价值

三维语义价值地图:让语义线索跨时间"留存"下来

语义-几何一致规划(SGCP):既听语义,也尊重飞行代价

[03 实验与表现](#03 实验与表现)

[04 总结](#04 总结)


在仿真里,无人机可以慢慢想。但在真实世界,它只能一边飞,一边决定。

很多看起来"很智能"的语义导航方法,一旦走出实验室,就会因为模型推理慢而导致飞行频繁中断。

为了解决这个"快飞慢想"的矛盾,南方科技大学周博宇团队提出了一种反直觉的解法------AirHunt

他们没有继续堆模型能力,而是把注意力放在了一个更工程化的问题上:让 VLM 不再直接"指挥动作",而是以一种可持续、可复用的方式参与导航决策,从而在真实飞行节奏下依然保持语义引导能力。

01 语音不仅控制座舱,并且参与驾驶决策

传统做法里,VLM 往往被当成"决策大脑":

看到一帧图像 → 推理 → 给出下一个动作或方向。

但 AirHunt 反其道而行之,提出了一个关键转变:

VLM 不负责"下一步怎么飞",只负责回答"哪些地方值得去"。

于是,整套系统被拆成了两条并行的节奏:

一条是慢速的语义推理路径

无人机在飞行过程中,主动挑选关键视角,请 VLM 判断哪些区域更可能存在目标,并持续更新一个三维语义价值分布。

另一条是高速的连续规划路径

飞行控制和路径规划始终以高频运行,从三维语义地图中"读取"线索,而不是等待新的模型输出。

这样一来,语义推理不再是飞行的"刹车片",而是变成了一种可被反复读取、逐步累积的空间记忆。

从系统视角看,AirHunt 的核心不是某个模型,而是一个重新设计的协作关系:

语义负责"指路",规划负责"走路",两者互不拖慢。

图1|系统整体框架与不同导航流程的对比。(a) AirHunt 的核心是一个双通路的异步系统架构。一条通路以较低频率运行,由视觉语言模型提取与指令相关的语义信息,并持续更新三维语义价值地图;另一条通路以高频运行,从这张语义地图中实时读取线索,生成连续、可执行的飞行轨迹。两条通路各自按最合适的频率工作,互不阻塞,但始终保持协同。(b) 不同导航流程的对比示意。顺序式方法需要无人机悬停等待模型推理,导致飞行断断续续、搜索效率极低;简单异步方法虽然允许飞行,但动作基于过时观测,容易出现决策错位;相比之下,AirHunt 将 VLM 定位为高层语义生成器,并把语义信息积累到三维空间中,使无人机能够在持续飞行中获得稳定、连贯的语义引导

02 技术亮点

主动语义查询(ADTR):减少"问模型"的次数,但提高每次的价值

在 AirHunt 中,VLM 并不是每一帧都被调用。系统会主动筛选那些最可能改变导航决策的视角,只在这些关键时刻才请求语义推理。

这样做的直接效果是显著降低了推理频率,避免了无人机因为等待模型而被迫停飞。更重要的是,减少无意义的查询还能降低语义判断在时间上的抖动,让系统的整体行为更加稳定。

从真实部署角度看,这一步并不是"为了省算力",而是为了让语义推理真正跟得上飞行节奏。

图2|系统会主动构建两类关键帧集合:一类关注环境覆盖情况,用于评估哪些区域更值得探索;另一类聚焦任务相关区域,用于核验目标是否存在。这两类关键帧分别送入视觉语言模型,完成语义价值评估和目标确认两项任务,在减少无效推理的同时,提高每一次语义判断的决策价值

三维语义价值地图:让语义线索跨时间"留存"下来

AirHunt 并不把 VLM 的输出当作一次性的决策结果,而是将其映射到三维空间中,形成持续更新的语义价值分布。

这意味着语义信息不会随着视角切换而立刻消失。

当无人机飞离某个区域,甚至暂时看不到目标时,规划器依然可以从这张三维语义地图中读取历史证据,判断哪些方向仍然值得探索。这种设计极大增强了系统对真实环境中遮挡、视角变化和长距离搜索的适应性,是从"看一眼就忘"走向"空间记忆"的关键一步。

图3|语义-几何协同的视点选择示意。在"飞向海滩上的帐篷"这一指令下,靠近目标区域的前沿体素被赋予更高的语义价值(红色区域)。系统通过计算不同视点下可观测前沿区域的语义信息增益,自动选择最有价值的观察位置。这种设计使无人机能够主动朝着"最有希望看到目标"的方向飞行,而不是盲目遍历空间

语义-几何一致规划(SGCP):既听语义,也尊重飞行代价

在规划阶段,AirHunt 并没有简单地把语义分数和几何代价做线性加权。相反,它通过一致性约束,让语义引导在可行的情况下发挥作用,而在代价过高或风险过大时自动退让。

这使得无人机不会因为"盲目追语义"而绕远路,也不会在语义不确定时陷入犹豫。

路径选择始终保持连续、可执行,并且符合飞行平台的运动约束。从工程角度看,这一步解决的不是"规划最优",而是规划是否能长期稳定运行

图4|不同全局规划策略的路径对比。(a) 约束图示意:只有当语义价值差异显著时,系统才强制优先访问高价值区域;当多个区域语义相近时,则交由几何规划自由优化。(b) AirHunt 生成的全局路径能够优先覆盖高语义价值区域,并避免重复访问。(c)--(f) 对比方法往往会反复进入已经搜索过的区域(红色虚线框),或延迟访问关键语义区域,导致整体搜索效率下降

03 实验与表现

在大尺度仿真环境中,AirHunt 在多项关键指标上都表现出明显优势。

在成功率(SR)方面,AirHunt 达到了 73.1% ,显著高于所有自动化基线方法,并且已经接近人类飞手的 80.5% 水平。

这表明在目标搜索任务中,系统能够更稳定地完成从起点到目标的完整闭环。

图5|不同方法在成功率、飞行时间等核心指标上的整体表现对比。表中高亮显示了最优结果和次优结果,并给出了人类飞手作为参考上限,便于直观理解系统与人工操作之间的差距

在飞行效率上,AirHunt 的平均飞行时间(FT)为 120.8 秒,相比最强基线方法缩短了约 59%。这一差距并非来自更激进的飞行策略,而是源于减少了反复探索和无效绕行。

图6|关键组件的平均计算开销。列出了系统中各个核心模块的平均计算时间(毫秒),展示 AirHunt 在保证实时性的同时,仍能稳定运行在无人机平台上

作者在分析中指出,这种效率提升主要来自三个方面:

● 一是异步架构避免了因等待语义推理而造成的停飞;

● 二是主动语义查询减少了低价值的决策干扰;

● 三是语义-几何一致规划显著降低了重复访问区域的情况。

图7|左侧为场景的俯视图,右上为无人机第一视角画面,右下为对应的三维语义价值地图。可以看到,语义信息被稳定地积累在空间中,并持续引导无人机向高价值区域移动

在真实室外场景的飞行实验中,系统同样展现出稳定行为。

无人机在长距离搜索过程中几乎不再出现"停下来思考"的现象,飞行轨迹更加连贯,语义引导也更具方向性。

图8|真实飞行实验在三个具有挑战性的室外环境中进行,包括公园区域(E-1)、景观区域(E-2)和居民区(E-3)。每个任务中,第一张图展示整体场景的俯视关系,其余图片记录无人机在执行任务过程中的不同状态。黄色圆圈标记无人机位置,红色矩形标记目标物体

这些结果共同说明,AirHunt 的优势并不只体现在指标上,而是在整体飞行行为层面更接近真实可部署系统的需求。

04 总结

AirHunt 展示的,并不是一个更大的模型,而是一种更清醒的系统设计观。当视觉语言模型进入具身系统,真正的挑战往往不在"能不能看懂",而在看懂之后,这些信息要以什么形式、在什么节奏下,参与真实世界的运动决策。

REF

论文标题:AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

论文链接:https://arxiv.org/pdf/2601.12742

论文作者:Xuecheng Chen, Zongzhuo Liu, Jianfa Ma, Bang Du, Tiantian Zhang, Xueqian Wang, and Boyu Zhou

相关推荐
格林恩德高精度定位13 小时前
厘米级定位如何成为无人机的“标配”?
无人机·gps·定位·rtk
加点油。。。。1 天前
【UAV避障-3D VFH+】
matlab·机器人·无人机·仿真·机器人仿真
0x531 天前
JAVA|智能无人机平台(二)
java·开发语言·无人机
上海锟联科技1 天前
基于分布式光纤声波传感(DAS)的无人机入侵探测技术与应用
无人机
GIS数据转换器1 天前
基于GIS的宠物救助服务平台
大数据·人工智能·科技·机器学习·无人机·智慧城市·宠物
云卓SKYDROID2 天前
无人机滑模控制模块详解
无人机·飞控·滑块·高科技·云卓科技
机器学习之心2 天前
集群中继无人机应急通信双层多目标协同优化部署:融合无监督学习与凸优化及启发式算法的MATLAB代码
学习·无人机·启发式算法·双层多目标协同优化
0x532 天前
JAVA|智能无人机平台(一)
java·开发语言·无人机
xqqxqxxq3 天前
《智能仿真无人机平台(多线程V2.0)技术笔记》(线程进阶: 无人机自动防空平台开发教程)
笔记·无人机·cocos2d