南科大周博宇团队新突破:AirHunt 实现无人机连续语义导航,飞行效率提升59%!

解决VLM导航"走一步停一步"难题

目录

[01 语音不仅控制座舱,并且参与驾驶决策](#01 语音不仅控制座舱,并且参与驾驶决策)

[02 技术亮点](#02 技术亮点)

主动语义查询(ADTR):减少"问模型"的次数,但提高每次的价值

三维语义价值地图:让语义线索跨时间"留存"下来

语义-几何一致规划(SGCP):既听语义,也尊重飞行代价

[03 实验与表现](#03 实验与表现)

[04 总结](#04 总结)


在仿真里,无人机可以慢慢想。但在真实世界,它只能一边飞,一边决定。

很多看起来"很智能"的语义导航方法,一旦走出实验室,就会因为模型推理慢而导致飞行频繁中断。

为了解决这个"快飞慢想"的矛盾,南方科技大学周博宇团队提出了一种反直觉的解法------AirHunt

他们没有继续堆模型能力,而是把注意力放在了一个更工程化的问题上:让 VLM 不再直接"指挥动作",而是以一种可持续、可复用的方式参与导航决策,从而在真实飞行节奏下依然保持语义引导能力。

01 语音不仅控制座舱,并且参与驾驶决策

传统做法里,VLM 往往被当成"决策大脑":

看到一帧图像 → 推理 → 给出下一个动作或方向。

但 AirHunt 反其道而行之,提出了一个关键转变:

VLM 不负责"下一步怎么飞",只负责回答"哪些地方值得去"。

于是,整套系统被拆成了两条并行的节奏:

一条是慢速的语义推理路径

无人机在飞行过程中,主动挑选关键视角,请 VLM 判断哪些区域更可能存在目标,并持续更新一个三维语义价值分布。

另一条是高速的连续规划路径

飞行控制和路径规划始终以高频运行,从三维语义地图中"读取"线索,而不是等待新的模型输出。

这样一来,语义推理不再是飞行的"刹车片",而是变成了一种可被反复读取、逐步累积的空间记忆。

从系统视角看,AirHunt 的核心不是某个模型,而是一个重新设计的协作关系:

语义负责"指路",规划负责"走路",两者互不拖慢。

图1|系统整体框架与不同导航流程的对比。(a) AirHunt 的核心是一个双通路的异步系统架构。一条通路以较低频率运行,由视觉语言模型提取与指令相关的语义信息,并持续更新三维语义价值地图;另一条通路以高频运行,从这张语义地图中实时读取线索,生成连续、可执行的飞行轨迹。两条通路各自按最合适的频率工作,互不阻塞,但始终保持协同。(b) 不同导航流程的对比示意。顺序式方法需要无人机悬停等待模型推理,导致飞行断断续续、搜索效率极低;简单异步方法虽然允许飞行,但动作基于过时观测,容易出现决策错位;相比之下,AirHunt 将 VLM 定位为高层语义生成器,并把语义信息积累到三维空间中,使无人机能够在持续飞行中获得稳定、连贯的语义引导

02 技术亮点

主动语义查询(ADTR):减少"问模型"的次数,但提高每次的价值

在 AirHunt 中,VLM 并不是每一帧都被调用。系统会主动筛选那些最可能改变导航决策的视角,只在这些关键时刻才请求语义推理。

这样做的直接效果是显著降低了推理频率,避免了无人机因为等待模型而被迫停飞。更重要的是,减少无意义的查询还能降低语义判断在时间上的抖动,让系统的整体行为更加稳定。

从真实部署角度看,这一步并不是"为了省算力",而是为了让语义推理真正跟得上飞行节奏。

图2|系统会主动构建两类关键帧集合:一类关注环境覆盖情况,用于评估哪些区域更值得探索;另一类聚焦任务相关区域,用于核验目标是否存在。这两类关键帧分别送入视觉语言模型,完成语义价值评估和目标确认两项任务,在减少无效推理的同时,提高每一次语义判断的决策价值

三维语义价值地图:让语义线索跨时间"留存"下来

AirHunt 并不把 VLM 的输出当作一次性的决策结果,而是将其映射到三维空间中,形成持续更新的语义价值分布。

这意味着语义信息不会随着视角切换而立刻消失。

当无人机飞离某个区域,甚至暂时看不到目标时,规划器依然可以从这张三维语义地图中读取历史证据,判断哪些方向仍然值得探索。这种设计极大增强了系统对真实环境中遮挡、视角变化和长距离搜索的适应性,是从"看一眼就忘"走向"空间记忆"的关键一步。

图3|语义-几何协同的视点选择示意。在"飞向海滩上的帐篷"这一指令下,靠近目标区域的前沿体素被赋予更高的语义价值(红色区域)。系统通过计算不同视点下可观测前沿区域的语义信息增益,自动选择最有价值的观察位置。这种设计使无人机能够主动朝着"最有希望看到目标"的方向飞行,而不是盲目遍历空间

语义-几何一致规划(SGCP):既听语义,也尊重飞行代价

在规划阶段,AirHunt 并没有简单地把语义分数和几何代价做线性加权。相反,它通过一致性约束,让语义引导在可行的情况下发挥作用,而在代价过高或风险过大时自动退让。

这使得无人机不会因为"盲目追语义"而绕远路,也不会在语义不确定时陷入犹豫。

路径选择始终保持连续、可执行,并且符合飞行平台的运动约束。从工程角度看,这一步解决的不是"规划最优",而是规划是否能长期稳定运行

图4|不同全局规划策略的路径对比。(a) 约束图示意:只有当语义价值差异显著时,系统才强制优先访问高价值区域;当多个区域语义相近时,则交由几何规划自由优化。(b) AirHunt 生成的全局路径能够优先覆盖高语义价值区域,并避免重复访问。(c)--(f) 对比方法往往会反复进入已经搜索过的区域(红色虚线框),或延迟访问关键语义区域,导致整体搜索效率下降

03 实验与表现

在大尺度仿真环境中,AirHunt 在多项关键指标上都表现出明显优势。

在成功率(SR)方面,AirHunt 达到了 73.1% ,显著高于所有自动化基线方法,并且已经接近人类飞手的 80.5% 水平。

这表明在目标搜索任务中,系统能够更稳定地完成从起点到目标的完整闭环。

图5|不同方法在成功率、飞行时间等核心指标上的整体表现对比。表中高亮显示了最优结果和次优结果,并给出了人类飞手作为参考上限,便于直观理解系统与人工操作之间的差距

在飞行效率上,AirHunt 的平均飞行时间(FT)为 120.8 秒,相比最强基线方法缩短了约 59%。这一差距并非来自更激进的飞行策略,而是源于减少了反复探索和无效绕行。

图6|关键组件的平均计算开销。列出了系统中各个核心模块的平均计算时间(毫秒),展示 AirHunt 在保证实时性的同时,仍能稳定运行在无人机平台上

作者在分析中指出,这种效率提升主要来自三个方面:

● 一是异步架构避免了因等待语义推理而造成的停飞;

● 二是主动语义查询减少了低价值的决策干扰;

● 三是语义-几何一致规划显著降低了重复访问区域的情况。

图7|左侧为场景的俯视图,右上为无人机第一视角画面,右下为对应的三维语义价值地图。可以看到,语义信息被稳定地积累在空间中,并持续引导无人机向高价值区域移动

在真实室外场景的飞行实验中,系统同样展现出稳定行为。

无人机在长距离搜索过程中几乎不再出现"停下来思考"的现象,飞行轨迹更加连贯,语义引导也更具方向性。

图8|真实飞行实验在三个具有挑战性的室外环境中进行,包括公园区域(E-1)、景观区域(E-2)和居民区(E-3)。每个任务中,第一张图展示整体场景的俯视关系,其余图片记录无人机在执行任务过程中的不同状态。黄色圆圈标记无人机位置,红色矩形标记目标物体

这些结果共同说明,AirHunt 的优势并不只体现在指标上,而是在整体飞行行为层面更接近真实可部署系统的需求。

04 总结

AirHunt 展示的,并不是一个更大的模型,而是一种更清醒的系统设计观。当视觉语言模型进入具身系统,真正的挑战往往不在"能不能看懂",而在看懂之后,这些信息要以什么形式、在什么节奏下,参与真实世界的运动决策。

REF

论文标题:AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

论文链接:https://arxiv.org/pdf/2601.12742

论文作者:Xuecheng Chen, Zongzhuo Liu, Jianfa Ma, Bang Du, Tiantian Zhang, Xueqian Wang, and Boyu Zhou

相关推荐
IT猿手8 小时前
MATLAB模拟四旋翼无人机飞行,机翼可独立旋转
开发语言·matlab·无人机
GIS数据转换器9 小时前
小龙虾(OpenClaw) 在低空经济领域的应用
大数据·人工智能·无人机·智慧城市·制造
EriccoShaanxi10 小时前
石英加速度计破局石油钻井,如何征服极端温度?
人工智能·机器人·无人机
EW Frontier11 小时前
【UAV识别】基于分层学习的射频无人机检测与识别技术,准确率达99%!【附python代码】
python·无人机·无人机信号识别
EasyDSS11 小时前
RTMP高清推流直播/视频转码EasyDSS在无人机RTMP直播场景中的应用技术解析
ffmpeg·音视频·无人机·视频转码·语音转写·点播技术
亥时科技11 小时前
开源赋能低空经济:AI 无人机一体化平台如何破解行业应用难题
人工智能·开源·无人机
IT猿手12 小时前
基于控制障碍函数(CBF)的多无人机编队避障路径规划研究,MATLAB代码
开发语言·matlab·无人机·路径规划·动态路径规划
GIS数据转换器12 小时前
基于GIS的海上航路智能规划系统
网络·人工智能·安全·无人机·旅游
IT猿手12 小时前
基于四旋翼无人机离散建模与增量PID控制及轨迹跟踪研究,MATLAB代码
开发语言·matlab·无人机·cocos2d·路径规划·动态路径规划
Coovally AI模型快速验证12 小时前
无人机 RGB+热红外融合检测建筑裂缝与渗漏,34 层高楼约 2 小时
目标检测·计算机视觉·无人机·智慧城市·裂缝检测·渗漏检测