南科大周博宇团队新突破：AirHunt 实现无人机连续语义导航，飞行效率提升59%！

「解决VLM导航"走一步停一步"难题」

[01 语音不仅控制座舱，并且参与驾驶决策](#01 语音不仅控制座舱，并且参与驾驶决策)

[02 技术亮点](#02 技术亮点)

主动语义查询（ADTR）：减少"问模型"的次数，但提高每次的价值

三维语义价值地图：让语义线索跨时间"留存"下来

语义-几何一致规划（SGCP）：既听语义，也尊重飞行代价

[03 实验与表现](#03 实验与表现)

[04 总结](#04 总结)

在仿真里，无人机可以慢慢想。但在真实世界，它只能一边飞，一边决定。

很多看起来"很智能"的语义导航方法，一旦走出实验室，就会因为模型推理慢而导致飞行频繁中断。

为了解决这个"快飞慢想"的矛盾，南方科技大学周博宇团队提出了一种反直觉的解法------AirHunt。

他们没有继续堆模型能力，而是把注意力放在了一个更工程化的问题上：让 VLM 不再直接"指挥动作"，而是以一种可持续、可复用的方式参与导航决策，从而在真实飞行节奏下依然保持语义引导能力。

01 语音不仅控制座舱，并且参与驾驶决策

传统做法里，VLM 往往被当成"决策大脑"：

看到一帧图像 → 推理 → 给出下一个动作或方向。

但 AirHunt 反其道而行之，提出了一个关键转变：

VLM 不负责"下一步怎么飞"，只负责回答"哪些地方值得去"。

于是，整套系统被拆成了两条并行的节奏：

一条是慢速的语义推理路径

无人机在飞行过程中，主动挑选关键视角，请 VLM 判断哪些区域更可能存在目标，并持续更新一个三维语义价值分布。

另一条是高速的连续规划路径

飞行控制和路径规划始终以高频运行，从三维语义地图中"读取"线索，而不是等待新的模型输出。

这样一来，语义推理不再是飞行的"刹车片"，而是变成了一种可被反复读取、逐步累积的空间记忆。

从系统视角看，AirHunt 的核心不是某个模型，而是一个重新设计的协作关系：

语义负责"指路"，规划负责"走路"，两者互不拖慢。

图1｜系统整体框架与不同导航流程的对比。(a) AirHunt 的核心是一个双通路的异步系统架构。一条通路以较低频率运行，由视觉语言模型提取与指令相关的语义信息，并持续更新三维语义价值地图；另一条通路以高频运行，从这张语义地图中实时读取线索，生成连续、可执行的飞行轨迹。两条通路各自按最合适的频率工作，互不阻塞，但始终保持协同。(b) 不同导航流程的对比示意。顺序式方法需要无人机悬停等待模型推理，导致飞行断断续续、搜索效率极低；简单异步方法虽然允许飞行，但动作基于过时观测，容易出现决策错位；相比之下，AirHunt 将 VLM 定位为高层语义生成器，并把语义信息积累到三维空间中，使无人机能够在持续飞行中获得稳定、连贯的语义引导

02 技术亮点

主动语义查询（ADTR）：减少"问模型"的次数，但提高每次的价值

在 AirHunt 中，VLM 并不是每一帧都被调用。系统会主动筛选那些最可能改变导航决策的视角，只在这些关键时刻才请求语义推理。

这样做的直接效果是显著降低了推理频率，避免了无人机因为等待模型而被迫停飞。更重要的是，减少无意义的查询还能降低语义判断在时间上的抖动，让系统的整体行为更加稳定。

从真实部署角度看，这一步并不是"为了省算力"，而是为了让语义推理真正跟得上飞行节奏。

图2｜系统会主动构建两类关键帧集合：一类关注环境覆盖情况，用于评估哪些区域更值得探索；另一类聚焦任务相关区域，用于核验目标是否存在。这两类关键帧分别送入视觉语言模型，完成语义价值评估和目标确认两项任务，在减少无效推理的同时，提高每一次语义判断的决策价值

三维语义价值地图：让语义线索跨时间"留存"下来

AirHunt 并不把 VLM 的输出当作一次性的决策结果，而是将其映射到三维空间中，形成持续更新的语义价值分布。

这意味着语义信息不会随着视角切换而立刻消失。

当无人机飞离某个区域，甚至暂时看不到目标时，规划器依然可以从这张三维语义地图中读取历史证据，判断哪些方向仍然值得探索。这种设计极大增强了系统对真实环境中遮挡、视角变化和长距离搜索的适应性，是从"看一眼就忘"走向"空间记忆"的关键一步。

图3｜语义-几何协同的视点选择示意。在"飞向海滩上的帐篷"这一指令下，靠近目标区域的前沿体素被赋予更高的语义价值（红色区域）。系统通过计算不同视点下可观测前沿区域的语义信息增益，自动选择最有价值的观察位置。这种设计使无人机能够主动朝着"最有希望看到目标"的方向飞行，而不是盲目遍历空间

语义-几何一致规划（SGCP）：既听语义，也尊重飞行代价

在规划阶段，AirHunt 并没有简单地把语义分数和几何代价做线性加权。相反，它通过一致性约束，让语义引导在可行的情况下发挥作用，而在代价过高或风险过大时自动退让。

这使得无人机不会因为"盲目追语义"而绕远路，也不会在语义不确定时陷入犹豫。

路径选择始终保持连续、可执行，并且符合飞行平台的运动约束。从工程角度看，这一步解决的不是"规划最优"，而是规划是否能长期稳定运行。

图4｜不同全局规划策略的路径对比。(a) 约束图示意：只有当语义价值差异显著时，系统才强制优先访问高价值区域；当多个区域语义相近时，则交由几何规划自由优化。(b) AirHunt 生成的全局路径能够优先覆盖高语义价值区域，并避免重复访问。(c)--(f) 对比方法往往会反复进入已经搜索过的区域（红色虚线框），或延迟访问关键语义区域，导致整体搜索效率下降

03 实验与表现

在大尺度仿真环境中，AirHunt 在多项关键指标上都表现出明显优势。

在成功率（SR）方面，AirHunt 达到了 73.1% ，显著高于所有自动化基线方法，并且已经接近人类飞手的 80.5% 水平。

这表明在目标搜索任务中，系统能够更稳定地完成从起点到目标的完整闭环。

图5｜不同方法在成功率、飞行时间等核心指标上的整体表现对比。表中高亮显示了最优结果和次优结果，并给出了人类飞手作为参考上限，便于直观理解系统与人工操作之间的差距

在飞行效率上，AirHunt 的平均飞行时间（FT）为 120.8 秒，相比最强基线方法缩短了约 59%。这一差距并非来自更激进的飞行策略，而是源于减少了反复探索和无效绕行。

图6｜关键组件的平均计算开销。列出了系统中各个核心模块的平均计算时间（毫秒），展示 AirHunt 在保证实时性的同时，仍能稳定运行在无人机平台上

作者在分析中指出，这种效率提升主要来自三个方面：

● 一是异步架构避免了因等待语义推理而造成的停飞；

● 二是主动语义查询减少了低价值的决策干扰；

● 三是语义-几何一致规划显著降低了重复访问区域的情况。

图7｜左侧为场景的俯视图，右上为无人机第一视角画面，右下为对应的三维语义价值地图。可以看到，语义信息被稳定地积累在空间中，并持续引导无人机向高价值区域移动

在真实室外场景的飞行实验中，系统同样展现出稳定行为。

无人机在长距离搜索过程中几乎不再出现"停下来思考"的现象，飞行轨迹更加连贯，语义引导也更具方向性。

图8｜真实飞行实验在三个具有挑战性的室外环境中进行，包括公园区域（E-1）、景观区域（E-2）和居民区（E-3）。每个任务中，第一张图展示整体场景的俯视关系，其余图片记录无人机在执行任务过程中的不同状态。黄色圆圈标记无人机位置，红色矩形标记目标物体

这些结果共同说明，AirHunt 的优势并不只体现在指标上，而是在整体飞行行为层面更接近真实可部署系统的需求。

04 总结

AirHunt 展示的，并不是一个更大的模型，而是一种更清醒的系统设计观。当视觉语言模型进入具身系统，真正的挑战往往不在"能不能看懂"，而在看懂之后，这些信息要以什么形式、在什么节奏下，参与真实世界的运动决策。

REF

论文标题：AirHunt: Bridging VLM Semantics and Continuous Planning for Efficient Aerial Object Navigation

论文链接：https://arxiv.org/pdf/2601.12742

论文作者：Xuecheng Chen, Zongzhuo Liu, Jianfa Ma, Bang Du, Tiantian Zhang, Xueqian Wang, and Boyu Zhou