【中国石油大学-AAAI26】无人机+自然语言！首个空中多目标追踪 benchmark 来了，还带超强追踪算法

代码：https://github.com/shawnliang420/AerialMind

单位：中国石油大学

引言

无人机航拍视角广、机动性强，不管是城市监控、应急救援还是环境勘察，都能派上大用场。但现在的智能追踪技术大多只适用于地面场景，想让无人机听懂人类的自然语言指令（比如"追踪路口红灯前的白色轿车"），精准锁定并跟踪目标，目前还缺乏成熟的解决方案。今天就来聊聊这个领域的突破性研究------AerialMind 基准数据集和 HawkEyeTrack 追踪算法。

一、问题背景：地面追踪技术"上天"就失灵？

咱们平时常见的目标追踪技术，比如监控里追踪嫌疑人、自动驾驶识别前车，都是在地面场景下工作的。但无人机的空中视角完全不一样，会遇到一堆地面没有的难题：

目标忽大忽小：无人机飞得高，目标就成了小点；飞低了又会突然变大，外观差异极大；
空间关系复杂：从天上看，车辆、行人的位置关系比地面视角混乱得多；
场景变化快：无人机自己在动，画面的角度、光线也跟着变，追踪难度翻倍；
指令不好懂：描述空中目标的语言更复杂，可能涉及"左边车道超速的黑色汽车"这种结合位置、动作、特征的表达。

更关键的是，之前没有专门针对无人机场景的大规模数据集，研究人员想开发相关技术都没合适的"练手素材"，导致空中语言引导追踪一直是个空白。

二、方法创新：两大核心突破，解决空中追踪难题

为了填补这个空白，研究团队做了两件大事：一是建了个超实用的数据集，二是设计了个超强的追踪算法。

1. 首个空中专用数据集 AerialMind

这是全球第一个大规模无人机场景下的"语言引导多目标追踪"数据集，厉害之处在于：

规模超大：包含93段视频、24.6万条语言指令、4600多万个目标框标注，比之前的地面数据集丰富得多；
场景全覆盖：涵盖不同飞行高度、白天黑夜、城市道路、商业区等70多种场景；
标注超细致：不仅标了目标位置，还逐帧记录了"夜间、遮挡、快速移动"等8种挑战属性，方便测试算法的短板。为了高效建好这个数据集，团队还发明了一个半自动化标注工具 COALA，不用人工逐帧标注：先让AI解析视频场景，生成描述模板，标注员只需点两下确定目标的出现和消失时间，AI就会自动跟踪目标轨迹，最后还能让AI生成更多样的语言指令，既省时间又保证质量。

2. 超强追踪算法 HawkEyeTrack（鹰眼追踪）

这个算法专门针对无人机场景的痛点设计，有两个核心黑科技：

跨模态协同进化编码器：让视觉特征（看到的画面）和语言特征（听到的指令）互相促进、共同优化。不像以前的方法要么先处理画面再匹配语言，要么反过来，导致信息丢失，这个编码器能让两者"边融合边优化"，精准匹配指令和目标；
尺度自适应上下文优化模块：解决无人机视角下目标大小多变的问题，通过多尺度特征提取，就算是远处的小目标，也能清晰识别，不会被背景干扰。

三、实验结果：性能碾压同类算法，还能"跨界"用

在AerialMind数据集上的测试显示，HawkEyeTrack 表现超亮眼：

核心指标 HOTA 达到31.46%，比目前最先进的地面追踪算法高出5-8个百分点；
应对复杂场景超稳：在"夜间""低分辨率""快速移动"这些难题上，表现比其他算法好30%以上；
跨场景通用：不仅在无人机场景厉害，放到地面数据集 Refer-KITTI-V2 上测试，也能排进前三，说明算法的通用性超强；
抗干扰能力强：就算是跨数据集测试（比如用AerialMind训练，去追踪其他无人机数据集的目标），性能也没下降，反而略有提升。

四、优势与局限：亮点突出，仍有提升空间

优势很明显：

填补空白：第一次给无人机语言引导追踪提供了标准化的数据集和基准算法，让后续研究有了方向；
实用性强：数据集和算法都贴合真实无人机应用场景，比如城市监控、交通管理，落地潜力大；
效率超高：COALA标注工具把标注成本大幅降低，未来还能实现全自动化标注。

局限也得正视：

数据集有继承缺陷：基于现有公开数据集扩展，部分原始数据存在少量标注误差；
没用到大模型推理：算法没结合最新大语言模型的超强推理能力，应对更复杂的指令（比如"追踪那个刚刚穿过人群的红色电动车"）可能还不够；
计算成本较高：目前的算法在无人机这种资源有限的设备上，实时运行还有压力，需要进一步轻量化。

五、一句话总结

这是首个专门解决无人机"听懂人话追目标"的研究，既搭建了能用、好用的数据集平台，又提供了性能顶尖的算法方案，为无人机智能监控、自主导航等应用打开了新思路。