【国防科大-AAAI26】突破 “文字依赖”!VKDet让无人机航拍识别未知物体更精准


文章:https://arxiv.org/abs/2511.18075

代码:暂无

单位:国防科大


引言

一、问题背景:航拍识别的"认知局限"难题

当无人机在高空拍摄时,我们希望它能识别出画面里的所有物体------比如农田里的灌溉设备、山区的通信塔,甚至灾害现场的未知障碍物。但传统的"航拍目标检测技术"有个大问题:它只能认出提前"教过"的类别(比如预设好的"飞机""桥梁"),遇到没见过的新物体就"瞎眼"了。

后来研究者们想到用"视觉-语言模型(VLM)"的零样本能力来解决这个问题,也就是让模型通过文字描述去匹配未知物体(比如用"红色屋顶的小房子"描述新类别)。但这种方法又陷入了"文字依赖"的坑:如果没有现成的文字描述,模型就没法识别;而且文字和图像的匹配常常不准,比如把"长条状的农田"误判成"公路",导致识别效果大打折扣。

简单说,现有技术要么"认死理"(只认学过的类别),要么"靠翻译"(依赖文字描述),都没法灵活应对航拍场景里的未知物体。

二、方法创新:靠"视觉知识"自己学,不依赖额外文字

国防科技大学的团队提出了一个叫VK-Det的新框架,核心思路是:不依赖额外文字或标注,只靠VLM本身的"视觉感知能力"来识别未知物体。它主要做了三件关键创新:

1. 精准提取"有用区域":不浪费算力在背景上

航拍图里常有大片无用背景(比如蓝天、草原),VK-Det发现VLM的视觉编码器能自动"盯着"有物体的区域(比如地面的车辆、建筑)。于是它设计了一个"自适应选择蒸馏(ASKD)"模块:

  • 先通过VLM的注意力热力图,找出画面里"大概率有物体"的区域;

  • 对细长、小巧的航拍物体(比如电线杆、小船)做特殊的数据增强,避免裁剪时丢失关键特征;

  • 只把这些"有用区域"的特征传给检测器,减少背景干扰,让学习更高效。

2. 自动生成"类别模板":不用文字也能分类别

传统方法靠文字生成"类别模板",VK-Det则用"原型学习"自己造模板,也就是"原型感知伪标签(PAPL)":

  • 先把"有用区域"里的未知物体特征聚类,比如把不同形状的"未知建筑"聚成几类,每类形成一个"特征模板"(比如"圆顶模板""方盒模板");

  • 用这些"模板"给未知物体贴"伪标签"(比如"未知-1""未知-2"),让检测器能学习不同未知类别的区别,不用依赖文字描述。

3. 多维度打分:综合判断更靠谱

最后,VK-Det设计了"合成匹配推理(SMI)"机制,综合三个维度判断物体类别:

  • 检测器和VLM的特征匹配分(Scoreₙ);

  • "特征模板"的匹配分(Scoreₚ);

  • 物体位置的准确性分(Scoreₗ);

  • 三者结合算出最终得分,避免单维度判断出错,比如不会因为"形状像"就误判类别。

三、实验结果:性能碾压,还不用额外标注

团队在两个主流航拍数据集(DIOR和DOTA)上做了测试,结果很亮眼:

1. 未知类别识别率领先

  • 在DIOR数据集上,VK-Det对未知类别的识别精度(mAPᴺ)达到30.1%,比同样"无额外标注"的ViLD模型高23个百分点,甚至比依赖额外标注的CastDet还高0.3个百分点;

  • 在更复杂的DOTA数据集(有小物体、大尺寸图)上,VK-Det的未知类别精度达23.3%,比现有最好方法高9.1个百分点,而且"基础类别+未知类别"的综合表现(HM)也更均衡。

2. 关键模块缺一不可

ablation实验(去掉某个模块看效果)显示:

  • 去掉"有用区域提取",未知类别精度掉至20%左右;

  • 去掉"特征模板",精度只剩9.3%;

  • 只有三个模块一起用,才能达到30.1%的最高精度,证明每个创新都有用。

四、优势与局限

优势:打破"依赖",适配航拍场景

  1. 无额外依赖:不用额外标注、不用文字描述,纯靠视觉知识就能学,落地更灵活,比如在没有文字库的偏远地区也能用;

  2. 适配航拍特性:针对航拍图的"小物体多、背景杂、物体形状特殊"做了优化,比通用模型更实用;

  3. 性能能打:能超过依赖额外标注的模型,证明"纯视觉学习"的潜力。

局限:仍有优化空间

  1. 聚类数量敏感:"特征模板"的数量(聚类数k)需要调参,k太少会混类别,k太多会分散特征,目前最优是k=20,还没法自动适配;

  2. 复杂场景挑战:面对极端天气(比如大雾、暴雨)下的航拍图,"有用区域"提取可能出错,影响后续识别;

  3. 速度待提升:聚类和多维度打分增加了计算量,目前还没法做到实时检测,适合离线分析,不适合无人机实时避障等场景。

五、一句话总结

VK-Det靠"只挖视觉潜力、不依赖文字标注"的思路,解决了航拍场景中未知物体识别的"文字依赖"难题,性能超过多数依赖额外标注的模型,为无人机巡检、灾害救援等场景的灵活识别提供了新方案。

相关推荐
云卓SKYDROID4 天前
无人机实时信号传输技术要点解析!
科技·无人机·高科技·云卓科技
AI能见度4 天前
硬核:如何用大疆 SRT 数据实现高精度 AR 视频投射?
ar·无人机·webgl
云卓SKYDROID4 天前
无人机精准降落技术要点难点
无人机·高科技·云卓科技·物流无人机
Deepoch4 天前
无人机升级不用改!Deepoc 开发板即插即享智能飞行
人工智能·无人机·开发板·具身模型·deepoc·智能无人机
yoyo君~4 天前
从内存管理到并发架构:C++ 核心内功修炼指南
开发语言·c++·学习·无人机
土拨鼠不是老鼠5 天前
纯软件仿真
无人机·地面站·mavlink·qgc
Mike_6665 天前
无人机的负载设备
无人机·行业应用·负载设备
云卓SKYDROID5 天前
无人机失效模式技术要点
无人机·高科技·云卓科技·失效模块
EriccoShaanxi5 天前
MEMS组合导航——60秒失锁不丢方向,0.01°姿态稳如磐石
人工智能·机器人·无人机
moonsims5 天前
GNSS 干扰导航套件:POLAR-300 和 VNS01 在恶劣环境下实现精确导航
无人机