【国防科大-AAAI26】突破 “文字依赖”!VKDet让无人机航拍识别未知物体更精准


文章:https://arxiv.org/abs/2511.18075

代码:暂无

单位:国防科大


引言

一、问题背景:航拍识别的"认知局限"难题

当无人机在高空拍摄时,我们希望它能识别出画面里的所有物体------比如农田里的灌溉设备、山区的通信塔,甚至灾害现场的未知障碍物。但传统的"航拍目标检测技术"有个大问题:它只能认出提前"教过"的类别(比如预设好的"飞机""桥梁"),遇到没见过的新物体就"瞎眼"了。

后来研究者们想到用"视觉-语言模型(VLM)"的零样本能力来解决这个问题,也就是让模型通过文字描述去匹配未知物体(比如用"红色屋顶的小房子"描述新类别)。但这种方法又陷入了"文字依赖"的坑:如果没有现成的文字描述,模型就没法识别;而且文字和图像的匹配常常不准,比如把"长条状的农田"误判成"公路",导致识别效果大打折扣。

简单说,现有技术要么"认死理"(只认学过的类别),要么"靠翻译"(依赖文字描述),都没法灵活应对航拍场景里的未知物体。

二、方法创新:靠"视觉知识"自己学,不依赖额外文字

国防科技大学的团队提出了一个叫VK-Det的新框架,核心思路是:不依赖额外文字或标注,只靠VLM本身的"视觉感知能力"来识别未知物体。它主要做了三件关键创新:

1. 精准提取"有用区域":不浪费算力在背景上

航拍图里常有大片无用背景(比如蓝天、草原),VK-Det发现VLM的视觉编码器能自动"盯着"有物体的区域(比如地面的车辆、建筑)。于是它设计了一个"自适应选择蒸馏(ASKD)"模块:

  • 先通过VLM的注意力热力图,找出画面里"大概率有物体"的区域;

  • 对细长、小巧的航拍物体(比如电线杆、小船)做特殊的数据增强,避免裁剪时丢失关键特征;

  • 只把这些"有用区域"的特征传给检测器,减少背景干扰,让学习更高效。

2. 自动生成"类别模板":不用文字也能分类别

传统方法靠文字生成"类别模板",VK-Det则用"原型学习"自己造模板,也就是"原型感知伪标签(PAPL)":

  • 先把"有用区域"里的未知物体特征聚类,比如把不同形状的"未知建筑"聚成几类,每类形成一个"特征模板"(比如"圆顶模板""方盒模板");

  • 用这些"模板"给未知物体贴"伪标签"(比如"未知-1""未知-2"),让检测器能学习不同未知类别的区别,不用依赖文字描述。

3. 多维度打分:综合判断更靠谱

最后,VK-Det设计了"合成匹配推理(SMI)"机制,综合三个维度判断物体类别:

  • 检测器和VLM的特征匹配分(Scoreₙ);

  • "特征模板"的匹配分(Scoreₚ);

  • 物体位置的准确性分(Scoreₗ);

  • 三者结合算出最终得分,避免单维度判断出错,比如不会因为"形状像"就误判类别。

三、实验结果:性能碾压,还不用额外标注

团队在两个主流航拍数据集(DIOR和DOTA)上做了测试,结果很亮眼:

1. 未知类别识别率领先

  • 在DIOR数据集上,VK-Det对未知类别的识别精度(mAPᴺ)达到30.1%,比同样"无额外标注"的ViLD模型高23个百分点,甚至比依赖额外标注的CastDet还高0.3个百分点;

  • 在更复杂的DOTA数据集(有小物体、大尺寸图)上,VK-Det的未知类别精度达23.3%,比现有最好方法高9.1个百分点,而且"基础类别+未知类别"的综合表现(HM)也更均衡。

2. 关键模块缺一不可

ablation实验(去掉某个模块看效果)显示:

  • 去掉"有用区域提取",未知类别精度掉至20%左右;

  • 去掉"特征模板",精度只剩9.3%;

  • 只有三个模块一起用,才能达到30.1%的最高精度,证明每个创新都有用。

四、优势与局限

优势:打破"依赖",适配航拍场景

  1. 无额外依赖:不用额外标注、不用文字描述,纯靠视觉知识就能学,落地更灵活,比如在没有文字库的偏远地区也能用;

  2. 适配航拍特性:针对航拍图的"小物体多、背景杂、物体形状特殊"做了优化,比通用模型更实用;

  3. 性能能打:能超过依赖额外标注的模型,证明"纯视觉学习"的潜力。

局限:仍有优化空间

  1. 聚类数量敏感:"特征模板"的数量(聚类数k)需要调参,k太少会混类别,k太多会分散特征,目前最优是k=20,还没法自动适配;

  2. 复杂场景挑战:面对极端天气(比如大雾、暴雨)下的航拍图,"有用区域"提取可能出错,影响后续识别;

  3. 速度待提升:聚类和多维度打分增加了计算量,目前还没法做到实时检测,适合离线分析,不适合无人机实时避障等场景。

五、一句话总结

VK-Det靠"只挖视觉潜力、不依赖文字标注"的思路,解决了航拍场景中未知物体识别的"文字依赖"难题,性能超过多数依赖额外标注的模型,为无人机巡检、灾害救援等场景的灵活识别提供了新方案。

相关推荐
天途小编9 小时前
本科层次无人机专业就业方向全景解析
无人机
IT猿手9 小时前
基于复杂山地环境下无人机自主动态避障的三维路径规划研究,MATLAB代码
无人机·路径规划
HIZYUAN15 小时前
AI时代,如何利用FPGA在无人机视觉等方面进行快速应用
stm32·单片机·fpga开发·视觉检测·无人机·fpga·光端机
科普瑞传感仪器16 小时前
航空航天领域青睐:复杂曲面机器人抛光为何必须采用六维力控?
运维·人工智能·机器人·自动化·无人机
勤劳的进取家17 小时前
论文阅读:农业喷雾无人机避障技术综述
论文阅读·嵌入式硬件·神经网络·计算机视觉·无人机
科普瑞传感仪器1 天前
告别“盲打磨”:六维力传感器如何通过选型实现真正的机器人恒力控制?
人工智能·科技·ai·机器人·无人机
天途小编1 天前
本科无人机专业高薪就业方向分析
无人机
龙信科技1 天前
【国内电子数据取证厂商龙信科技】大疆无人机如何导出日志并解析
科技·无人机·日志
漫漫求1 天前
1、无人机教学初衷
无人机