【国防科大-AAAI26】突破 “文字依赖”!VKDet让无人机航拍识别未知物体更精准


文章:https://arxiv.org/abs/2511.18075

代码:暂无

单位:国防科大


引言

一、问题背景:航拍识别的"认知局限"难题

当无人机在高空拍摄时,我们希望它能识别出画面里的所有物体------比如农田里的灌溉设备、山区的通信塔,甚至灾害现场的未知障碍物。但传统的"航拍目标检测技术"有个大问题:它只能认出提前"教过"的类别(比如预设好的"飞机""桥梁"),遇到没见过的新物体就"瞎眼"了。

后来研究者们想到用"视觉-语言模型(VLM)"的零样本能力来解决这个问题,也就是让模型通过文字描述去匹配未知物体(比如用"红色屋顶的小房子"描述新类别)。但这种方法又陷入了"文字依赖"的坑:如果没有现成的文字描述,模型就没法识别;而且文字和图像的匹配常常不准,比如把"长条状的农田"误判成"公路",导致识别效果大打折扣。

简单说,现有技术要么"认死理"(只认学过的类别),要么"靠翻译"(依赖文字描述),都没法灵活应对航拍场景里的未知物体。

二、方法创新:靠"视觉知识"自己学,不依赖额外文字

国防科技大学的团队提出了一个叫VK-Det的新框架,核心思路是:不依赖额外文字或标注,只靠VLM本身的"视觉感知能力"来识别未知物体。它主要做了三件关键创新:

1. 精准提取"有用区域":不浪费算力在背景上

航拍图里常有大片无用背景(比如蓝天、草原),VK-Det发现VLM的视觉编码器能自动"盯着"有物体的区域(比如地面的车辆、建筑)。于是它设计了一个"自适应选择蒸馏(ASKD)"模块:

  • 先通过VLM的注意力热力图,找出画面里"大概率有物体"的区域;

  • 对细长、小巧的航拍物体(比如电线杆、小船)做特殊的数据增强,避免裁剪时丢失关键特征;

  • 只把这些"有用区域"的特征传给检测器,减少背景干扰,让学习更高效。

2. 自动生成"类别模板":不用文字也能分类别

传统方法靠文字生成"类别模板",VK-Det则用"原型学习"自己造模板,也就是"原型感知伪标签(PAPL)":

  • 先把"有用区域"里的未知物体特征聚类,比如把不同形状的"未知建筑"聚成几类,每类形成一个"特征模板"(比如"圆顶模板""方盒模板");

  • 用这些"模板"给未知物体贴"伪标签"(比如"未知-1""未知-2"),让检测器能学习不同未知类别的区别,不用依赖文字描述。

3. 多维度打分:综合判断更靠谱

最后,VK-Det设计了"合成匹配推理(SMI)"机制,综合三个维度判断物体类别:

  • 检测器和VLM的特征匹配分(Scoreₙ);

  • "特征模板"的匹配分(Scoreₚ);

  • 物体位置的准确性分(Scoreₗ);

  • 三者结合算出最终得分,避免单维度判断出错,比如不会因为"形状像"就误判类别。

三、实验结果:性能碾压,还不用额外标注

团队在两个主流航拍数据集(DIOR和DOTA)上做了测试,结果很亮眼:

1. 未知类别识别率领先

  • 在DIOR数据集上,VK-Det对未知类别的识别精度(mAPᴺ)达到30.1%,比同样"无额外标注"的ViLD模型高23个百分点,甚至比依赖额外标注的CastDet还高0.3个百分点;

  • 在更复杂的DOTA数据集(有小物体、大尺寸图)上,VK-Det的未知类别精度达23.3%,比现有最好方法高9.1个百分点,而且"基础类别+未知类别"的综合表现(HM)也更均衡。

2. 关键模块缺一不可

ablation实验(去掉某个模块看效果)显示:

  • 去掉"有用区域提取",未知类别精度掉至20%左右;

  • 去掉"特征模板",精度只剩9.3%;

  • 只有三个模块一起用,才能达到30.1%的最高精度,证明每个创新都有用。

四、优势与局限

优势:打破"依赖",适配航拍场景

  1. 无额外依赖:不用额外标注、不用文字描述,纯靠视觉知识就能学,落地更灵活,比如在没有文字库的偏远地区也能用;

  2. 适配航拍特性:针对航拍图的"小物体多、背景杂、物体形状特殊"做了优化,比通用模型更实用;

  3. 性能能打:能超过依赖额外标注的模型,证明"纯视觉学习"的潜力。

局限:仍有优化空间

  1. 聚类数量敏感:"特征模板"的数量(聚类数k)需要调参,k太少会混类别,k太多会分散特征,目前最优是k=20,还没法自动适配;

  2. 复杂场景挑战:面对极端天气(比如大雾、暴雨)下的航拍图,"有用区域"提取可能出错,影响后续识别;

  3. 速度待提升:聚类和多维度打分增加了计算量,目前还没法做到实时检测,适合离线分析,不适合无人机实时避障等场景。

五、一句话总结

VK-Det靠"只挖视觉潜力、不依赖文字标注"的思路,解决了航拍场景中未知物体识别的"文字依赖"难题,性能超过多数依赖额外标注的模型,为无人机巡检、灾害救援等场景的灵活识别提供了新方案。

相关推荐
AI浩6 小时前
DeepSeek-V4:迈向高效百万Token上下文智能
人工智能·目标检测·计算机视觉·无人机
小许同学记录成长12 小时前
QGC整体架构与代码目录解析
架构·无人机
小O的算法实验室13 小时前
2026年SEVC,层级分解协同演化算法+带有无人机的车辆路径路径规划
算法·无人机
制造业的搬运工1 天前
深圳无人机电路板厂家选型指南:从技术需求到供应链匹配
科技·无人机·制造·pcb
TDK村田muRata1 天前
CUS200M-12 | TDK医疗电源|直流12V 16.7A |CUS200M-12/A
服务器·人工智能·3d·机器人·无人机
数智工坊2 天前
【Inner Monologue论文阅读】: 首次将大语言模型嵌入机器人控制闭环,实现自我反思和动态行为调整
论文阅读·人工智能·算法·语言模型·机器人·无人机
Evand J2 天前
【MATLAB控制例程】(9)多无人机编队协同控制与三维轨迹规划仿真,附下载链接
开发语言·分布式·matlab·无人机·控制
NOVAnet20232 天前
高端设计制造业SD-WAN跨域组网深度解析:头部无人机企业如何实现异地数据高效安全回传和协作
无人机·sd-wan·企业组网·南凌科技·边缘数据传输
灵智实验室2 天前
PX4状态估计技术EKF2详解(六):EKF2 磁力计融合——从航向修正到 3D 姿态约束
算法·无人机·px 4
灵智实验室3 天前
PX4状态估计技术EKF2详解(五):EKF2 故障检测、重置与鲁棒性——从单实例到多实例仲裁
算法·无人机·px 4