基于对比学习的卫星影像目标检测领域适应方法（2024年美国研究）

**摘要：**将最先进的（SOTA）目标检测方法应用于卫星和无人机影像时，大多难以识别跨领域的小型密集物体。航拍影像中内容的高变异性源于不同传感器、地面区域、光照条件以及每日拍摄时间的差异。此外，航空影像中的物体数量与尺寸特征与消费级数据存在显著差异。我们提出了一种小型目标检测流程，通过空间金字塔池化、跨阶段部分网络以及基于热图的区域提议网络（RPNs）优化特征提取过程；其次，提出实例感知图像难度评分（DS），该指标可调整全局焦点损失函数以提升目标定位与识别精度；最后，在流程中引入两个基于对比学习的渐进式域适应（DA）模块，这些模块能对定制化CSP Darknet骨干网络提取的局部与全局特征进行对齐------不同层级的特征对齐可有效缓解目标识别在未见数据集上的性能下降。我们首次针对存在显著领域差异且以小型物体为主的高度不平衡卫星数据集，构建了基于对比学习的目标检测DA基准测试：相较于现有最佳 SOTA 方法，在 DOTA 和 NWPU -VHR10数据集上，所提方法的平均精度（mAP）分别提升了7.4%和4.6%。

A. HeatDA模型：热域适应模型
HeatDA结合TL及CycleGAN生成的图像DA

B. LGDA 模型：本地与全局领域适应模型
针对DIOR与 DOTA 基准集（IOU=0.5）的跨类别定量性能比较（mAP），其中DIOR作为源数据集， DOTA 作为目标数据集。各类别的性能结果仅针对目标数据集呈现
跨类别的定量性能比较（mAP）基于DIOR→ NWPU VHR -10基准集（IOU=0.5），其中DIOR作为源数据集， NWPU 作为目标数据集。各类别的性能结果仅针对目标数据集呈现
针对我们提出的 LGDA 方法进行的消融研究。其中，TL表示迁移学习， DWFL 为难度加权局部损失函数， LDA 为像素级局部判别分析， GDA 为抽象级全局判别分析
我们提出的模型在 DOTA 和 NWPU VHR-10目标数据集上的精确率、召回率及 F1 分数比较
基于对比学习的 LGDA 模型

**结论：**航空图像中的目标检测是计算机视觉研究中最具有挑战性的任务之一，因为照片中存在大量小型且相互重叠的目标。 DNN 目标定位的成功取决于海量标注训练数据以及流程中可靠的特征提取模块。本文提出了一种稳健的特征提取器，能够同时捕捉小型目标的低级与高级特征；同时引入基于热图的区域提议模块以更精准地识别细小物体。由于天气条件、地理环境变化及相机朝向差异，卫星图像的领域差异性比消费级图像更为显著。我们通过构建源数据集与目标数据集之间的两个中间域来实现渐进式领域对齐。所提出的 LGDA 方法在 DOTA 和 NWPU VHR -10目标数据集中，针对储罐、港口和网球场等多个类别均取得了超过60%的平均精度（mAP）。精心选择训练流程、负样本数量、降采样策略及温度参数，可显著提升对比学习的效果。最后，我们在两个具有高变异性且极具挑战性的目标数据集上验证了本方法，并相较于现有 SOTA 方法实现了显著性能提升：在 DOTA 和 NWPU VHR -10数据集上，我们的mAP值分别比最新的 SOTA MGADA 方法高出7.3%和4.6%。未来研究中，我们计划针对卫星图像引入基于聚类的伪标注技术、无偏实例级差异分析以及未知类别识别方法。