【目标检测】Efficient Feature Fusion for UAV Object Detection

Efficient Feature Fusion for UAV Object Detection

无人机目标检测中的高效特征融合

0.论文摘要

无人机(UAV)遥感图像中的目标检测面临诸多挑战,如图像质量不稳定、目标尺寸小、背景复杂以及环境遮挡等。特别是小目标在图像中占据的比例较小,导致其准确检测极为困难。现有的多尺度特征融合方法通过聚合不同分辨率的特征,在一定程度上应对了这些挑战。然而,由于特征表示不足和网络信息流不平衡,这些方法往往无法有效平衡小目标的分类和定位性能。本文提出了一种专门为无人机目标检测任务设计的新型特征融合框架,旨在同时提升定位精度和分类性能。该框架集成了混合上采样和下采样模块,使得来自不同网络深度的特征图能够灵活调整到任意分辨率。这一设计促进了跨层连接和多尺度特征融合,确保了对小目标的更好表示。我们的方法利用混合下采样增强细粒度特征表示,即使在复杂条件下也能提高小目标的空间定位精度。同时,上采样模块聚合全局上下文信息,优化了跨尺度的特征一致性,增强了在杂乱场景中的分类鲁棒性。在两个公开的无人机数据集上的实验结果表明了该框架的有效性。将其集成到YOLO-v10模型中,我们的方法在保持相同参数数量的情况下,相比基线YOLO-v10模型,平均精度(AP)提高了2个百分点。这些结果凸显了该框架在准确高效无人机目标检测中的潜力。

索引词---无人机目标检测,分类与定位的不平衡

1.引言

近年来,无人机(UAV)因其多功能性和广泛的应用而受到极大关注[48]。其中,基于无人机的目标检测已成为一项关键任务,在农业、灾害管理、军事监视和城市规划等领域具有重要影响。该任务涉及自动识别和定位无人机搭载摄像头拍摄图像中的目标物体(如车辆、建筑物或植被),从而在复杂场景中实现高效的决策制定。

基于无人机的目标检测与传统的基于地面的目标检测相比,面临着独特的挑战。空中视角带来了图像质量不稳定、目标尺寸小、背景复杂以及环境遮挡频繁等问题。特别是小目标,它们在图像中仅占据很小的比例,这进一步增加了准确检测的难度。这些挑战要求我们创新解决方案,以应对现有目标检测框架的局限性。

目前,基于深度学习的技术是无人机目标检测领域的主导方法 [51--56]。现有方法主要可分为三大类。第一类包括两阶段检测器,如Faster RCNN,它们使用区域建议网络(RPN)生成候选区域,随后进行分类和回归。这些模型以高精度著称,但通常推理速度较慢,限制了其在实时场景中的应用。第二类为单阶段检测器,如YOLO系列,它们直接一步预测目标类别和边界框。虽然这些模型推理速度更快,但由于特征表示不足,在检测小目标时面临挑战。第三类是基于Transformer的检测器,如Vision Transformer(ViT)和Detection Transformer(DETR),它们在建模全局特征和大感受野方面表现出色。然而,在处理高分辨率无人机图像时,其计算复杂度显著增加,且在小目标检测上的性能往往不如基于CNN的方法。目标检测 [58--62] 最近在扩散模型 [29, 36, 63, 64] 的推动下取得了进展,这些模型在生成高分辨率合成数据以及增强模型在复杂场景中的鲁棒性方面展示了显著能力。这些模型广泛应用于自动驾驶、医学影像和遥感等领域,其中精确的检测和定位至关重要。

物体检测算法(例如主流的基于CNN的算法)面临的一个突出挑战是分类信息与定位信息之间的不平衡。随着网络架构的加深,语义特征的增强往往会导致空间细节的退化。此外,在多尺度架构(如YOLO-v10)中,检测头在平衡高分辨率和低分辨率特征方面的能力有限,导致冗余结构增加,定位精度下降,尤其是对于小物体而言。

为了解决这些挑战,我们提出了一种新颖的特征融合框架,该框架集成了跨层连接和多尺度融合。如图1所示,我们的方法无缝集成到现有的基于CNN的架构中。通过利用融合下采样(FDS)和融合上采样(FUS)模块,它从浅层和深层网络层中捕获有价值的特征。这些特征通过融合多头自注意力(FMSA)模块与网络的输出进行融合,显著提升了无人机场景中的检测性能。具体而言,FDS模块增强了细粒度特征表示,这对于提高小目标的空间定位至关重要,即使在复杂条件下也是如此。同时,FUS模块聚合了全局上下文信息,优化了跨尺度的特征一致性,并增强了在杂乱场景中的分类鲁棒性。这种双重方法提高了定位精度和分类性能。我们的框架设计灵活,可以轻松集成到各种CNN架构中,使其成为无人机目标检测任务的全面增强方案。

图1. 我们的框架示意图。(a) 添加了融合下采样(FDS)模块的主干网络,用于收集浅层特征。(b) 网络的颈部。© 融合上采样(FUS)模块,用于收集深层特征。(d) 检测头。(e) 融合多头自注意力(FMSA)模块,用于融合来自(a)、(b)和©输出的特征。

本工作的主要贡献总结如下:

• 我们设计了一个具有全尺度和全感受野的特征融合框架,以解决基于无人机目标检测中分类与定位信息不平衡的问题。

• 我们提出了一种混合下采样模块,增强了网络提取和利用浅层特征的能力。这使得在下采样过程中能够高效地进行跨层特征融合,并改善信息流向更深层的能力。

• 我们引入了一种混合上采样模块,利用全局注意力机制来改善目标与背景的分离以及对遮挡目标的检测,从而提升整体检测的鲁棒性。

• 所提出的框架与现有的基于CNN的模型兼容。通过支持混合上采样和下采样,它使得网络不同深度的特征图能够灵活调整到任意分辨率,从而促进长距离跨层连接和多尺度特征融合。

2.相关工作

A. 传统目标检测方法

传统的目标检测算法依赖于手工特征提取和滑动窗口技术。这些方法通常包括三个关键阶段:区域提议、特征提取和分类回归。在区域提议阶段,识别出潜在的目标位置。然后,使用手工方法从这些候选区域中提取特征,随后使用传统分类器进行分类。代表性的方法包括Viola-Jones检测器[2]和用于人体检测的梯度方向直方图(HOGs)[3]。虽然这些方法为目标检测奠定了基础,但它们存在计算复杂度高、特征表示能力有限以及优化困难等问题,使其不适用于现代无人机检测任务。

B. 基于深度学习的目标检测

深度学习通过利用卷积神经网络(CNN)彻底改变了目标检测领域。这些方法大致可以分为两阶段和单阶段检测方法。

两阶段检测器,如Faster R-CNN [5],利用区域提议网络(RPN)生成候选区域,随后进行分类和回归。扩展方法如RecFRCN [69]和改进的Mask R-CNN [70]提升了多尺度特征表示和分割能力。尽管两阶段模型具有较高的准确性,但它们通常需要大量的计算资源,因此不太适合实时应用。

相比之下,单阶段检测器(如YOLO-v8 [42]和FasterNet-SSD [65])在一次推理中同时预测物体类别和边界框,从而实现了更快的推理速度。改进版的YOLO(如YOLO-v9 [46]和YOLO-v10 [38])以及其他模型(如DTSSNet [45]和A2Net [67])进一步提升了检测性能。然而,这些方法在检测小目标或被遮挡物体时表现不佳,导致误检率较高,尤其是在无人机场景中。

近年来,基于Transformer的目标检测技术取得了显著进展,引入了强大的全局特征建模架构。视觉Transformer(ViT)[25, 72, 73]将Transformer架构应用于计算机视觉领域,提供了更大的感受野和灵活的权重共享策略。Swin Transformer[26]采用了一种带有滑动窗口的分层结构,而DETR[28]则将目标检测任务框架化为集合预测问题,实现了端到端的检测。

C. 无人机目标检测

然而,这些模型在处理高分辨率无人机图像时面临挑战,主要是由于计算开销过大以及对小目标检测性能不佳。无人机目标检测还面临其他挑战,例如目标尺寸小、背景复杂以及环境遮挡。多尺度特征学习[8, 50]已被证明在解决这些问题方面非常有效。结合卷积神经网络(CNN)和Transformer的混合方法,如Conformer[29, 30]和LPSW[32],利用CNN进行局部特征提取,同时通过Transformer进行全局特征建模。其他方法,如DIAG-TR[33]和NeXtFormer[71],通过将卷积层与Transformer模块结合,增强了对小目标的表征能力。

尽管取得了这些进展,但大多数现有方法忽视了分类与定位之间的不平衡,特别是在无人机特定检测任务中。本文提出的方法通过一种先进的特征融合框架来解决这种不平衡。通过利用跨层连接和多尺度融合,我们的方法有效提升了检测性能,同时减少了冗余结构。此外,所提出的方法与现有的基于CNN的架构无缝兼容,使其在无人机目标检测场景中具有高度的实用性。

3.方法

本节介绍了我们提出的融合多头自注意力(FMSA)框架,旨在通过增强分类与定位信息之间的平衡来解决无人机目标检测中的挑战,特别是针对小目标检测。FMSA框架集成了两个辅助模块,FDS和FUS,以实现多尺度特征融合和长距离跨层连接。

A. 总体架构

所提出的FMSA模块作为CNN网络的补充组件,无缝集成到基线YOLO-v10模型的数据流中。如图2所示,该架构结合了FDS和FUS模块,将来自不同网络深度的特征图调整为 H / 8 × W / 8 H/8 × W/8 H/8×W/8的分辨率,并通过全局多头自注意力机制进行融合。

具体来说,FDS模块替换了YOLO-v10中的第二和第三卷积下采样层,以更高的分辨率捕捉有价值的浅层特征。在网络末端,FUS和FMSA模块被引入到检测头之前。FMSA模块收集来自FDS、FUS和原始网络的输出,以增强特征融合并提高定位精度。为了优先处理无人机场景中常见的小目标检测问题,大目标和中等目标的检测头被禁用。

图2. 我们的模型架构示意图。所提出的方法是一个补充组件,并集成到最先进的YOLO-v10模型中,包括FDS、FUS、FMSA模块。

B. 融合多头自注意力机制 (FMSA)

目标检测任务需要有效处理分类和定位信息,但深度网络往往在这两方面存在不平衡。这一问题在小目标检测中尤为突出,因为深层提取的语义信息与浅层提取的空间信息之间存在冲突。

为了解决这一问题,我们提出了FMSA模块,该模块通过全局多头自注意力机制(MHSA)聚合来自不同网络深度的多分辨率特征。通过结合浅层的高分辨率特征和深层的语义丰富的低分辨率特征,FMSA模块提升了网络检测小目标的能力,同时保持了定位精度。

如图3所示,FMSA模块由多头自注意力(MSA)块、多层感知机(MLP)和残差连接组成。通过标准的正弦位置嵌入保留位置信息。输入特征图 x x x被重塑为 H × W H × W H×W个维度为C的token,表示为:

图3. FMSA模块示意图。它是基于CNN网络的附加模块。除了网络的主输出外,FDS模块收集浅层特征,FUS模块收集深层特征,由FMSA模块进行特征融合。

自注意力模块计算输出如下:

其中 E p o s E_{pos} Epos 表示位置嵌入。后续层的计算方式如下:

FMSA模块的最终输出由以下公式给出:

C. 融合下采样 (FDS)

在基于CNN的目标检测中,浅层网络尽管包含了对小目标检测至关重要的高分辨率空间信息,但往往缺乏注意力机制。FDS模块通过引入局部注意力下采样(LADS)操作,增强了传统卷积下采样过程,从而更有效地捕捉空间细节。

如图4所示,LADS模块对2×2的补丁应用自注意力机制,通过MLP聚合输出,并将其重塑为降低后的分辨率。对于输入特征图x:

图4. FDS模块示意图。右侧为FDS模块的网络结构,左侧为YOLO-v10的下采样模块,用于对比。

FDS输出计算如下:

该模块使浅层特征能够流入更深层,通过保留高分辨率空间细节来提升小目标检测能力。

D. 融合上采样 (FUS)

在无人机目标检测中,高分辨率特征图有助于实现精确的小目标检测。FUS模块结合了全局自注意力机制,能够在保留全局语义信息的同时对低分辨率特征图进行上采样。

如图5所示,分辨率为 H / 32 × W / 32 H/32 × W/32 H/32×W/32和 H / 16 × W / 16 H/16 × W/16 H/16×W/16的特征图通过全局注意力上采样(GAUS)模块处理,生成 H / 8 × W / 8 H/8 × W/8 H/8×W/8的特征图。GAUS操作定义如下:

图5. FUS模块示意图。它对目标深层执行上采样操作。

转换后的特征图随后与FDS输出以及原始网络特征在FMSA模块中融合,通过增强目标与背景的区分度以及有效处理遮挡问题,提高了检测精度。

FUS模块有助于提高特征表示的一致性,并更好地定位小目标,确保在无人机图像中进行稳健的检测。

4.实验

在实验中,使用了两个公开数据集,即VisDrone2019数据集和DOTA1.5数据集,来训练和测试所提出的方法。

4.1 数据集

VisDrone2019:该数据集是由中国天津大学机器学习与数据挖掘实验室的AISKYEYE团队创建的大规模基准数据集。它包含了针对无人机图像相关计算机视觉任务的精心标注的真实数据。数据集包含来自不同场景和环境的10,209张静态图像,其中6,471张图像被指定为训练集,548张图像用于验证。数据是在不同场景、天气和光照条件下使用多种无人机平台采集的,涵盖了行人、汽车、自行车和三轮车等常见对象。

DOTA1.5:DOTA 是一个用于航空影像中目标检测的大规模数据集。它旨在开发和评估航空图像中的目标检测器,具有各种尺度、方向和形状的目标。DOTA-v1.5 包含来自不同场景和环境的 2,806 张高分辨率航空图像,并为极小的实例(小于 10 像素)提供了标注。其中,1,411 张图像用作训练集,458 张图像用作验证集。该数据集包含 15 个常见目标类别,如大型车辆、小型车辆、船只、桥梁和飞机等。

B.评估指标

在目标检测指标中,基于无人机图像的小目标检测大多采用平均精度均值(mAP)作为评估指标[37, 43, 44]。其中,平均精度(AP)是一个数值指标,用于总结精确率-召回率曲线的形状,以在实践中确定精确率和召回率之间的最佳平衡。因此,在对比实验中,mAP被用作主要指标,因为它能够全面评估模型的性能。mAP的定义如下:

这里n表示已识别的物体类别数量, A P i AP_i APi表示第i个物体类别的精确率-召回率曲线下的面积。

C.实现细节

在本文中,我们在Ubuntu 22.04系统上进行了实验,使用了两块NVIDIA GeForce RTX 3090 GPU,每块显卡配备24GB显存。实验环境包括PyTorch 2.0.1、CUDA 11.7和Python 3.9。我们在VisDrone2019和DOTAv1.5数据集上评估了我们的方法,这两个数据集共包含8k张训练图像和1k张验证图像。训练过程中,输入特征图的尺寸设置为640 × 640,模型最多训练1000个epoch。批量大小为6,并使用8个数据加载工作线程。YOLO-v10作为基线模型,我们的模块应用于其上。模型使用SGD优化器进行训练,动量为0.937,初始学习率设置为0.01。我们采用了YOLO-v10的默认训练配置,具体参数设置如表I所示。

D. 与最先进方法的比较

  1. 在Visdrone2019上的对比实验:为了验证所提方法在无人机图像场景中小目标检测中的有效性,我们在Visdrone2019数据集上进行了一系列对比实验。由于使用了相同的公开数据集,我们参考了最近发表的一篇论文[37]中的实验数据,其中包括一些经典的两阶段模型、一阶段模型以及最近提出的几种最先进的模型。此外,我们还选择了最新的最先进模型YOLO-v10,并在相似的模型参数数量和训练设置下进行了对比实验。

为了进行全面的性能比较,我们的基线对比模型是YOLOv10x,这是YOLO-v10系列中最大的模型。为了保持可比性并维持相似的参数量级,我们将我们的模块集成到了YOLOv10m,这是一个中等规模的模型。表II显示,在Visdrone2019数据集上,我们的检测模型实现了48.3%的mAP50,相比YOLOv10x模型提升了2.1%。总体而言,结果表明我们的模型显著提高了小目标检测的准确性。

  1. DOTA1.5上的比较:除了Visdrone2019数据集,我们还特别选择了DOTAv1.5数据集作为评估数据集。DOTA-v1.5数据集专为航空图像中目标检测器的开发和评估而设计,具有各种尺度、方向和形状的目标。它包含了对极小实例(小于10像素)的标注。高分辨率的航空图像,加上小而密集的目标实例,增加了检测的难度和挑战。通过在DOTA-v1.5数据集和Visdrone2019数据集上的验证,我们能够有效展示所提出方法在检测小目标方面的性能。

为了进一步验证所提方法在DOTA-v1.5数据集上的有效性,我们的模块被集成到YOLOv10n中,这是YOLO-v10系列中的一个较小模型。表III显示,在DOTA-v1.5数据集上,在相同模型参数数量的情况下,我们的检测模型实现了42.5%的mAP50,相比YOLOv10n模型提升了2.0%。

E.消融实验与分析

在本节中,我们使用Visdrone2019作为基准数据集,并以YOLOv10n作为基线模型。我们的模块被集成到基线模型中,同时减少了基线模型的网络层数,以确保实验中所有方法的最终参数量大致一致。这使得我们能够观察每个模块的效果以及本文讨论的分类与定位不平衡问题。

在表IV中,YOLOv10n基线模型的mAP50为37.3%。第一种方法仅使用FMSA模块,在最小和中等分辨率检测头之前对特征图进行最近邻上采样,然后将其与最大分辨率检测头之前的特征图融合。结果表明,这种单检测头网络的性能优于三检测头的YOLOv10n网络。这表明,对于具有最高分辨率的检测头,实际上存在来自更深层的语义信息相对不足的问题。在补充了这些缺失信息后,单检测头的性能与三检测头相当。

第二种方法在FMSA模块的基础上增加了FUS模块,对基线网络中最小和中等分辨率检测头之前的特征图进行全局注意力上采样,而不是简单的最近邻上采样,从而提升了网络性能。在引入全局注意力后,召回率(R)从36.2%提升至37.1%,表明模型增强了区分目标与背景的能力。

第三种方法在第一种方法的基础上增加了FDS模块,从而显著提升了性能。一方面,这表明引入浅层特征可以显著增强网络的性能。另一方面,这也支持了本文提出的问题,即分类与定位信息的不平衡性确实存在。随着网络架构的加深,语义信息的增强往往伴随着空间信息表示的下降。与第二种方法相比,在小目标检测任务中,浅层空间信息的收益略高于深层语义信息。

第四种方法包含了所有新模块FMSA、FUS和FDS,是所提出方法的完整版本。如图6所示,可以清晰地看到添加所提出模块后的性能提升。实验结果表明,所提出的方法有效解决了网络中分类与定位信息不平衡的问题,实现了最佳性能, m A P 50 mAP_{50} mAP50达到41.7%,比基线模型提高了4.4%。

图6. VisDrone2019上不同模块的对比。0为基线模型YOLO-v10;1为启用FMSA;2为启用FMSA和FUS;3为启用FMSA和FDS;4为启用FMSA、FUS和FDS。

5.结论

本文探讨了基于CNN的目标检测网络在分类与定位信息之间的不平衡问题,尤其是在无人机(UAV)场景中。现有方法,包括多尺度融合和多检测头设计(如YOLO),部分缓解了这一问题,但往往引入冗余或受限于有限的跨层连接。我们提出了一种灵活的特征融合框架,集成了FDS、FUS和FMSA模块,以增强跨层连接和多尺度融合能力。该方法在保持计算效率的同时,有效提升了小目标的检测性能。在YOLO-v10模型上的实验表明,该框架在精度上取得了显著提升,特别是在无人机检测任务中。尽管取得了这些进展,但该方法在更广泛的检测任务和极高分辨率图像上的表现仍需进一步探索。未来的工作将集中于将该框架扩展到基于Transformer的架构,并开发适用于多样化目标检测场景的自适应融合技术。

6.引用文献

  • [1] X. Xu, S. Dong, T. Xu, L. Ding, J. Wang, P. Jiang, L. Song, and J. Li, "FusionRCNN: LiDAR-camera fusion for two-stage 3d object detection," Remote Sensing, vol. 15, p. 1839, 2023.
  • [2] P. Viola and M. Jones, "Rapid object detection using a boosted cascade of simple features," in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol. Volume 1. Kauai, HI, USA: IEEE, 2001, pp. I511--I518.
  • [3] N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection," in Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), vol. Volume 1. San Diego, CA, USA: IEEE, 2005, pp. 886--893.
  • [4] R. Girshick, "Fast R-CNN," in Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, December 2015, pp. 1440--1448.
  • [5] S. Ren, K. He, R. Girshick, and J. Sun, "Faster R-CNN: Towards real-time object detection with region proposal networks," IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, pp. 1137--1149, 2017.
  • [6] J. Ni, Y. Chen, Y. Chen, J. Zhu, D. Ali, and W. Cao, "A survey on theories and applications for self-driving cars based on deep learning methods," Appl. Sci., vol. 10, no. 8, p. 2749, 2020.
  • [7] T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie, "Feature pyramid networks for object detection," in Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017. Honolulu, HI, USA: IEEE, July 2017, pp. 936--944.
  • [8] J. Ni, K. Shen, Y. Chen, and S. Yang, "An improved SSD-like deep network-based object detection method for indoor scenes," IEEE Trans. Instrum. Meas., vol. 72, p. 5006915, 2023.
  • [9] K. He, G. Gkioxari, P. Dollar, and R. Girshick, "Mask RCNN," in Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, October 2017, pp. 2980--2988.
  • [10] K. He et al., "Spatial pyramid pooling in deep convolutional networks for visual recognition," TPAMI, vol. 37, no. 9, pp. 1904--1916, 2015.
  • [11] J. Dai et al., "R-FCN: Object detection via region-based fully convolutional networks," NeurIPS, vol. 29, 2016.
  • [12] Z. Cai and N. Vasconcelos, "Cascade R-CNN: high quality object detection and instance segmentation," TPAMI, vol. 43, no. 5, pp. 1483--1498, 2021.
  • [13] J. Pang et al., "Libra R-CNN: Towards balanced learning for object detection," in CVPR, 2019, pp. 821--830.
  • [14] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, "You only look once: Unified, real-time object detection," in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, June 2016, pp. 779--788.
  • [15] J. Ni, K. Shen, Y. Chen, W. Cao, and S. Yang, "An improved deep network-based scene classification method for self-driving cars," IEEE Trans. Instrum. Meas., vol. 71, p. 5001614, 2022.
  • [16] L. Chen, W. Shi, and D. Deng, "Improved yolov3 based on attention mechanism for fast and accurate ship detection in optical remote sensing images," Remote Sens., vol. 13, no. 4, p. 660, 2021.
  • [17] A. Bochkovskiy, C. Wang, and H. Liao, "YOLOv4: Optimal speed and accuracy of object detection," arXiv, 2020.
  • [18] J. Redmon and A. Farhadi, "YOLO9000: better, faster, stronger," in CVPR, 2017, pp. 7263--7271.
  • [19] G. Jocher et al., "yolov5," Code repository https://github. com/ultralytics/yolov5, 2020.
  • [20] C. Li, L. Li, H. Jiang, K. Weng, Y. Geng, L. Li, Z. Ke, Q. Li, M. Cheng, W. Nie et al., "YOLOv6: A single-stage object detection framework for industrial applications," arXiv preprint arXiv:2209.02976, 2022.
  • [21] C.-Y. Wang, A. Bochkovskiy, and H.-Y. M. Liao, "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors," arXiv preprint arXiv:2207.02696, 2022.
  • [22] W. Liu et al., "SSD: Single shot multibox detector," in ECCV. Springer, 2016, pp. 21--37.
  • [23] T.-Y. Lin et al., "Focal loss for dense object detection," in ICCV, 2017, pp. 2980--2988.
  • [24] F. Shen, X. Shu, X. Du, and J. Tang, "Pedestrian-specific bipartite-aware similarity learning for text-based person retrieval," in Proceedings of the 31th ACM International Conference on Multimedia, 2023.
  • [25] F. Shen, X. Du, L. Zhang, and J. Tang, "Triplet contrastive learning for unsupervised vehicle re-identification," arXiv preprint arXiv:2301.09498, 2023.
  • [26] Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo, "Swin Transformer: Hierarchical vision transformer using shifted windows," in Proceedings of the 18th IEEE/CVF International Conference on Computer Vision. Virtual: IEEE, October 2021, pp. 9992--10 002.
  • [27] W. Wang, E. Xie, X. Li, D. Fan, K. Song, D. Liang, T. Lu, P. Luo, and L. Shao, "Pyramid vision transformer: A versatile backbone for dense prediction without convolutions," in Proceedings of the 18th IEEE/CVF International Conference on Computer Vision. Virtual: IEEE, October 2021, pp. 548--558.
  • [28] N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, and S. Zagoruyko, "End-to-end object detection with transformers," in Proceedings of the 16th European Conference on Computer Vision, vol. 12346 LNCS. Glasgow, UK: Springer, August 2020, pp. 213--229.
  • [29] F. Shen and J. Tang, "IMAGPose: A unified conditional framework for pose-guided person generation," in The Thirty-eighth Annual Conference on Neural Information Processing Systems, 2024.
  • [30] Z. Peng, Z. Guo, W. Huang, Y. Wang, L. Xie, J. Jiao, Q. Tian, and Q. Ye, "Conformer: Local features coupling global representations for recognition and detection," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.
  • [31] W. Lu, C. Lan, C. Niu, W. Liu, L. Lyu, Q. Shi, and S. Wang, "A CNN-Transformer hybrid model based on CSWin transformer for UAV image object detection," IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023.
  • [32] X. Xu, Z. Feng, C. Cao, M. Li, J. Wu, Z. Wu, Y. Shang, and S. Ye, "An improved swin transformer-based model for remote sensing object detection and instance segmentation," Remote Sensing, vol. 13, no. 23, p. 4779, 2021.
  • [33] J. Xue, D. He, M. Liu, and Q. Shi, "Dual network structure with interweaved global-local feature hierarchy for transformerbased object detection in remote sensing image," IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 15, pp. 6856--6866, 2022.
  • [34] D. Chen, D. Miao, and X. Zhao, "Hyneter: Hybrid network transformer for object detection," in ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023, pp. 1--5.
  • [35] J. Ding, W. Li, L. Pei, M. Yang, C. Ye, and B. Yuan, "SwYoloX: An anchor-free detector based transformer for sea surface object detection," Expert Systems with Applications, p. 119560, 2023.
  • [36] F. Shen, X. Jiang, X. He, H. Ye, C. Wang, X. Du, Z. Li, and J. Tang, "IMAGDressing-v1: Customizable virtual dressing," arXiv preprint arXiv:2407.12705, 2024.
  • [37] J. Ni, S. Zhu, G. Tang, C. Ke, and T. Wang, "A small-object detection model based on improved YOLOv8s for UAV image scenarios," Remote Sensing, vol. 16, no. 13, 2024.
  • [38] A. Wang, H. Chen, L. Liu, K. Chen, Z. Lin, J. Han, and G. Ding, "Yolov10: Real-time end-to-end object detection," arXiv preprint arXiv:2405.14458, 2024.
  • [39] S. Zhang, C. Chi, Y. Yao, Z. Lei, and S. Li, "Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection," in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, June 2020, pp. 97569765.
  • [40] W. Liu, K. Quijano, and M. Crawford, "YOLOv5-tassel: Detecting tassels in RGB UAV imagery with improved YOLOv5 based on transfer learning," IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens., vol. 15, pp. 8085--8094, 2022.
  • [41] G. Xiong, J. Qi, M. Wang, C. Wu, and H. Sun, "GCGE-YOLO: Improved YOLOv5s algorithm for object detection in UAV images," in Proceedings of the Chinese Control Conference, CCC. Tianjin, China: IEEE, July 2023, pp. 7723--7728.
  • [42] G. Wang, Y. Chen, P. An, H. Hong, J. Hu, and T. Huang, "UAVYOLOv8: A small-object-detection model based on improved YOLOv8 for UAV aerial photography scenarios," Sensors, vol. 23, no. 16, p. 7190, 2023.
  • [43] Q. Wu, Y. Li, W. Huang, Q. Chen, and Y. Wu, "C3TB-YOLOv5: Integrated YOLOv5 with transformer for object detection in high-resolution remote sensing images," Int. J. Remote Sens., vol. 45, no. 12, pp. 2622--2650, 2024.
  • [44] X. Zhu, S. Lyu, X. Wang, and Q. Zhao, "TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios," in Proceedings of the IEEE International Conference on Computer Vision. Cambridge, MA, USA: IEEE, October 2021, pp. 2778--2788.
  • [45] L. Chen, C. Liu, W. Li, Q. Xu, and H. Deng, "DTSSNet: Dynamic training sample selection network for UAV object detection," IEEE Trans. Geosci. Remote Sens., vol. 62, p. 5902516, 2024.
  • [46] C.-Y. Wang, I.-H. Yeh, and H.-Y. Mark Liao, "Yolov9: Learning what you want to learn using programmable gradient information," in European conference on computer vision. Springer, 2024, pp. 1--21.
  • [47] J. Wang, W. Liu, W. Zhang, and B. Liu, "LV-YOLOv5: A lightweight object detector of Vit on drone-captured scenarios," in Proceedings of the International Conference on Signal Processing Proceedings, ICSP, vol. 1. Beijing, China: IEEE, October 2022, pp. 178--183.
  • [48] G. Tang, J. Ni, Y. Zhao, Y. Gu, and W. Cao, "A survey of object detection for UAVs based on deep learning," Remote Sensing, vol. 16, no. 1, 2024.
  • [49] A. M. Rekavandi, S. Rashidi, F. Boussaid, S. Hoefs, E. Akbas, and M. bennamoun, "Transformers in small object detection: A benchmark and survey of state-of-the-art," 2023.
  • [50] J. Zhu, K. Yang, Y. Zhang, Y. Peng, and Y. Peng, "APFN: Adaptive perspective-based fusion network for 3-D place recognition," IEEE Transactions on Instrumentation and Measurement, vol. 73, pp. 1--10, 2024.
  • [51] H. Xue, X. Wang, Y. Xia, Z. Tang, L. Li, and L. Wang, "Enhanced YOLOv8 for small object detection in UAV aerial photography: YOLO-UAV," in 2024 International Joint Conference on Neural Networks (IJCNN), 2024, pp. 1--8.
  • [52] L. Zuo, J. Hao, and L. Yu, "A temporal and self-attention based method for small object detection in UAV imagery," in 2024 International Joint Conference on Neural Networks (IJCNN), 2024, pp. 1--8.
  • [53] X. Ma, W. Wei, J. Dong, B. Zheng, and J. Ma, "RTODYOLO: Traffic object detection in UAV images based on visual attention and re-parameterization," in 2023 International Joint Conference on Neural Networks (IJCNN), 2023, pp. 1--8.
  • [54] L. Tan, Z. Liu, H. Liu, D. Li, and C. Zhang, "A real-time unmanned aerial vehicle (UAV) aerial image object detection model," in 2024 International Joint Conference on Neural Networks (IJCNN), 2024, pp. 1--7.
  • [55] B. Cao, D. Wang, Y. Guo, and H. Zhang, "Enhancing small object detection in aerial imagery based on strong feature extraction and batch dimension," in 2024 International Joint Conference on Neural Networks (IJCNN), 2024, pp. 1--8.
  • [56] N. Koutsoubis, K. Naddeo, G. Williams, G. Lecakes, G. Ditzler, N. C. Bouaynaya, and T. Kiel, "Boosting aerial object detection performance via virtual reality data and multi-object training," in 2023 International Joint Conference on Neural Networks (IJCNN), 2023, pp. 1--8.
  • [57] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," in 2014 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2014, Columbus, OH, USA, June 23-28, 2014. IEEE Computer Society, 2014, pp. 580587.
  • [58] W. Weng, M. Wei, J. Ren, and F. Shen, "Enhancing aerial object detection with selective frequency interaction network," IEEE Transactions on Artificial Intelligence, vol. 1, no. 01, pp. 1--12, 2024.
  • [59] H. Li, R. Zhang, Y. Pan, J. Ren, and F. Shen, "LR-FPN: Enhancing remote sensing object detection with location refined feature pyramid network," arXiv preprint arXiv:2404.01614, 2024.
  • [60] C. Qiao, F. Shen, X. Wang, R. Wang, F. Cao, S. Zhao, and C. Li, "A novel multi-frequency coordinated module for SAR ship detection," in 2022 IEEE 34th International Conference on Tools with Artificial Intelligence (ICTAI). IEEE, 2022, pp. 804--811.
  • [61] W. Weng, W. Lin, F. Lin, J. Ren, and F. Shen, "A novel cross frequency-domain interaction learning for aerial oriented object detection," in Chinese Conference on Pattern Recognition and Computer Vision (PRCV). Springer, 2023, pp. 292--305.
  • [62] Y. Tang, H. Pan, J. Guo, F. Shen, Z. Zhu, and H. Jia, "FourierFPN: Fourier improves multi-scale feature learning for oriented tiny object detection," in International Conference on Intelligent Computing. Springer, 2024, pp. 450--461.
  • [63] F. Shen, H. Ye, J. Zhang, C. Wang, X. Han, and W. Yang, "Advancing pose-guided image synthesis with progressive conditional diffusion models," arXiv preprint arXiv:2310.06313, 2023.
  • [64] F. Shen, H. Ye, S. Liu, J. Zhang, C. Wang, X. Han, and W. Yang, "Boosting consistency in story visualization with rich-contextual conditional diffusion models," arXiv preprint arXiv:2407.02482, 2024.
  • [65] F. Yang, L. Huang, X. Tan, and Y. Yuan, "FasterNet-SSD: a small object detection method based on SSD model," Signal Image Video Process., vol. 18, no. 1, pp. 173--180, 2024.
  • [66] S. Zeng, W. Yang, Y. Jiao, L. Geng, and X. Chen, "SCA-YOLO: A new small object detection model for UAV images," Vis. Comput., vol. 40, no. 8, pp. 1787--1803, 2024.
  • [67] Q. Yang, L. Cao, C. Huang, Q. Song, and C. Yuan, "A2Net: An anchor-free alignment network for oriented object detection in remote sensing images," IEEE Access, vol. 12, pp. 42 01742 027, 2024.
  • [68] Y. Wang, H. Zou, M. Yin, and X. Zhang, "SMFF-YOLO: A scale-adaptive YOLO algorithm with multi-level feature fusion for object detection in UAV scenes," Remote Sens., vol. 15, no. 18, p. 4580, 2023.
  • [69] Y. Zhang and T. Lu, "RecFRCN: Few-shot object detection with recalibrated faster R-CNN," IEEE Access, vol. 11, pp. 121 109121 117, 2023.
  • [70] Q. Liu, M. A. Ayub, F. A. Ruslan, M. N. A. A. Patar, and S. A. Rahman, "An improved mask R-CNN algorithm for high object detection speed and accuracy," in Soft Computing in Data Science - 7th International Conference, SCDS 2023, Virtual Event, January 24-25, 2023, Proceedings, ser. Communications in Computer and Information Science, M. Yusoff, T. Hai, M. Kassim, A. Mohamed, and E. Kita, Eds., vol. 1771. Springer, 2023, pp. 107--118.
  • [71] H. Yang, Z. Yang, A. Hu, C. Liu, T. J. Cui, and J. Miao, "Unifying convolution and transformer for efficient concealed object detection in passive millimeter-wave images," IEEE Transactions on Circuits and Systems for Video Technology, 2023.
  • [72] Z. Yuan, J. Luo, F. Shen, Z. Li, C. Liu, T. Mao, and Z. Wang, "DVP-MVS: Synergize depth-edge and visibility prior for multiview stereo," arXiv preprint arXiv:2412.11578, 2024.
  • [73] Z. Yuan, C. Liu, F. Shen, Z. Li, T. Mao, and Z. Wang, "MSPMVS: Multi-granularity segmentation prior guided multi-view stereo," arXiv preprint arXiv:2407.19323, 2024.
相关推荐
秦南北4 分钟前
国内领先的宠物类电商代运营公司品融电商
大数据·人工智能·电商
龚大龙19 分钟前
机器学习(李宏毅)——Domain Adaptation
人工智能·机器学习
源码姑娘26 分钟前
基于DeepSeek的智慧医药系统(源码+部署教程)
java·人工智能·程序人生·毕业设计·springboot·健康医疗·课程设计
AIGC_ZY27 分钟前
扩散模型中三种加入条件的方式:Vanilla Guidance,Classifier Guidance 以及 Classifier-Free Guidance
深度学习·机器学习·计算机视觉
☞黑心萝卜三条杠☜1 小时前
后门攻击仓库 backdoor attack
论文阅读·人工智能
三三木木七1 小时前
BERT、T5、GPTs,Llama
人工智能·深度学习·bert
problc2 小时前
Manus AI 全球首款通用型 Agent,中国制造
大数据·人工智能·制造
xiangzhihong82 小时前
GitHub神秘组织3小时极速复刻Manus
人工智能·深度学习·机器学习
博云技术社区2 小时前
DeepSeek×博云AIOS:突破算力桎梏,开启AI普惠新纪元
人工智能·博云·deepseek
ZHOU_WUYI2 小时前
Process-based Self-Rewarding Language Models 论文简介
人工智能·深度学习