顶刊【遥感目标检测】【TGRS】LSKF-YOLO:面向高分辨率卫星遥感影像电力塔检测的大规模选择性核特征融合网络

LSKF-YOLO:Large Selective Kernel Feature Fusion Network for Power Tower Detection in High-Resolution Satellite Remote Sensing Images

LSKF-YOLO:面向高分辨率卫星遥感影像电力塔检测的大规模选择性核特征融合网络

0.论文摘要

摘要------随着高分辨率卫星遥感观测技术的快速发展,基于卫星遥感影像的电力塔检测已成为电力智能巡检的关键研究方向。然而,由于复杂背景、目标尺寸小且不均匀等问题,卫星遥感影像中电力塔检测性能仍有待提升。为此,本文首先构建了多场景高分辨率卫星遥感电力塔数据集,进而提出面向高分辨率卫星遥感影像的大选择性核特征融合(LSKF)-YOLO网络。该网络主要由大空间核选择性注意力融合模块和多尺度特征对齐融合(MFAF)结构组成。通过注意力特征融合模块改进的大空间选择性核机制(LSKM),为精确定位电力塔位置提供了更丰富的特征信息;MFAF结构有效利用浅层语义信息,缓解深层网络特征模糊问题,实现复杂背景下电力塔的多尺度特征融合。此外,引入最小点距离交并比(MPDIoU)对完整交并比(CIoU)进行优化,进一步提升了模型性能。实验结果表明,LSKF-YOLO网络的F1分数和mAP0.5分别达到0.764%和77.47%。与其他基于深度学习的卫星遥感电力塔巡检方法相比,该网络显著提升了检测精度,为卫星遥感电力线路智能巡检提供了关键技术支撑。

关键词------特征对齐融合,高分辨率卫星遥感影像,大选择性核机制,最小点距离交并比(MPDIoU),电力塔检测。

1.引言

随着人工智能技术的持续发展和应用,电力线路巡检已从数字化迈向智能化。无人机凭借高效、安全和灵活的特点,成为电力巡检的主要手段[1][2]。然而无人机巡检易受天气变化和续航问题影响,导致宏观电力线路监测能力不足,对电网稳定运行构成威胁[3]。近年来,卫星遥感影像在国土规划、自然灾害风险评估及环境监测等领域得到广泛应用[4]。卫星遥感具有覆盖范围广、环境限制少等优势,可实现规模化、业务化的电力线路巡检,极大提升了无人机巡检的效率和针对性。因此,基于卫星遥感的智能化电力线路巡检已成为重要研究方向。

与已广泛应用于电力线路、绝缘子、电杆、铁塔等电力关键设备缺陷识别与研究的成熟无人机巡检技术相比,当前研究主要集中于利用卫星遥感影像开展电力廊道内植被侵蚀[5]、灾害监测[6]、[7]等任务,对电杆、铁塔等目标的识别涉及较少。随着卫星遥感影像空间分辨率的持续提升与重访周期缩短,研究人员发现从亚米级卫星遥感影像中检测识别电力铁塔、变电站等大型电力基础设施的潜力。电力铁塔作为支撑电力线路、保障其安全运行并与地面保持一定距离的重要基础设施,在电网中具有关键作用。从卫星遥感影像获取电力铁塔的位置信息,可辅助电力企业核查铁塔分布情况,为巡检人员作业提供支持,并助力区域电网规划工作。

传统光学卫星遥感图像目标检测主要依赖于机器学习和图像处理技术,包括区域选择、特征提取和分类器。特征提取是目标检测的关键步骤,涉及对图像灰度值、纹理及地物光谱等信息的分析,这些信息对遥感图像中的目标检测起着决定性作用。目前机器学习算法在基于卫星遥感图像的电力线路巡检中已得到应用。Uehara等人[8]利用高阶局部自相关图像特征从多光谱卫星图像中提取空间与光谱关系,采用AdaBoost作为斑块图像分类器,实现了约90%的准确率和不足80%的召回率。Prakash与Kak[9]则对WorldView2获取的覆盖澳大利亚东南部15万平方公里的多光谱图像运用主动学习技术,通过监督预标注数据检测输电塔,最终使输电线路塔杆检测器达到80%准确率和50%召回率。此外,Gershenson等人[10]提出利用中分辨率成像光谱仪(MOIDS)土地覆盖数据、夜间灯光数据等电力基础设施间接指标来自动估算图像中电力线位置的方法。但传统光学卫星遥感图像目标检测算法仅适用于特定环境与背景,泛化能力较差,且多用于输电塔等大型目标提取,对配电塔涉及较少,同时无法有效解决卫星遥感图像中噪声、复杂背景及目标尺度变化等问题。

随着深度学习的快速发展,研究者们认识到可以运用基于深度学习的目标检测方法,以更好地提取卫星遥感图像中的电力目标。基于深度学习的目标检测方法采用卷积神经网络(CNN)来表征层次化的高维特征,并自动提取图像特征。主流目标检测方法主要分为两类:基于区域的两阶段目标检测算法(如区域卷积神经网络(RCNN)[11]、Fast R-CNN[12]和Faster R-CNN[13])和单阶段检测算法(如单次多框检测器(SSD)[14]、RetinaNet[15]和YOLO系列[16]、[17]、[18])。Hu等[19]构建了不同地理位置下的四个电力塔数据集,并探索使用三种模型(Faster R-CNN、YOLOv2和RetinaNet)从输配电基础设施图像数据集[20]中自动检测电力塔。最终RetinaNet表现最佳,达到了47%的精确率、60%的召回率和53%的F1分数。研究还发现,卫星图像分辨率至少需要0.3米才能检测到至少一半的电力塔。此外,Fang等[21]针对高分辨率卫星遥感地面成像特征,提出了一种样本数据增强方法,以解决电杆和电力塔样本不足的问题。Haroun等[22]利用RetinaNet深度学习模型从卫星图像中检测输电塔位置,在交并比(IoU)为0.5时取得了72.45%的平均精度mAP0.5。他们还开发了一种路由算法,通过在相邻检测到的输电塔之间创建虚拟路径来提取电力走廊区域。目前大多数基于深度学习的卫星遥感图像电力塔目标检测算法虽然依托典型目标检测模型的优势,但尚未有效解决卫星遥感图像中多尺度电杆和复杂背景的问题。

光学卫星遥感影像特征通常可分为高层特征和低层特征。高层特征指抽象的语义信息,低层特征则包含影像的光谱、纹理等细节信息。在CNN架构中,各层特征的分布与目标尺度相关。电力塔卫星遥感影像中,配电塔与输电塔存在尺度差异且悬殊较大,难以同时将两者的特征传递至更深网络层。此外,基于深度学习的目标检测模型使用CNN提取的最后一层特征进行分类定位,这会减少最终网络输出中的小目标信息量,导致配电塔等小目标的检测精度降低。因此,利用多尺度特征图并设计多尺度特征融合模块尤为关键。Hou等[23]通过级联方式设计特征融合策略,将高层语义信息与低层细节信息相融合,以减少CNN网络传输过程中小目标信息的损失,从而增强多尺度特征表征能力。Fu等[24]提出一种生成多尺度特征层次的特征融合架构,包含自上而下和自下而上两种方式来实现深浅层特征融合。Zhu等[25]提出的TPH-YOLO模型采用Transformer改进YOLOv5的预测网络,结合自注意力机制实现多尺度目标的有效检测。Zhou等[26]提出注意力多跳图与多尺度卷积融合网络,包含多尺度全CNN和多跳图卷积网络(GCN)两个子网络,用于提取遥感影像的多层次信息。

卫星遥感影像中电力塔目标的检测还面临着复杂背景干扰的挑战。电力塔在颜色、形状等特征上极易受到各类相似地物的影响,导致误检现象。鉴于电力塔的卫星遥感数据有限,通过提取目标的上下文信息、引入注意力机制,或借助特征迁移与特征嵌入消除不同背景遥感影像间的差异,可降低目标特征的不确定性,实现复杂背景下的目标检测与精准影像解译。Hong等[27]提出了一种高分辨率域自适应网络(HighDAN),该网络从并行的高-低分辨率子网络中捕获多尺度图像表征,高效生成不同分辨率间的重复信息,并通过对抗学习弥合不同背景遥感影像的差距,有效降低遥感影像背景干扰。为更好处理不同来源的遥感影像,Hong等[28]后续设计了通用遥感基础模型SpectralGPT,通过渐进式训练适配不同尺寸、分辨率、时间序列和区域的输入影像,借助多目标重建捕捉光谱序列模式,充分挖掘不同场景下的遥感数据价值。Zhang等[29]提出上下文感知检测网络来消除复杂背景干扰,该网络利用注意力调制特征与全局-局部上下文信息,适应目标的不同环境变化。Wang等[30]提出表征增强的状态回放网络,通过跨分支参数联合优化,增强不同遥感影像间信息的交互与融合。

综上所述,复杂背景下的多尺度检测与干扰制约了卫星遥感电力塔目标检测算法的发展。现有电力塔检测方法大多仍采用基础的单阶段或两阶段主流目标检测模型,对小目标检测效果欠佳,且未能充分解决复杂背景下多尺度特征融合与模型泛化问题。为此,本文从卫星遥感电力塔检测现存问题出发,旨在提供一种能在复杂背景下精确定位卫星遥感影像中电力塔位置、有效区分输电塔与配电塔的目标检测框架,提升电力塔多尺度检测精度。依托输配电基础设施影像数据集[20],本文构建了多场景高分辨率卫星遥感电力塔数据集(SRSPTD),包含电力塔位置与类别信息。基于YOLOv5s算法,本文提出大选择性核特征融合YOLO(LSKF-YOLO)网络用于高分辨率卫星遥感影像中的电力塔检测。该网络主要由大空间选择性核注意力机制融合模块与多尺度特征信息对齐融合模块构成。

本文的主要贡献总结如下:

  1. 利用电力输配电基础设施影像数据集,我们选取了不同背景和人口密度区域的图像构建SRSPTD数据集,通过裁剪后将选定图像重新标注为输电塔和配电塔;
  2. 为有效利用卫星遥感图像的上下文信息并扩展模型感受野,在基准骨干网络中引入大空间选择性核机制(LSKM),同时采用注意力特征融合模块(AFF)增强残差连接,实现电力杆塔的精确定位;
  3. 针对原网络特征金字塔(FPN)中深层语义特征使用率高于浅层语义特征的问题,在基准模型的颈部网络中加入多尺度特征对齐融合(MFAF)模块,既能有效利用底层特征信息,又能实现电力塔的多尺度特征融合。此外,为提升微型塔杆的检测精度,将颈部网络最后两层的跨步卷积替换为空间到深度卷积(SPD-Conv)与非跨步卷积,并采用最小点距离交并比(MPDIoU)改进完整交并比;
  4. 在本文构建的SRSPTD数据集上评估所提LSKF-YOLO模型的性能。实验结果表明,LSKF-YOLO显著提升了卫星遥感图像中电力塔杆的检测精度。与已有研究成果相比,本研究推动了基于卫星遥感图像的电力塔杆检测模型发展,可实现巡检人员对输配电塔的自动检测与分类。

本文其余部分组织结构如下:第二节介绍相关工作;第三节提出基于卫星遥感影像的电力塔杆检测方法,并详细阐述改进模块的结构与原理;第四节描述实验过程,包括数据集的创建与处理、实验环境与参数设置,并给出结果分析;第五节总结全文。数据获取地址详见"数据可用性"部分。

2.相关工作

A. 基于卫星遥感的电力线路巡检

基于卫星遥感图像的电力线路巡检主要采用光学遥感卫星和合成孔径雷达(SAR)两类数据源[30]。根据空间分辨率差异,这些数据源可分为高、中、低分辨率图像,其中高分辨率图像具有更高精度和更广适用性。高分二号卫星[31]、World-View4卫星[32]等光学遥感卫星依赖太阳光照射地表,通过捕捉反射光被动获取清晰易解的图像,但易受云雨雾及夜间条件限制。在电力线路巡检中,光学遥感卫星常用于监测电力走廊植被侵限。例如Mikhalap等[33]利用归一化植被指数(NDVI)阈值,检测了俄罗斯普斯科夫地区约550公里架空线路走廊的植被侵限情况,通过地理信息系统(GIS)分析发现84%的线路走廊需进行治理。Haroun等[34]系统综述了基于光学遥感卫星图像的输电走廊植被检测方法,将其分为基于植被指数、立体匹配技术和目标检测方法三大类。

与光学遥感卫星相比,合成孔径雷达(SAR)卫星发展较晚,采用主动遥感成像模式。其通过多次向地面发射电磁波并接收反射信号,间接测量观测对象的特性。TerraSAR-X[35]、COSMO-SkyMed[36]等SAR卫星具备全天候、全天时成像优势,且具有一定地表穿透能力,弥补了光学与红外遥感的局限性。但传统SAR卫星通常具有数周量级的较长重访周期,数据更新频率较低,更适用于长期监测任务,在大范围偏远地区监测中优势显著。

基于SAR影像的诸多研究致力于电力线路与铁塔测绘,或电力廊道周边灾害监测。例如Yan等[37]通过TerraSAR和COSMO-SkyMed卫星的X波段SAR影像,分析了铁塔与线路的后向散射特性,建立了电力线路走向与可见度的关联模型;Sha等[38]利用20景TerraSAR影像开展时序研究,观测了六分裂导线线路段的后向散射行为;此外,荆楠[39]评估了输电铁塔覆冰的散射特征,证明了高分辨率SAR影像在监测覆冰导致形变方面的潜力;Sheng等[40]则采用多源SAR卫星数据(X/C/L波段)对湖北跨江高压线路沿线滑坡等地质灾害进行监测。

尽管卫星遥感影像在电力巡检中应用广泛,但现有研究多集中于植被侵蚀与灾害监测,针对影像中电力设施的识别与检测研究较少。因此,亟需开展基于卫星遥感影像的电力杆塔检测识别算法研究。

B. 基于卫星遥感图像的目标检测

与无人机巡检获取的图像相比,卫星遥感图像存在目标尺度不一、分布不均且小目标密集的特点。在相同分辨率下,这类图像包含不同尺度和类型的目标,且分布不均匀,因此对多尺寸目标的检测常呈现多尺度检测难题。传统方法通常采用特征金字塔网络(FPN)[41]将图像调整至多尺度,并通过自上而下的结构融合这些特征。但FPN无法将低层特征图的定位信息传递至高层特征图,且层间特征传递仅依赖相邻层,导致特征融合不平衡。随后提出的路径聚合网络(PANet)[42]和双向特征金字塔网络(BiFPN)[43]增强了FPN的特征信息流:PANet引入自下而上的路径结构,利用浅层网络特征整合FPN特征;BiFPN则在PANet基础上加入上下文和权重信息,实现不同尺度特征更均衡的融合,从而获取更丰富的语义信息。快速精准场景解析语义流网络(SFNet)[44]通过语义流对齐不同层级特征,以提升模型内FPN性能。然而现有基于FPN的结构存在路径过多、交互模式间接的问题,可能导致跨层信息丢失,难以满足实际场景中卫星遥感电力塔检测的需求。嵌套U型网络(UIU-Net)[45]提出分辨率保持深度监督模块(RM-DS)和交互式交叉注意力模块(IC-A),通过多个中间层获取全面且可区分的特征,从而学习深度多尺度特征以增强全局上下文表征,解决特征分辨率与网络深度间的权衡问题。Gold-YOLO[46]设计了信息收集与分发机制,其特征对齐融合注入模块选择性地融合低层或高层特征信息,确保信息完整性。

在卫星遥感传输与配电塔检测领域,由于目标尺寸远小于图像背景,精确表征兴趣点显得尤为重要。注意力机制作为解决该问题的常用方法,通过模拟人类视觉与听觉的注意力分配机制,帮助模型为输入的不同部分分配差异化权重,从而提取更关键的信息。空间注意力模块(如聚集-激励网络GE-Net[47]和空间分组增强SGE[48])通过生成位置权重掩码来调整输出,在增强特定目标区域的同时抑制无关背景区域。通道注意力模块(如压缩-激励网络SE-Net[49]和高效通道注意力ECA-Net[50])则利用全局平均信息对特征通道进行重加权,自动判定各特征学习的重要性,突出关键特征并抑制非必要特征。卷积块注意力模块CBMA[51]通过融合空间与通道域注意力,形成了更全面的注意力方法。此外,自注意力机制(如双重注意力网络DA-Net[52]和十字交叉网络CC-Net[53])作为注意力机制的变体,通过挖掘特征内部固有信息来最大化注意力交互,从而降低对外部信息的依赖。

基于Transformer的模型[54]、[55]、[56](如视觉Transformer/ViT)和Swin-transformer[57]、[58]已成为CNN具有竞争力的替代方案。其成功关键在于拥有与自注意力机制相似感受野的大范围接受域。值得注意的是,适当采用大卷积核的网络同样能达到与Transformer相当的性能。ConvNeXt[59]、RepLKNet[60]和Conv2Former[61]均证明了大核卷积能在更丰富上下文中调节卷积特征的重要作用。基于核选择的注意力机制也值得关注:选择性核网络SKNet[62]通过多分支不同尺寸卷积核,沿通道维度进行选择性融合;自校准网络SCNet[63]则利用分支注意力捕获丰富信息,结合空间注意力增强定位能力;大选择性核网络LSK-Net[64]沿袭SKNet思想,通过空间维度自适应聚合宏观核信息,有效利用了图像上下文信息。

3.方法

鉴于YOLO系列模型在小型模型中持续保持精度与速度均衡的领先地位,YOLOv5算法因其轻量化模型和卓越的检测速度在目标检测领域表现突出。本研究选择YOLOv5s作为基线模型,其输入为640×640×3的三通道RGB图像。主干网络采用以特征提取能力强、计算效率高著称的CSPDarknet53,主要由卷积模块(Conv)、C3模块、空间金字塔池化模块(SPPF)和瓶颈模块构成。YOLOv5s在颈部网络采用PANet的金字塔结构,通过自上而下的横向连接构建多尺度高级语义特征,并引入自下而上结构强化定位信息。输出部分包含三个Yolo检测头,可输出三种不同维度的特征图。该模型采用Focal_loss函数计算目标分类损失,使用CIoU损失函数计算定位损失。

本研究针对卫星遥感电力塔图像分辨率差异、小尺度配电塔目标特征提取困难、图像背景复杂以及输配电塔尺寸差异显著等挑战,对YOLOv5s网络进行改进优化,提出了一种适用于卫星遥感图像电力杆塔检测识别的LSKF-YOLO网络。如图1所示,我们在LSKF-YOLO网络架构中引入了三项创新:在骨干网络中融入注意力特征融合-大空间选择性核机制(AFF-LSKM),通过增强特征提取能力并扩大感受野,从而更有效地利用上下文信息;在颈部网络采用空间深度多尺度特征融合模块(SPD-MFAF),通过空间深度卷积层融合特征信息,在保留低级特征的同时提升网络对小目标的检测灵敏度;此外引入MPDIoU_Loss优化CIoU_Loss,以提升电力杆塔位置定位与类别识别的精度。LSKF-YOLO网络结构如图2所示。

图1. LSKF-YOLO采用的改进技术。在原始骨干网络中加入了大型选择性核机制LSKM,并采用特征注意力融合模块AFF改进残差连接,增强骨干网络的特征提取能力。引入MFAF结构MFAF和SPD-Conv替代原有颈部网络,提升模型的多尺度及小目标检测能力。

图2. LSKF-YOLO结构。

A. 注意力特征融合大型选择性核机制模块

卫星遥感图像具有独特特性,使其特别适合遥感任务。大核注意力机制能提供类似自注意力机制的感知场。通过采用深度卷积、深度空洞卷积和1×1卷积,可以用更少的参数和计算量构建大卷积核。受LSK-Net[64]启发,本文提出如图3所示的AFF-LSKM模块,其主要由大核空间选择子块、前馈神经网络复合子块[多层感知机(MLP)]以及AFF[67]构成。

大核空间选择子模块包含LSK模块(如图4所示),该模块由大核卷积序列和空间核选择机制组成。

图4. LSK子模块示意图。

大型卷积序列通过分层分解构建而成,这些分解后的序列由大尺寸卷积核和逐层递增的膨胀率构成深度卷积序列。此处我们将卷积核尺寸定义为K,膨胀率设为d,感受野记为RF。初始膨胀率设置为1,并设有上限值以防止膨胀卷积在特征图之间产生间隙。

初始RF与卷积核具有相同的初始尺寸,二者的关系可表示如下:

该公式表明,感受野(RF)会随着卷积核尺寸和膨胀率的增加而扩大。为了描述输入特征 X X X在不同范围内的上下文信息特征,我们采用了一系列具有不同感受野的深度卷积进行分解。分解核表示为 D i D_i Di(其中 D 0 = X D_0 = X D0=X)。假设共有 N N N个分解核, d w i dw_i dwi表示一个具有核尺寸 K i K_i Ki和膨胀率 d i d_i di的深度卷积。分解后,每个卷积核会经过一个 1 × 1 1×1 1×1的卷积层 C l 1 × 1 Cl_{1×1} Cl1×1处理。该分解过程可通过以下方程表示:

为增强网络聚焦最相关空间上下文区域以提升目标定位能力,我们引入空间选择机制,从不同尺度的大卷积核中提取特征图。首先,我们将具有不同感受野范围的特征核所获取的特征进行连接。随后对 D ~ \tilde{D} D~ 施加基于通道的平均池化 P a v g P_{avg} Pavg和最大池化 P m a x P_{max} Pmax,以有效提取空间关系并生成空间注意力图 S A ~ S\tilde{A} SA~ 。各空间注意力图通过相互连接实现信息交互,同时通过 C l 2 → N Cl^{2→N} Cl2→N将通道2转换为通道 N N N[见公式(4)]。接着通过Sigmoid激活函数获得每个分解大核单独的空间选择掩码 S A ˘ i S\breve{A}_i SA˘i[见公式(5)]。随后通过卷积层对分解核中的特征进行加权融合,得到目标特征 S S S[见公式(6)]。最终输出为输入特征图与目标特征的融合结果[见公式(7)]。整个过程可表示为:

为解决网络层数增加导致的梯度消失和权重矩阵退化问题,LSKM在各子层间引入残差连接,并将连接处的特征融合模块替换为AFF模块。该模块通过调整通道维度上不同尺度的注意力权重,改变特征权重的分布。在此过程中,输入特征图作为AFF模块的 X X X,DropPath的输出特征图作为 Y Y Y,AFF模块最终输出的特征图记为 Z Z Z。这种机制有效增强了对通道和空间维度特征的关注度,其原理可通过以下公式表示:

核心多尺度通道注意力机制(MSCAM)(图5)通过逐点卷积强调通道缩放,同时在通道注意力模块内提取局部和全局上下文特征。

图5. AFF中的MS-CAM模块。

AFF-LSKM通过增强模型的感受野(RF),捕捉多样化的局部信息,从而强化骨干网络在复杂背景中提取目标的能力。

B. 空间至深度多尺度特征对齐融合网络

基准模型的颈部网络采用PANet结构,以更好地融合低层语义信息,避免网络中间接交互导致的信息丢失。本文引入MFAF模块替代原颈部网络前两层结构中的前两个模块,有效利用了低层语义特征。此外,为增强对配电塔等小目标的检测能力,本文采用SPD-conv替换颈部网络最后两层中的原始步进卷积层,防止因网络深度增加导致的特征图模糊影响检测头的检测效果。该网络结构被命名为SPD-MFAF。

MFAF模块由特征对齐模块(FAM)、信息融合模块(IFM)(如图6所示)以及轻量级邻层融合注入模块(LAF_injection)(如图7所示)组成。在FAM中,选取图2主干网络输出的特征P1、P2、P3和P4进行对齐融合,以获得保留小目标信息的高分辨率特征,最终得到特征 X a l i X_{ali} Xali。通过AvgPool操作对输入特征进行下采样以实现尺寸统一。选择图2主干网络输出中最小的特征P3作为对齐特征以保留更多底层信息,从而得到特征 X a l i X_{ali} Xali。

图6. FAM与IFM模块结构。

IFM由多层重参数化卷积块(RepBlock)和分割操作构成。RepBlock以FAM的输出特征作为输入,生成融合特征 X f u s X_{fus} Xfus。随后,RepBlock生成的特征会在通道维度上被分割为LAF注入模块I和LAF注入模块II的输入特征 X i n j _ I X_{inj\I} Xinj_I与 X i n j _ I I X{inj\_II} Xinj_II,再与不同层级的特征进行融合,如下列公式所示:

在LAF注入模块中,通过注意力操作实现信息融合,包含两个组成部分:局部特征 x _ l o c a l x\_local x_local和全局信息 x _ g l o b a l x\_global x_global。其中LAF注入模块I的局部特征来源于P2、P3及经LAF模块融合的IFM信息;LAF注入模块II的局部特征则由IFM、P3、P4经LAF模块整合而成,而全局特征均来自IFM的输出信息。 x _ g l o b a l x\_global x_global的计算采用两个不同的卷积层以捕捉双分支特性, x _ l o c a l x\_local x_local则仅通过单一卷积层计算。随后通过运算将这三个输出特征进行精细融合。由于局部与全局特征存在差异,输出特征会根据局部信息尺度通过平均池化或双线性插值进行对齐调整。融合完成后,加入RepBlock以进一步提取融合信息,如下列公式所示:

为提高模型对输电塔等小目标的检测能力,本研究提出在颈部网络的最后两层用空间到深度卷积层(SPD)替代步进卷积与非步进卷积。SPD卷积会对特征图进行下采样处理:对于尺度为 S × S S×S S×S、通道数为 C C C的输入特征 X X X,通过设定尺度因子为2进行子特征图划分,最终生成四个尺度减半( S / 2 S/2 S/2)但通道数保持不变的子特征图。这些特征图在通道维度上进行拼接,使通道数增至 4 C 4C 4C,最后通过步长为1的非步进卷积获得输出特征图。该方法有效提升了模型对小目标的敏感度。图8展示了该过程的示意图。

图8. SPD-Conv结构示意图。

C. MPDIoU

在目标检测中,边界框回归损失函数对于量化真实框与预测框之间的差异具有关键作用。本研究提出MPDIoU_Loss作为CIoU_Loss的改进方案。MPDIoU是一种基于最小点距离的新型边界框相似度度量指标,它涵盖了现有损失函数考虑的所有因素------包括重叠与非重叠区域、中心点距离、宽度及高度偏差,同时简化了计算流程。将真实框记为A、预测框记为B时,传统IoU可表示为:

基线模型采用的CIoU综合考虑了中心点距离和宽高比,其公示如下:

其中, p 2 ( A , B ) \mathcal{p}^2(A, B) p2(A,B)表示预测框中心点与真实框中心点之间的欧氏距离, C 2 C^2 C2代表最小外接矩形的对角线长度。此外, w A w^A wA和 h A h^A hA分别表示真实框的宽度和高度, w B w^B wB和 h B h^B hB分别表示预测框的宽度和高度。 L C I o U L_{CIoU} LCIoU项表示CIoU损失函数。

针对预测框与真实框宽高比相同但宽高值差异显著时回归损失函数无法优化的问题,我们借鉴边界框的几何特性提出解决方案。MPDIoU通过在训练阶段最小化损失函数,强制使模型预测的每个边界框逼近其真实框。该方法利用边界框的四个顶点坐标,涵盖了现有边界框回归损失函数的所有影响因素,其原理示意图如图9所示。

图9. MPDIoU示意图。

假设输入图像的宽度和高度分别表示为 w w w和 h h h,真实框和预测框的左上角及右下角坐标分别为 ( x 1 A , y 1 A ) (x^A_1, y^A_1) (x1A,y1A)、 ( x 2 A , y 2 A ) (x^A_2, y^A_2) (x2A,y2A)、 ( x 1 B , y 1 B ) (x^B_1, y^B_1) (x1B,y1B)和 ( x 2 B , y 2 B ) (x^B_2, y^B_2) (x2B,y2B)。两个边界框的左上角与右下角之间距离的数学表达式如下:

其中 d 1 d_1 d1表示与左上角的距离, d 2 d_2 d2表示与右下角的距离,此时MPDIoU和MPDIoU_Loss可表示为

因此,当前边界框回归损失函数的所有组成部分均可通过四个点坐标确定。转换公式如下:

其中 ∣ C ∣ |C| ∣C∣表示覆盖真实框A和预测框B的最小外接矩形面积, ( x c A , y c A ) (x^A_c, y^A_c) (xcA,ycA)和 ( x c B , y c B ) (x^B_c, y^B_c) (xcB,ycB)分别表示真实框中心点与预测框中心点的坐标。此外, w A w^A wA和 h A h^A hA分别表示真实框的宽度和高度, w B w^B wB和 h B h^B hB分别表示预测框的宽度和高度。

通过评估(24)-(26)式可得出结论:当前损失函数中所有考量因素均可由左上角与右下角两点坐标确定,这表明MPDIoU不仅具有全面性,同时简化了计算流程。

4.实验

在本节中,我们将利用所构建的电力塔SRSPTD模型来验证所提方法的性能。首先介绍使用的数据集,随后说明实验环境与参数设置以及评估指标的选取。接下来展示评估结果,包括实验过程的可视化呈现,并通过消融实验分析模块的影响。最后将所提方法与基于CNN的其他电力塔检测方法进行对比,以证明本方法的最新进展。

4.1 数据集与训练

本文所使用的图像来源于杜克大学编制的电力输配电基础设施图像数据集[20]。该数据集包含完全标注的高分辨率输配电基础设施卫星及航拍图像,覆盖五大洲六个国家14个城市,总面积约321平方公里。

该研究涵盖多样化的地形类型和人类聚居密度。具体而言,本文重点分析了来自美国四个州(亚利桑那州图森市、康涅狄格州哈特福德市、堪萨斯州科尔维奇和梅兹市、北卡罗来纳州威尔明顿市)的影像数据,以及从奥地利林茨获取的新西兰陶朗加和但尼丁的影像数据,这些构成了研究数据的子集。所选六个地区的影像代表了四种地形类型:沙漠、平原、森林和海岸带,以及三类人类聚居密度区域:郊区、乡村和城市。数据子集的详细信息如表1所示。

数据集中原始图像的分辨率介于3800至12000像素之间,且部分图像的宽高比导致直接训练不可行。为适配模型训练需求,所有子集图像均采用自上而下、从左至右的裁剪方式统一调整为512×512尺寸。由于原始数据集的标注为多边形格式,不适用于目标检测模型,我们使用labelImg工具对图像进行重新标注,将标注类别划分为输电塔和配电塔。鉴于配电塔在卫星图像中辨识度较低,标注过程中将其自身阴影与本体作为整体标注,以提供更多特征信息。图10展示了电力塔SRSPTD的标注示例。因裁剪导致标注目标为空或超出边界的图像均被剔除。针对输电塔与配电塔的类别不平衡问题,采用五折交叉验证将实验数据按4:1比例划分为2192张训练集图像和548张验证集图像。

图10. SRSPTD数据集中标注图像的示例。

为提升模型在不同环境图像中的鲁棒性,我们对实验数据进行了增强处理:几何形变方面采用随机裁剪、平移和旋转;光学形变方面调整了图像的色调、饱和度和明度。此外还应用了Mixup和Mosaic增强方法:Mixup通过随机系数加权求和两幅训练样本生成新样本,有助于模型学习类别间线性关系并提升泛化能力;Mosaic则通过四图拼接生成新图像,丰富检测目标的背景多样性。这种方法不仅能增加训练数据变化性,还可提升模型对遮挡物和复杂背景的适应能力。通过系列数据增强技术,模型在训练过程中能接触更多数据变换形态,这对提升实际应用性能具有关键作用。

LSKF-YOLO模型的损失函数包含分类损失、置信度损失与定位损失。其中分类损失采用RetinaNet提出的Focal_loss,可在训练过程中调整困难样本权重,使模型注意力集中于此类样本。置信度损失由二元交叉熵损失(BCE_Loss)处理,回归损失则采用MPDIoU计算。为增强模型对负样本的关注度,实验中引入了滑动加权损失[68]:以所有预测框的平均MPDIoU作为阈值α,小于该值的判定为负样本,大于该值的判定为正样本,继而通过滑动加权函数slide对阈值附近的样本赋予更高权重。该滑动函数表达式如下:

实验采用PyTorch 1.13.1框架,在NVIDIA RTX 3090 GPU和CUDA 11.7环境下进行训练与推理测试。研究使用官方发布的YOLOv5预训练权重,并采用随机梯度下降(SGD)优化器对网络参数进行迭代更新。训练过程中,权重初始学习率设为0.001,动量参数设置为0.937。实验所用模型的批量大小均为16,训练轮次为300个周期。

B.评估标准

本文针对输电塔与配电塔的二分类问题,采用精确率、召回率和平均准确率mAP作为评价指标来评估所提模型的检测与识别性能。其中,TP表示正确检测到的真实电力塔数量,FP表示误检的电力塔数量,FN表示漏检的电力塔数量。

精确度定义为算法在所有阳性预测中正确识别真实电力塔的比例,反映了模型区分阴性样本的能力。

召回率表示在所有真实值中检测到的真实电力塔的比例,反映了模型识别正样本的能力。召回率的定义为

F1分数是精确率与召回率的调和平均数,这种综合考量有助于缓解类别不平衡导致的问题。F1分数的定义为:

mAP用于衡量模型的整体效果,其数值越大,表明模型在定位和识别方面的准确率越高,具体定义如下:

除性能评价指标外,本文还选取了网络模型大小(MB)和浮点运算量(FLOP)作为效率相关的评价指标。

C.消融实验

为评估所提出的LSKF-YOLO算法的检测性能,我们通过消融实验来评估各项算法改进(大选择性核注意力融合模块、MFAF网络及损失函数优化)对其性能的影响。性能指标包括精确率[P(%)]、召回率[R(%)]、F1分数、平均精度(mAP0.5)以及模型大小。

表II展示了LSKF-YOLO在SRSPTD数据集上的消融实验结果,表明相比原始基线模型,LSKF-YOLO模型的F1分数精确度提升了3.9%,mAP0.5指标提高了3.74%。改进后的LSKF-YOLO模型性能优于原始YOLOv5s算法。

AFF-LSKM与SPD-MFAF网络均对模型性能提升有所贡献。当单独将AFF-LSKM加入基线模型骨干网络时,模型召回率显著提升,但精确度略有下降;而F1分数和mAP0.5均实现改善,分别提升2.2%和2.19%。当单独将颈部网络调整为SPD-MFAF时,模型召回率、F1分数和mAP0.5分别提升2.94%、1.1%和1.82%,但精确度小幅降低1.2%。综合运用两项改进后,所有模型指标均得到提升,其中F1分数和mAP0.5分别增长3.70%和3.39%。研究表明,AFF-LSKM机制与SPD-MFAF网络有效增强了模型对电力塔的定位与识别能力。此外,采用MPDIoU改进CIoU的策略使模型mAP0.5提升了0.49%。

此外,本研究对比了YOLOv5中不同的颈部结构性能,包括基准模型PANet、BiFPN、MFAF以及SPDMFAF。表III数据显示,PANet性能表现最差,BiFPN和MFAF结构略逊于SPDMFAF结构。综合模型检测能力考量,SPD-MFAF结构更适用于多尺度电力塔检测任务。

此外,本研究还通过实验探究了注意力机制对网络性能的影响,包括无注意力机制(基线)、添加SE和CBAM模块、LSKM模块以及AFF-LSKM模块,以寻找最优的注意力机制。表IV展示了在网络主干中添加不同注意力机制的实验效果,结果证实AFF-LSKM模块表现出最佳性能。

本文采用Grad-CAM方法对改进模型的解释性进行了分析。图11展示了YOLOv5s(基线模型)与LSKF-YOLO在SRSPTD数据集上通过Grad-CAM获得的输电塔和配电塔热力图。结果表明,LSKF-YOLO对检测目标所在区域表现出更高的关注度。该模型在不同背景环境下展现出更强的非目标区域忽略能力,并能更好地聚焦不同尺度的输电塔。此外,LSKF-YOLO模型在提升配电塔等小目标定位能力方面成效显著,尤其在密集区域表现突出。该模型能有效聚焦正样本区域并降低对无关环境信息的关注,这验证了大核空间选择性注意力融合模块与SPD-MFAF网络在增强多尺度输配电塔及配电塔等小目标的特征表征与检测能力方面的有效性。LSKF-YOLO的成功实践表明,在基于深度学习的卫星图像目标检测模型中引入选择性注意力机制和特征融合模块等先进技术具有重要价值。

图11. 基于Grad-CAM获取的YOLOv5s与LSKF-YOLO对输电塔和配电塔的热力图对比。(a)森林平原场景输电塔热力图对比;(b)沙漠场景输电塔热力图对比;©森林平原场景配电塔热力图对比;(d)建筑环境场景配电塔热力图对比。

D. 不同目标检测网络的对比

为验证LSKF-YOLO模型的可靠性,我们在SRSPTD数据集上将其性能与其他模型进行对比,结果如表V所示。由于目前缺乏专门针对卫星遥感图像电力杆塔检测的模型,实验主要将LSKF-YOLO与相关文献[19]、[20]中提及的Faster RCNN、SSD和RetinaNet三种检测模型进行对比,三者均采用VGG16作为骨干网络。此外,我们还选用端到端目标检测模型Deformable-DETR[69]以及YOLO系列其他模型(YOLOv4、YOLOv7-Tiny、YOLOXS和YOLOv8-S)作为对比模型,同时与近年提出的SOTA目标检测模型TPH-YOLO[25]、Gold-YOLO[46]和YOLO-NAS[70]进行性能比较。评估指标采用mAP0.5、参数量(params)和计算量(Flops)。

如表V所示,与其他检测模型相比,本文提出的LSKF-YOLO模型展现出优异的检测能力,其mAP0.5达到77.47%,满足卫星遥感图像中电力塔杆检测的需求。相较于Faster R-CNN、SSD和RetinaNet,LSKF-YOLO在参数量(params)和计算量(Flops)相对较小的情况下实现了显著的性能提升。在不同YOLO模型对比中,各模型呈现出不同的复杂度与检测精度:YOLOv7-Tiny参数量最少(12.3 M),而LSKF-YOLO以22.6 GFlops和23.2 M的参数量在可接受的模型复杂度范围内实现了最高检测精度。

图12展示了YOLOv7-Tiny、Gold-YOLO、YOLOv5-S和LSKF-YOLO在电力塔检测结果上的对比。基于SRSPTD数据集的检测结果表明,YOLOv5-S对道路附近配电塔存在漏检情况,检测准确率较低。

图12. YOLOv5-S、YOLOv7-Tiny、Gold-YOLO及LSKF-YOLO的检测结果示例。

在输电塔检测任务中,偶尔会出现将树木误识别为输电塔的情况。YOLOv7-Tiny和Gold-YOLO的检测精度均逊色于本文提出的模型。相比之下,LSKF-YOLO相较于基线模型YOLOv7-Tiny和Gold-YOLO,其误检和漏检情况有所减少,检测精度得到提升。实验结果表明,采用的AFF-LSKM机制和SPD-MFAF结构有效平衡了不同尺度电杆的特征信息,降低了虚假目标干扰的可能性。

图13展示了LSKF-YOLO在SRSPTD数据集上的检测结果。如图所示,本文提出的网络能够有效定位并识别卫星遥感图像中的输配电塔。但仍存在一定局限性:例如图中黄色圆圈标注处,网络难以区分形态与杆塔相似的树木,导致误检现象;此外如橙色圆圈所示,网络对居民区内部分配电塔存在漏检情况,表明其检测精度仍需提升。


图13. LSKF-YOLO在SRSPED数据集上的检测结果。(a)森林平原场景中电力塔的检测结果。(b)建筑环境中电力塔的检测结果。

E.讨论

本文提出的网络基于大卷积核注意力概念,利用特征对齐融合模块有效整合低层特征信息,实现多尺度电力杆塔检测。

AFF-LSKM模块通过分解深度卷积序列构建大卷积序列并计算注意力,有效利用了卫星遥感图像中的上下文信息。SPD-MFAF模块融合多层级低维特征以增强高层特征,提升特征维度和信息量。针对卫星遥感图像中配电塔等小目标的检测,该算法性能优于前述对比算法。但由于配电塔在图像中占据像素有限、分辨率较低,且常位于居民区等密集区域,难以与周边环境区分导致漏检。此外,部分配电塔与路灯形态相似,易产生误检。因此,所提模型在确保构建特征对配电塔小目标具有足够解释性和判别力方面仍面临挑战。训练过程中配电塔损失对模型总损失的贡献度较小,致使提取特征的有效性未达最优。随着深度学习技术在超分辨率领域的持续应用,基于超分辨率的小目标检测方法具有较强可解释性并已取得显著成效。未来工作中,利用超分辨率技术增强小目标特征检测将成为研究重点。同时,卫星遥感图像中电力线走向与杆塔点位密切相关,我们将综合利用电力线方向信息构建多任务检测模型,进一步提升输配电设施在遥感图像中的检测性能。此外,不同分辨率图像间重复信息的交互与不同背景下的学习知识迁移,也将是未来需要关注的问题。卫星遥感图像的光谱特性揭示了地物的潜在信息与隐藏价值,利用高光谱遥感数据实现空间与光谱信息保全的融合算法亦将成为后续研究重点。

5.结论

该文章介绍了用于高分辨率卫星遥感图像中电力塔检测的LSKF-YOLO算法。该算法融合了大核空间选择性注意力模块(LSKM)、多特征自适应融合模块(MFAF),并引入MPDIoU改进CIoU,有效提升了算法精度。首先,在主干特征提取层加入AFF-LSKM结构,扩大了网络感受野并强化了特征提取能力;其次,在特征融合层采用MFAF结构,增强了网络中的特征表征能力,有效利用了低层语义信息;最后,将颈部网络最后两层的步进卷积替换为SPD-Conv,提升了图像中配电塔等小目标的检测能力。在SRSPTD数据集上的实验结果表明,该方法在复杂背景下的卫星遥感电力塔目标检测中表现出色。

本研究存在一定局限性,未来工作可从以下方面进行改进:

  1. 采用超分辨率技术增强电力杆塔等小目标的特征表达,提升检测精度;
  2. 融合图像中电力线的方向信息,通过结合像素级电力线检测构建多任务检测模型,提升输配电设施在卫星遥感影像中的检测性能;
  3. 多光谱遥感数据(特别是高光谱影像)在目标检测中具有显著优势。后续拟结合高光谱数据研究空-谱双优化耦合模型,充分利用电力杆塔的卫星遥感影像,探索解决光谱变异性的方法;
  4. 针对不同环境下卫星遥感影像分辨率差异问题,探索高低分辨率数据融合方法,降低影像间差异性,促进跨分辨率重复信息的交互及多背景下的知识迁移。

总体而言,通过融合多元遥感数据、优化特征学习方法并结合领域专业知识,我们致力于构建一种数据与知识双驱动的高分辨率卫星遥感影像检测模型。该方案旨在提升模型在输配电设施检测任务中的性能表现与鲁棒性。

6.引用文献

  • [1] J. Li, L. Wang, and X. Shen, "Unmanned aerial vehicle intelligent patrolinspection system applied to transmission grid," in Proc. 2nd IEEE Conf. Energy Internet Energy Syst. Integr., Beijing, China, Oct. 2018, pp. 1--5, doi: 10.1109/EI2.2018.8582494.
  • [2] A. Zormpas et al., "Power transmission lines inspection using properly equipped unmanned aerial vehicle (UAV)," in Proc. IEEE Int. Conf. Imag. Syst. Techn. (IST), Krakow, Poland, Oct. 2018, pp. 1--5, doi: 10.1109/IST.2018.8577142.
  • [3] X. Peng et al., "A transmission line inspection system based on remote sensing: System and its key technologies," Remote Sens. Inf., vol. 1, pp. 51--57, Feb. 2015.
  • [4] L. Matikainen et al., "Remote sensing methods for power line corridor surveys," ISPRS J. Photogramm. Remote Sens., vol. 119, pp. 10--31, Sep. 2016, doi: 10.1016/j.isprsjprs.2016.04.011.
  • [5] A. Qayyum et al., "Power LinesVegetation enchroachment monitoring based on satellite stereo images using stereo matching," in Proc. IEEE Int. Conf. Smart Instrum., Meas. Appl. (ICSIMA), Nov. 2014, pp. 1--5, doi: 10.1109/ICSIMA.2014.7047425.
  • [6] K. Kaku, "Satellite remote sensing for disaster management support: A holistic and staged approach based on case studies in Sentinel Asia," Int. J. Disaster Risk Reduction, vol. 33, pp. 417--432, Feb. 2019, doi: 10.1016/j.ijdrr.2018.09.015.
  • [7] P. Pandey et al., "Cause and process mechanism of rockslide triggered flood event in rishiganga and Dhauliganga River Valleys, Chamoli, Uttarakhand, India using satellite remote sensing and in situ observations," J. Indian Soc. Remote Sens., vol. 49, no. 5, pp. 1011--1024, Apr. 2021.
  • [8] K. Uehara, H. Sakanashi, H. Nosato, M. Murakawa, H. Miyamoto, and R. Nakamura, "Object detection of satellite images using multi-channel higher-order local autocorrelation," in Proc. IEEE Int. Conf. Syst., Man, Cybern. (SMC), Banff, AB, Canada, Oct. 2017, pp. 1339--1344, doi: 10.1109/SMC.2017.8122799.
  • [9] T. Prakash and A. C. Kak, "Active learning for designing detectors for infrequently occurring objects in wide-area satellite imagery," Comput. Vis. Image Understand., vol. 170, pp. 92--108, May 2018, doi: 10.1016/j.cviu.2018.03.004.
  • [10] D. Gershenson, B. Rohrer, and A. Lerner. (2019). A New Predictive Model for More Accurate Electrical Grid Mapping. [Online]. Available: https://code.fb.com/connectivity/electrical-grid-mapping
  • [11] R. Girshick, J. Donahue, T. Darrel, and J. Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR)., Jun. 2014, pp. 580--587.
  • [12] M. K. Pargi, B. Setiawan, and Y. Kazama, "Classification of different vehicles in traffic using RGB and depth images: A fast RCNN approach," in Proc. IEEE Int. Conf. Imag. Syst. Techn. (IST), Abu Dhabi, United Arab Emirates, Dec. 2019, pp. 1--6, doi: 10.1109/IST48021.2019.9010357.
  • [13] H. Xiong, J. Li, Z. Li, and Z. Zhang, "GPR-GAN: A groundpenetrating radar data generative adversarial network," IEEE Trans. Geosci. Remote Sens., vol. 62, 2024, Art. no. 5200114, doi: 10.1109/TGRS.2023.3337172.
  • [14] H. Zhang, W. Huang, and J. Qi, "Design and implementation of object image detection interface system based on PyQt5 and improved SSD algorithm," in Proc. IEEE 10th Joint Int. Inf. Technol. Artif. Intell. Conf. (ITAIC), Chongqing, China, Jun. 2022, pp. 2086--2090, doi: 10.1109/ITAIC54216.2022.9836494.
  • [15] K. Doi and A. Iwasaki, "The effect of focal loss in semantic segmentation of high resolution aerial image," in Proc. IEEE Int. Geosci. Remote Sens. Symp., Valencia, Spain, Jul. 2018, pp. 6919--6922, doi: 10.1109/IGARSS.2018.8519409.
  • [16] J. Redom, S. Divvala, R. Girshick, and A. Farhadi, "You only look once: Unified, real-time object detection," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR)., Jun. 2016, pp. 779--788.
  • [17] A. Bochkovskiy, C. Y. Wang, and H. Y. M. Liao, "YOLOv3: An incremental improvement. Report by University of Washington," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Apr. 2018, vol. 87, no. 8, pp. 101--104.
  • [18] J. Redom and A. Farhadi, "YOLOv4: Optimal speed and accuracy of object detection," in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Apr. 2020, vol. 57, no. 5, pp. 9--12.
  • [19] W. Hu et al., "Mapping electric transmission line infrastructure from aerial imagery with deep learning," in Proc. IEEE Int. Geosci. Remote Sens. Symp., Waikoloa, HI, USA, Sep. 2020, pp. 2229--2232, doi: 10.1109/IGARSS39084.2020.9323851.
  • [20] K. Bradbury, Q. Han, and V. Nair. (Apr. 2018). Electric Transmission and Distribution Infrastructure Imagery Dataset. [Online]. Available: https://figshare.com/articles/Electric_Transmission_and_Distribution_ Infrastructure_Imagery_Dataset/6931088
  • [21] M. Fang, X. M. Sun, and R. Huang, "Automatic power tower detection for high-resolution satellite remote sensing," Aerosp. Return Remote Sens., vol. 42, no. 5, pp. 118--125, Feb. 2020.
  • [22] F. M. E. Haroun, S. N. M. Deros, and N. M. Din, "Detection and monitoring of power line corridor from satellite imagery using RetinaNet and K-mean clustering," IEEE Access, vol. 9, pp. 116720--116730, 2021, doi: 10.1109/ACCESS.2021.3106550.
  • [23] L. Hou, K. Lu, J. Xue, and L. Hao, "Cascade detector with feature fusion for arbitrary-oriented objects in remote sensing images," in Proc. IEEE Int. Conf. Multimedia Expo (ICME), London, U.K., 2020, pp. 1--6, doi: 10.1109/ICME46284.2020.9102807.
  • [24] K. Fu, Z. Chang, Y. Zhang, G. Xu, K. Zhang, and X. Sun, "Rotationaware and multi-scale convolutional neural network for object detection in remote sensing images," ISPRS J. Photogramm. Remote Sens., vol. 161, pp. 294--308, Mar. 2020, doi: 10.1016/j.isprsjprs.2020.01.025.
  • [25] X. Zhu, S. Lyu, X. Wang, and Q. Zhao, "TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios," in Proc. IEEE/CVF Int. Conf. Comput. Vis. Workshops (ICCVW), Oct. 2021, pp. 2778--2788, doi: 10.1109/ICCVW54120.2021.00312.
  • [26] H. Zhou, F. Luo, H. Zhuang, Z. Weng, X. Gong, and Z. Lin, "Attention multihop graph and multiscale convolutional fusion network for hyperspectral image classification," IEEE Trans. Geosci. Remote Sens., vol. 61, 2023, Art. no. 5508614, doi: 10.1109/TGRS. 2023.3265879.
  • [27] D. Hong et al., "Cross-city matters: A multimodal remote sensing benchmark dataset for cross-city semantic segmentation using high-resolution domain adaptation networks," Remote Sens. Environ., vol. 299, Dec. 2023, Art. no. 113856, doi: 10.1016/j.rse.2023.113856.
  • [28] D. Hong et al., "SpectralGPT: Spectral remote sensing foundation model," IEEE Trans. Pattern Anal. Mach. Intell., early access, Apr. 3, 2024, doi: 10.1109/TPAMI.2024.3362475.
  • [29] G. Zhang, S. Lu, and W. Zhang, "CAD-Net: A context-aware detection network for objects in remote sensing imagery," IEEE Trans. Geosci. Remote Sens., vol. 57, no. 12, pp. 10015--10024, Dec. 2019, doi: 10.1109/TGRS.2019.2930982.
  • [30] J. Wang, W. Li, M. Zhang, R. Tao, and J. Chanussot, "Remote-sensing scene classification via multistage self-guided separation network," IEEE Trans. Geosci. Remote Sens., vol. 61, 2023, Art. no. 5615312, doi: 10.1109/TGRS.2023.3295797.
  • [31] X. Y. Tong, Q. Lu, G. S. Xia, and L. Zhang, "Large-scale land cover classification in Gaofen-2 satellite imagery," in Proc. IEEE Int. Geosci. Remote Sens. Symp., Valencia, Spain, Nov. 2018, pp. 3599--3602, doi: 10.1109/IGARSS.2018.8518389.
  • [32] C. E. Akumu, E. O. Amadi, and S. Dennis, "Application of drone and WorldView-4 satellite data in mapping and monitoring grazing land cover and pasture quality: Pre- and post-flooding," Land, vol. 10, no. 3, p. 321, Mar. 2021, doi: 10.3390/land10030321.
  • [33] S. Mikhalap, S. Trashenkov, and V. Vasilyeva, "Study of overhead power line corridors on the territory of Pskov region (Russia) based on satellite sounding data," in Proc. Environ. Technol. Resour. Int. Scientific Practical Conf., vol. 1, Jun. 2019, pp. 164--167, doi: 10.17770/etr2019vol1.4087.
  • [34] F. M. E. Haroun, "A review of vegetation encroachment detection in power transmission lines using optical sensing satellite imagery," Int. J. Adv. Trends Comput. Sci. Eng., vol. 9, no. 1, pp. 618--624, Sep. 2020, doi: 10.30534/ijatcse/2020/8691.42020.
  • [35] N. Ustalli, M. N. Peixoto, T. Kraus, U. Steinbrecher, G. Krieger, and M. Villano, "Experimental demonstration of staggered ambiguous SAR mode for ship monitoring with TerraSAR-X," IEEE Trans. Geosci. Remote Sens., vol. 61, 2023, Art. no. 5221816, doi: 10.1109/TGRS.2023.3333932.
  • [36] E. Santi et al., "On the use of COSMO-SkyMed X-band SAR for estimating snow water equivalent in Alpine areas: A retrieval approach based on machine learning and snow models," IEEE Trans. Geosci. Remote Sens., vol. 60, 2022, Art. no. 4305419, doi: 10.1109/TGRS.2022.3191409.
  • [37] L. Yan, W. Wu, and T. Li, "Power transmission tower monitoring technology based on TerraSAR-X products," Proc. SPIE, vol. 8286, pp. 374--380, Jun. 2011, doi: 10.1117/12.912336.
  • [38] L. Sha et al., "Study on extra-high voltage power line scatterers in time series SAR," in Proc. Ann. GIS, Sep. 2010, pp. 81--90, doi: 10.1109/EORSA.2014.6927847.
  • [39] L. Jingnan, "Progress in deformation monitoring for dams, bridges and power lines," Ann. GIS, vol. 16, no. 2, pp. 81--90, Aug. 2010, doi: 10.1080/19475683.2010.492129.
  • [40] C. Sheng, M. S. Jie, and D. X. Hu, "Research on multi-source SAR satellite monitoring of landslide geological hazards of cross-river highvoltage transmission lines in Badong, Hubei Province," Electric Power Inf. Commun. Technol., vol. 20, no. 10, pp. 9--16, 2002.
  • [41] N. Liu, T. Celik, and H.-C. Li, "Gated ladder-shaped feature pyramid network for object detection in optical remote sensing images," IEEE Geosci. Remote Sens. Lett., vol. 19, pp. 1--5, 2022, doi: 10.1109/LGRS.2020.3046137.
  • [42] S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, "Path aggregation network for instance segmentation," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 8759--8768.
  • [43] M. Tan, R. Pang, and Q. V. Le, "EfficientDet: Scalable and efficient object detection," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 10778--10787.
  • [44] X. Li et al., "Semantic flow for fast and accurate scene parsing," in Proc. Eur. Conf. Comput. Vis., vol. 12346, Glasgow, U.K., Aug. 2020, pp. 775--793. [45] X. Wu, D. Hong, and J. Chanussot, "UIU-Net: U-Net in U-Net for infrared small object detection," IEEE Trans. Image Process., vol. 32, pp. 364--376, 2023, doi: 10.1109/TIP.2022.3228497.
  • [46] C. Wang et al., "Gold-YOLO: Efficient object detector via gatherand-distribute mechanism," in Proc. Comput. Vis. Pattern Recognit., Oct. 2023, pp. 2--7.
  • [47] J. Hu, L. Shen, S. Albanie, G. Sun, and A. Vedaldi, "Gather-excite: Exploiting feature context in convolutional neural networks," in Proc. Adv. Neural Inf. Process. Syst., vol. 31, 2018, pp. 1--11.
  • [48] Y. Li, X. Li, and J. Yang, "Spatial group-wise enhance: Enhancing semantic feature learning in CNN," in Proc. Asian Conf. Comput. Vis. (ACCV), 2020, pp. 687--702.
  • [49] J. Hu, L. Shen, S. Albanie, G. Sun, and E. Wu, "Squeeze-and-excitation networks," IEEE Trans. Pattern Anal. Mach. Intell., vol. 42, no. 8, pp. 2011--2023, Aug. 2020.
  • [50] Q. Wang, B. Wu, P. Zhu, P. Li, W. Zuo, and Q. Hu, "ECA-net: Efficient channel attention for deep convolutional neural networks," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 11531--11539.
  • [51] S. Woo, J. Park, J. Y. Lee, and I. S. Kweon, "CBAM: Convolutional block attention module," in Proc. Eur. Conf. Comput. Vis. (ECCV), 2018, pp. 3--19.
  • [52] R. Chen, X. Yan, S. Wang, and G. Xiao, "DA-Net: Dual-attention network for multivariate time series classification," Inf. Sci., vol. 610, pp. 472--487, Sep. 2022, doi: 10.1016/j.ins.2022.07.178.
  • [53] S. Mishra, P. Liang, A. Czajka, D. Z. Chen, and X. S. Hu, "CC-NET: Image complexity guided network compression for biomedical image segmentation," in Proc. IEEE 16th Int. Symp. Biomed. Imag. (ISBI), Apr. 2019, pp. 57--60.
  • [54] A. Vaswani et al., "Attention is all you need," in Proc. Adv. Neural Inf. Process. Syst., vol. 31, 2017, pp. 1--11.
  • [55] H. Chen, Z. Qi, and Z. Shi, "Remote sensing image change detection with transformers," IEEE Trans. Geosci. Remote Sens., vol. 60, Jul. 2022, Art. no. 5607514, doi: 10.1109/TGRS.2021.3095166.
  • [56] D. Wang et al., "Advancing plain vision transformer toward remote sensing foundation model," IEEE Trans. Geosci. Remote Sens., vol. 61, 2023, Art. no. 5607315, doi: 10.1109/TGRS.2022.3222818.
  • [57] Z. Liu et al., "Swin transformer: Hierarchical vision transformer using shifted windows," in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2021, pp. 9992--10002.
  • [58] T. Panboonyuen, K. Lawawirojwong, S. Lawawirojwong, P. Srestasathiern, and P. Vateekul, "Transformer-based decoder designs for semantic segmentation on remotely sensed images," Remote Sens., vol. 13, no. 24, p. 5100, Dec. 2021, doi: 10.3390/rs13245100.
  • [59] Z. Liu et al., "A ConvNet for the 2020s," in Proc. (CVPR), 2022, vol. 2, no. 4, p. 7.
  • [60] X. Ding, X. Zhang, J. Han, and G. Ding, "Scaling up your kernels to 31×31: Revisiting large kernel design in CNNs," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2022, pp. 11963--11975.
  • [61] Q. Hou, C. Lu, M. M. Cheng, and J. Feng, "Conv2Former: A simple transformer-style ConvNet for visual recognition," in Proc. Comput. Vis. Pattern Recognit., Nov. 2022, pp. 1--12.
  • [62] X. Li, W. Wang, X. Hu, and J. Yang, "Selective kernel networks," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 510--519.
  • [63] J. Liu, Q. Hou, M. M. Cheng, C. Wang, and J. Feng, "Improving convolutional networks with self-calibrated convolutions," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2020, pp. 10096--10105.
  • [64] Y. Li et al., "Large selective kernel network for remote sensing object detection," in Proc. IEEE/CVF Int. Conf. Comput. Vis., Mar. 2023, pp. 16794--16805.
  • [65] Ultralytics.YOLOv5. Accessed: Nov. 1, 2021. [Online]. Available: https://github.com/ultralytics/yolov5
  • [66] C. Y. Wang et al., "CSPNet: A new backbone that can enhance learning capability of CNN," in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2020, pp. 390--391.
  • [67] Y. Dai, F. Gieseke, S. Oehmcke, Y. Wu, and K. Barnard, "Attentional feature fusion," in Proc. IEEE Winter Conf. Appl. Comput. Vis. (WACV), Jan. 2021, pp. 3559--3568.
  • [68] Z. Yu et al., "YOLO-FaceV2: A scale and occlusion aware face detector," in Proc. Comput. Vis. Pattern Recognit., Aug. 2022, pp. 1--18.
  • [69] Y.-M. Kim, Y.-H. Yoo, I.-U. Yoon, H. Myung, and J.-H. Kim, "Spatiotemporal deformable DETR for weakly supervised defect localization," IEEE Sensors J., vol. 23, no. 17, pp. 19935--19945, Sep. 2023, doi: 10.1109/JSEN.2023.3298777.
  • [70] Research Team. (2023). YOLO-NAS by Deci Achieves State-of-the-Art Performance on Object Detection Using Neural Architecture Search. Accessed: May 12, 2023. [Online]. Available: https://deci.ai/blog/yolonas-object-detection-foundation-model/
相关推荐
_沉浮_32 分钟前
Spring AI使用tool Calling和MCP
java·人工智能·spring
果冻人工智能1 小时前
我们准备好迎接AI的下一次飞跃了吗?
人工智能
刘大猫261 小时前
Arthas profiler(使用async-profiler对应用采样,生成火焰图)
java·人工智能·后端
果冻人工智能1 小时前
猿群结伴强大,但AI代理不行:为什么多智能体系统会失败?
人工智能
周末程序猿1 小时前
机器学习|MCP(Model Context Protocol)实战
人工智能·机器学习·mcp
AI技术控2 小时前
计算机视觉算法实现——SAM实例分割:原理、实现与应用全景
人工智能·算法·计算机视觉
Lilith的AI学习日记2 小时前
LangChain高阶技巧:动态配置Runnable组件的原理剖析与实战应用
大数据·网络·人工智能·架构·langchain
过期动态2 小时前
【动手学深度学习】LeNet:卷积神经网络的开山之作
人工智能·python·深度学习·神经网络·机器学习·分类·cnn
田辛 | 田豆芽2 小时前
【人工智能】通俗易懂篇:《当人脑遇见计算机:超市购物解密AI的思考密码》
人工智能