【YOLO】【遥感目标检测】Object Detection in Remote Sensing Images using YOLOv8

Object Detection in Remote Sensing Images using YOLOv8

使用YOLOv8进行遥感图像中的目标检测

0.论文摘要

摘要---在遥感图像(RSIs)中检测物体对于从城市规划到灾害响应的各种应用至关重要。然而,当前的深度学习模型由于依赖固定的锚框以及图像中缺乏物体上下文线索,往往表现不佳。为此,我们开发了一种基于YOLOv8技术的专门用于分析遥感图像的目标检测系统。该框架旨在准确识别复杂卫星图像中的物体。通过利用DIOR数据集并将传统注释精心转换为YOLO格式,模型经过严格的训练,最终实现了显著的精度提升。与传统方法不同,该框架特别强调场景上下文特征的整合以及前沿数据增强策略的实施。这种对上下文理解的刻意强调以及对多样化训练数据的接触,预计将显著提高检测精度,并增强模型在广泛遥感图像场景中的适应性。与YOLO CSL模型和当前最先进的模型相比,所提出模型的性能和效率指标均有显著提升。

关键词---遥感图像,目标检测,增强,可扩展性,深度学习

1.引言

目标检测是一项关键的计算机视觉任务,涉及在图像或视频中识别和定位物体。在多个领域中,光学遥感图像中的目标识别至关重要。近年来,遥感技术取得了显著进展,多个大规模遥感数据集被引入[1]。该技术在多个领域有广泛应用,从自动驾驶车辆在道路上导航到医学图像分析用于疾病诊断。本项目研究了两种先进的目标检测模型YOLOv8和YOLO-CSL的性能。我们在两个公开可用的数据集DIOR和DOTA上评估了它们的有效性,这些数据集通常用于目标检测任务。我们采用了多种指标来评估它们的准确性、精确度、召回率和其他关键性能指标。该分析的结果可以为目标检测技术的持续发展和改进做出贡献。

遥感图像本质上是从远处(通常由飞机或卫星)拍摄的地球照片。这些图像是通过测量从地球表面反射或发出的电磁辐射生成的。地球上的不同特征,如森林或水体,会以特定波长反射辐射。通过分析不同波长的辐射,科学家可以了解这些特征的性质。例如,植物在近红外波段的反射比在可见光波段更强,这就是为什么在大多数遥感图像中植被呈现绿色。遥感图像主要有两种类型:光学和雷达。光学图像捕捉可见光和近红外波长,适用于绘制森林、草地和城市等地表覆盖图。而雷达图像则使用微波波长,即使在云层或雾霾遮挡视线时也能生成图像,这使得它在测量地球地形方面具有重要价值。这些特殊图像主要有两种类型:光学和雷达。光学图像专注于可见光和近红外波长,使其成为绘制地表覆盖图的理想选择。你是否曾好奇那些描绘森林、草地和广阔城市的详细地图是如何制作的?答案就是光学遥感。另一方面,雷达图像使用微波波长,具有独特的优势。与光学图像不同,雷达可以穿透云层和雾霾,使其成为测量地球地形的宝贵工具。因此,下次当你看到一幅精确的山地地图时,请记住雷达图像可能在捕捉这些复杂细节中发挥了关键作用。遥感图像的力量不仅在于它们能够捕捉快照,还在于它们所包含的大量信息。每张图像都超越了人眼所能感知的范围,包含了各种波长的光谱数据。这些光谱信息就像地球上不同特征的指纹。通过分析这些数据,科学家可以以极高的准确性识别和分类地表覆盖类型。想象一下,能够区分健康植被和受胁迫的作物,或区分不同类型的岩石------这一切都归功于遥感图像中的光谱分析。但神奇之处不止于此。遥感图像根据其分辨率具有不同的细节水平。空间分辨率指的是图像能够捕捉的精细程度。高分辨率图像提供了更近的视角,甚至可以揭示建筑物或单棵树等小特征。相比之下,低分辨率图像提供了更广阔的视野,能够在一帧中涵盖广阔的景观。同样,光谱分辨率指的是图像中捕捉到的不同波长的数量。更高的光谱分辨率可以更精确地识别地球表面的不同特征。文章接下来的部分如下:第二部分概述了相关工作。第三部分重点介绍了所提出的方法。第四部分展示了结果与讨论。第五部分最终总结了结论。

2.相关工作

传统遥感图像中的目标检测方法往往由于图像中目标的规模庞大和多样性而表现不足。基于深度学习的目标检测方法源自卷积神经网络(CNN)。大多数基于CNN的检测器由三个部分组成:颈部网络、头部网络和骨干网络。颈部网络负责合并和精炼不同尺度的语义特征图,而骨干网络则负责提取这些特征图。常用的特征金字塔网络(FPN)通常被颈部网络使用。最初由Law等人[2]提出的无锚框头部网络CornerNet将目标识别为对应左上角和右下角的成对关键点。随后,Tian等人[3]提出了FCOS,除了识别特征图上的点外,还预测特征点与对应边界框四边之间的距离。DETR[4]能够生成预测集,但直接将DETR应用于遥感图像的结果通常不够理想。一些研究人员改进了DETR以识别遥感照片中的目标。He[5]提出了Sparse-Transformer,采用K-means方法实现多域聚合,以实现基于DETR的遥感图像目标检测。这增强了从稀疏域中的遥感图像目标中提取特征的过程。提出了一种分布式深度学习框架[6],以实现对大规模数据集的高效训练和推理。该方法专注于开发适用于处理大型卫星图像的快速目标检测方法。通过引入多尺度卷积神经网络(CNN),该方法旨在通过捕捉不同分辨率的细节来提高目标检测的准确性。由于无需预定义锚框,该方法有望提高遥感数据目标检测的效率和准确性。多通道高阶局部自相关(MHLA)[7]是一种从卫星图像中提取特征的有前景的方法。通过关注像素之间的空间关系,MHLA可以补充传统的特征提取技术。当与其他目标检测方法结合时,MHLA可以提高系统的整体准确性和鲁棒性。提出了一种用于卫星图像目标检测的两步CNN架构[8]。通过级联多个CNN层,该方法有望提高模型学习数据中复杂模式和特征的能力。这对于需要高级图像内容理解的任务(如目标分类和场景理解)特别有益。模板匹配和基于知识的方法严重依赖人工分析。这些方法在准确性和效率方面往往面临局限性。为了解决这些挑战,提出了一种基于多通道高阶局部自相关(MHLA)的新方法。MHLA是一种强大的特征提取技术,能够捕捉卫星图像中的复杂空间关系。通过利用MHLA,该方法在传统方法的基础上提供了显著改进,实现了更准确和高效的遥感应用目标检测[9]。Wang等人[10]开发了一种自适应特征感知策略,以改善模型学习并减少背景影响。这些方法显著提高了基线模型的特征表示和分配策略样本,突出了遥感照片的成像特征及其视觉元素。

训练目标检测算法需要大量标注数据集,这通常耗时且成本高昂。YOLOv8作为一种先进的目标检测模型,在速度、准确性和易用性方面均有显著提升。为应对数据限制,可以引入多尺度卷积神经网络(CNN)以捕捉不同尺度的特征。通过在不同尺度上提取特征,这些CNN能够有效处理各种尺寸和复杂度的目标。这在遥感领域尤为重要,因为卫星图像具有多种形式,包括不同分辨率、光谱波段和天气条件。多尺度CNN能够同时检测大尺度和小尺度目标,从而在复杂场景中提高准确性和鲁棒性。这一进展有望在环境监测、城市规划和灾害响应等遥感应用中带来革命性变化。Liu等人[11]提出了一种基于深度卷积神经网络和Fisher向量算法的运动目标检测方法,该方法提高了跟踪精度。专门为航空影像中的小目标检测设计的数据集,虽然不直接聚焦于目标检测方法,但为研究人员评估和比较不同目标检测算法在遥感数据中小目标上的性能提供了宝贵资源。该方法[12]对推动小目标检测领域的发展至关重要,有助于开发鲁棒且准确的算法。提出了一种针对大规模遥感数据的快速目标检测方法,通过结合特征金字塔网络、无锚点检测和高效推理技术,该方法在保持准确性的同时显著节省了计算资源。这一方法适用于需要处理大规模卫星图像的实时应用,如环境监测和灾害响应[13]。目标的光谱特征可能因光照、天气条件和传感器等外部因素而显著变化,这种变异性给遥感中的目标检测算法带来了挑战。同一类型的树木在不同时间或不同天气条件下拍摄的图像中可能略有不同,森林砍伐监测、城市发展监测以及识别特定目标(如树木、建筑物或道路)等任务中,先进的目标检测算法(如定制版的YOLOv3)能够应对城市环境中的独特挑战,包括目标尺度变化和复杂背景。通过针对城市航空数据优化这些算法,可以提高目标检测在这一复杂领域中的准确性和效率[14]。高分辨率卫星图像提供了丰富的信息,能够检测到车辆、船只和单个太阳能板等精细细节。处理大规模遥感图像进行目标检测可能计算量巨大,分布式深度学习框架通过支持大规模数据集的训练和推理提供了解决方案。这一进展对于处理高分辨率卫星图像生成的海量数据至关重要,并有望在广泛应用中带来革命性变化[15]。目标方向、图像旋转和遥感中的小目标检测,通过引入考虑图像旋转的方法,目标检测算法在实时环境监测应用中变得更加鲁棒。单类分类为识别与背景场景不同的目标提供了一种有前景的方法。深度学习模型的进步(如改进的YOLOv8)显著增强了在高分辨率遥感数据中检测小目标的能力。这些进展有助于全面提升遥感应用中的目标检测性能[16]。遥感图像通常因单帧中捕捉到的目标尺寸范围广泛而带来挑战,建筑物可能清晰可见,而汽车可能仅占几个像素。通过改进YOLO-v4深度学习模型以整合多尺度特征并考虑潜在的目标旋转,YOLO-v4能够有效检测各种尺寸的目标,从而提升遥感应用中目标检测算法的整体性能。这一改进对于城市规划、环境监测和交通分析等任务至关重要,在这些任务中,准确识别不同尺度的目标是必不可少的[17]。使用多通道高阶局部自相关进行特征提取,为传统方法提供了不同的视角。

3.方法

YOLOv8 是一款前沿的计算机视觉模型,推动了目标检测、分类和分割领域的发展。它基于 YOLO(You Only Look Once)系列模型的优势,在速度、准确性和易用性方面实现了显著提升。与早期版本相比,YOLOv8 通过新特性和技术进步增强了性能,使其能够以更高的精度和效率识别和分类图像和视频中的物体。它还变得更加多功能,能够处理更广泛的任务,如目标跟踪和姿态估计。此外,YOLOv8 在灵活性方面表现出色,能够无缝适应各种硬件平台,从资源受限的设备到强大的云环境。这使其成为计算机视觉领域中更广泛应用的有力工具。YOLOv8 在实时目标检测任务中提供了速度与准确性的强大平衡。如果实时性能是首要考虑因素,或者硬件资源有限,YOLOv8n 是理想选择。然而,如果应用需要尽可能高的准确性并且可以容忍较慢的处理速度,基础版 YOLOv8 模型可能更适合。最终的选择取决于您的具体需求以及目标检测任务中速度与准确性之间的平衡。图 1 展示了所提出方法的框图。

图1. 所提方法的框图

图2展示了YOLOv8模型的架构。它主要由三个部分组成:Backbone(骨干网络)、Neck(颈部网络)和Head(头部网络)。Backbone通常是一个定制的CSPDarknet53网络,用于从输入图像中提取特征。Neck部分通常采用C2f模块而非传统的FPN(特征金字塔网络),用于融合来自Backbone不同阶段的信息,以捕捉不同尺度的目标。最后,检测头直接预测边界框和类别概率,无需预定义的锚框,从而简化了流程。

A.主干

特征提取的强大引擎 骨干网络作为YOLOv8的基础,承担着从输入的遥感图像中提取有意义特征的重任。这一关键阶段利用了卷积神经网络(CNN)架构。CNN通过一系列卷积层对图像进行细致处理。这些卷积层就像过滤器一样,扫描图像并逐步提取更复杂的特征。想象一下,第一层识别边缘和基本形状,而后续层则学习识别这些特征的组合,形成更复杂的模式,代表图像中的物体。YOLOv8在遥感应用中的最新进展,特别在骨干网络中引入了注意力机制。这些机制使网络能够聚焦于图像中的关键信息。

  1. 选择性聚焦:注意力机制就像聚光灯,选择性地聚焦于图像中对于目标检测更为重要的特定区域。在遥感数据中,这可能涉及聚焦于高对比度或异常形状的区域,这些区域可能指示建筑物、车辆或其他感兴趣物体的存在。信息优先级:通过选择性地关注相关区域,网络分配更多的处理能力来分析这些区域并提取更具信息量的特征。这种有针对性的方法为后续阶段提供了更稳健的特征表示。

B.颈部

颈部组件充当桥梁,无缝连接骨干网络的特征提取能力与检测头的预测能力。它处于核心地位,接收由骨干网络中不同卷积阶段生成的特征图。这些特征图以多种分辨率表示图像,并捕捉不同层次的细节。随后,颈部通过一种称为特征融合的过程,巧妙地结合这些特征图。特征融合:创建全面图像,就像侦探结合指纹和目击者描述一样,融合来自各种来源(如深度学习层)的信息,以更丰富地理解数据。这种低层次细节与高层次概念的融合,使机器学习模型能够以更高的准确性、鲁棒性和捕捉数据复杂性的能力,应对图像识别和推荐系统等任务。结合分辨率:颈部融合来自不同卷积阶段的特征图,每个阶段以特定分辨率表示图像。高分辨率特征图捕捉精细细节,而低分辨率特征图提供更广泛的上下文信息。遥感图像中的目标检测,对于从太空分析广阔景观至关重要,最初依赖于模仿人类分析。早期技术如模板匹配(在图像中扫描参考形状)和基于知识的方法(结合对物体的现实世界理解)是这一领域的先驱。通过融合这些特征图,颈部创建了更丰富的特征表示,涵盖了物体的复杂细节及其与遥感图像中更大场景的关系。FPN实现有效融合:YOLOv8通常在颈部采用特征金字塔网络(FPN)等技术。FPN促进了更复杂的融合过程,确保来自所有分辨率的信息被有效整合,并贡献于最终的特征表示。

C.头部

检测头是YOLOv8架构中的最后一道防线。它接收由骨干网络和颈部网络精心处理的特征图,并生成最终的预测结果。这一关键阶段可以进一步划分为多个检测器,每个检测器专门用于预测不同尺度的目标。这种多尺度预测能力对于YOLOv8在遥感领域的成功至关重要,因为在遥感图像中,不同大小的目标同时出现是常见现象。边界框预测:检测头利用丰富的特征表示来预测图像中潜在目标的边界框。这些边界框本质上定义了目标的空间位置和范围。想象一下,检测头分析融合后的特征图,并识别出一个具有船舶特征的区域。然后,它会预测该区域的边界框,表示图像中可能存在一艘船。置信度分数:检测头不仅预测位置,还为每个边界框分配置信度分数。这些分数表示预测区域内存在目标的可能性。高置信度分数表示基于提取的特征,检测头对目标存在的信心很强。目标分类:最后,检测头在目标分类中起着关键作用。它利用特征表示将预测边界框内的目标分类为与遥感应用相关的预定义类别。这些类别可能包括船舶、建筑物或特定植被类型等,具体取决于当前任务。

4.结果和讨论

结果显示,YOLOv8在DIOR数据集上的表现优于YOLO-CSL在DOTA数据集上的表现。YOLOv8更加准确,能够更好地识别正确的对象而不出错,并且在DIOR图像中发现了更多的实际对象。虽然两个模型在识别某些对象方面都表现不错,但YOLOv8在DIOR上略胜一筹。进一步查看结果(如混淆矩阵和F1曲线,如果有的话)可以帮助我们了解哪些特定对象对模型来说较为棘手,以及模型对其预测的置信度如何。

A. 平均精度均值 (mAP)

该综合指标通过对不同目标类别和检测置信度阈值的精度进行平均,提供了模型性能的整体衡量标准。mAP值越高,表示整体检测和分类的准确性越好。

B.精度

如前所述,精确率反映了检测到的物体中属于正确类别的比例。公式(1)给出了精确率的数学表示。较高的精确率值表明模型在分类其检测到的物体时很少出错。

C.召回率

召回率衡量了模型成功检测到的图像中实际对象的比例。公式(2)给出了召回率的数学表示。高召回率值表明模型擅长识别大多数现有对象。

D. 在DIOR数据集上的表现

YOLOv8在DIOR数据集上表现出色,整体准确率达到73.6%,并且在精确率(71%)和召回率(71.1%)之间保持了良好的平衡。这意味着模型能够做出大量正确的检测(准确率),避免识别不存在的物体(精确率),并且能够找到大部分实际存在的物体(召回率)。F1分数(0.704)进一步证实了这种平衡。最后,较高的mAP值(0.725)表明模型在检测各类物体时平均表现良好。表I展示了所提出的技术在准确率、精确率、召回率和F1分数方面优于其他现有技术。

图3展示了DIOR数据集的混淆矩阵,可以揭示模型在某些特定物体类别上存在高误报(低精度)或高漏报(低召回)的问题。图4则展示了DIOR的F1置信度曲线,能够说明模型对其预测的置信度与准确性之间的关系。如果曲线显示高置信度预测的精度急剧下降,则表明模型可能对某些错误检测过于自信。F1分数的数学表示见公式(3)。

YOLOv8在DIOR数据集上表现出色,整体准确率达到73.6%,并且在精确率和召回率之间取得了平衡。而YOLO-CSL在DOTA数据集上实现了69.1%的合理准确率,但在精确率(65%)和召回率(63.3%)之间存在权衡,更倾向于精确率。这表明,与DOTA数据集上的YOLO-CSL相比,YOLOv8在DIOR数据集上可能犯更少的分类错误,并找到更高比例的实际目标。尽管如此,两种模型都显示出改进的潜力,尤其是DOTA数据集上的YOLO-CSL,在发现更多目标并在不同目标类别中实现更高的平均性能方面仍有提升空间。

图5展示了DOTA数据集的混淆矩阵,可以揭示模型在某些特定目标类别上的表现不足。图6给出了DOTA数据集的F1置信度曲线,能够提供模型在DOTA数据集上预测置信度的深入分析。数据集与模型之间的对比。图7和图8展示了所提方法在DIOR和DOTA数据集上的目标检测结果,目标已通过边界框进行标识。


图7. 所提方法在DIOR数据集上的目标检测结果,标注为边界框。

图8. 所提方法在DOTA数据集上的目标检测结果,标注为边界框

5.结论

遥感图像中的目标检测对于从太空调查广阔景观至关重要,最初依赖于模拟人类处理的方法。早期的方法如模板匹配,即在图像中遍历参考形式,以及基于知识的方法,这些方法整合了对物体的现实世界理解,是这一领域的先驱。我们提出了使用YOLOv8进行遥感图像目标检测的研究。研究表明,在DIOR数据集上,YOLOv8相对于DOTA的表现优于YOLO-CSL。所提出的YOLOv8技术在准确率、精确率和F1分数上均优于现有技术,并且在准确分类物体、减少误报以及识别图像中更多实际物体方面表现出色。通过检查混淆矩阵和F1置信度曲线,可以进一步了解挑战模型的特定物体类别,以及它们的预测置信度与准确性之间的关系。

相关推荐
城电科技12 分钟前
城电科技|零碳园区光伏太阳花绽放零碳绿色未来
人工智能·科技·能源
HyperAI超神经22 分钟前
Stable Virtual Camera 重新定义3D内容生成,解锁图像新维度;BatteryLife助力更精准预测电池寿命
图像处理·人工智能·3d·数学推理·视频生成·对话语音生成·蛋白质突变
Chaos_Wang_29 分钟前
NLP高频面试题(二十三)对抗训练的发展脉络,原理,演化路径
人工智能·自然语言处理
Yeats_Liao1 小时前
华为开源自研AI框架昇思MindSpore应用案例:基于MindSpore框架实现PWCNet光流估计
人工智能·华为
说私域1 小时前
人工智能赋能美妆零售数字化转型:基于开源AI大模型的S2B2C商城系统构建
人工智能·小程序·开源·零售
zew10409945881 小时前
基于深度学习的手势识别系统设计
人工智能·深度学习·算法·数据集·pyqt·yolov5·训练模型
weixin_478689761 小时前
pytorch与其他ai工具
人工智能·pytorch·python
豆芽8191 小时前
核函数(机器学习深度学习)
人工智能·深度学习
Liudef061 小时前
Stable Diffusion LoRA模型训练:图片收集与处理完全攻略
人工智能·stable diffusion
说私域2 小时前
数智化时代下开源AI大模型驱动的新型商业生态构建——基于AI智能名片与S2B2C商城小程序的融合创新研究
人工智能·小程序·开源