SCI精读:基于计算机视觉改进光伏热点和积尘检测:基于现场航拍图像的YOLO模型系统比较

前言:

**SCI精读是一项高投入、高回报的科研投资。 它初期看似缓慢,但从长远看,它是构建你深厚学术功底、敏锐科研嗅觉和强大创新能力的唯一捷径。将精读养成习惯,它最终会从一项"任务"变成一种能带给你巨大成就感和乐趣的"能力",介于此,本Up主开设sci领读课程,旨在让小伙伴们在快乐中快速具备论文写作能力!**本专栏为视频课程中的文章翻译!

B站干货戳这里!!!

解读视频戳这里!!!!
全文翻译如下:

基于计算机视觉改进光伏热点和积尘检测:基于现场航拍图像的YOLO模型系统比较

期刊信息

《可持续能源技术与评估》78卷(2025年)104355页

爱思唯尔出版社(Elsevier)

期刊主页:www.elsevier.com/locate/seta

原创论文

作者及单位

埃莱夫塞里奥斯·G·沃尔科斯(Eleftherios G. Vourkos)a,b、拉斐拉·A·阿加托克莱乌斯(Rafaela A. Agathokleous)a、安德烈亚斯·S·帕纳伊德斯(Andreas S. Panayides)b、索泰里斯·A·卡洛吉鲁(Soteris A. Kalogirou)c,d,e、埃夫蒂希奥斯·G·克里斯托弗鲁(Eftychios G. Christoforou)a

a 塞浦路斯大学机械与制造工程系,尼科西亚,塞浦路斯

b 塞浦路斯卓越研究中心(CYENS Center of Excellence),尼科西亚,塞浦路斯

c 塞浦路斯理工大学机械工程与材料科学工程系,塞浦路斯

d 塞浦路斯科学、文学与艺术学院,尼科西亚,塞浦路斯

e 布加勒斯特理工大学电力系统系,布加勒斯特060042,罗马尼亚

通信作者及邮箱

  • 通信作者
    邮箱地址:vourkos.eleftherios@ucy.ac.cy(E.G. 沃尔科斯)、agathokleous.rafaela@ucy.ac.cy(R.A. 阿加托克莱乌斯)、a.panayides@cyens.org.cy(A.S. 帕纳伊德斯)、soteris.kalogirou@cut.ac.cy(S.A. 卡洛吉鲁)、e.christoforou@ucy.ac.cy(E.G. 克里斯托弗鲁)
    DOI:10.1016/j.seta.2025.104355
    接收日期:2024年10月18日;修订日期:2025年5月9日;录用日期:2025年5月14日;在线发布日期:2025年5月19日
    版权所有:©2025爱思唯尔有限公司。包括文本和数据挖掘、人工智能训练及类似技术的所有权利均受保护。

关键词

光伏系统监测(PV systems monitoring)、光伏热点检测(PV hotspot detection)、鸟粪检测(Bird dropping detection)、YOLO算法(YOLO)、小目标检测(Small object detection)、光伏热成像图(PV thermal images)

摘要

光伏是重要的可再生能源,大型光伏电站已投入大量资金。光伏板表面的灰尘和其他沉积物会导致热点形成,严重影响系统性能并损坏光伏电池。航拍图像为监测光伏电站、识别热点和积尘提供了宝贵工具,但需有效的机器学习算法来检测此类异常。本文提出一种基于"你只看一次"(YOLO)计算机视觉算法的监测系统,通过两个分别用于热点和鸟粪检测的自定义数据集,评估了多个YOLO模型版本(YOLOv5、YOLOv7、YOLOv8、YOLO-NAS和YOLOv9)的性能。数据集包含通过无人机采集的航拍热成像图和光学图像,并为每个YOLO模型确定了最优参数集。结果显示,YOLOv5表现卓越,在"鸟粪"数据集上的平均精度均值(mAP)达99.4%,在"热点"数据集上达99.3%;值得注意的是,YOLOv8在"热点"数据集上的召回率最高,达99.4%,展现出精准识别热点的能力。

鸟粪是光伏系统的主要污染源之一,会导致发电量下降。研究普遍发现,栖息的鸟类会携带细小尘埃颗粒和粪便,沉降在光伏板表面[2]。若长期不及时清理,阴影区域可能出现过热,导致光伏板变色并形成永久性损坏(如热点)[5]。热点出现后,受影响的光伏电池将无法发电,进而影响整个组件的能源产出。因此,对光伏电站进行定期健康监测至关重要。

1 引言

局部遮挡和其他失配条件导致的热点,是影响光伏(PV)板性能的最常见因素之一[1,2]。热点指单个光伏电池或电池局部相对于周围电池的过度发热现象。光伏板表面的电池结构损坏、灰尘、花粉和鸟粪堆积是热点形成的主要原因[3,4]。

热点可能表现为光伏板表面的褐色斑点或明显损坏。传统缺陷检测主要依赖人工视觉检查,成本高且可靠性低------因为热点并非总能用肉眼观察到,因此需要更有效的检测方法。热成像技术能突出显示过热区域,是检测热点的最佳方式[6]。基于深度学习算法的检测方法(如单发多框检测器(SSD)和你只看一次(YOLO))可用于热点检测[7],这些方法通过复杂算法分析热成像图,识别潜在的热点故障。

帕塔克等人[8]提出了一种光伏板故障检测方法,通过处理热成像图并使用两种先进的卷积神经网络模型:基于ResNet-50卷积神经网络的深度学习方法用于分类光伏板故障类型,快速区域卷积神经网络(Faster R-CNN)用于识别故障板的感兴趣区域。该系统可检测五种故障:单电池热点、多电池热点、灰尘和阴影热点、二极管故障以及电位诱发衰减。热成像图由两台分辨率为320×240像素的FLIR手持相机拍摄,研究方法包括模型训练、图像预处理和图像输入训练模型三个步骤。数据集包含837张对应上述五种故障的图像,80%用于训练,其余用于验证和测试。研究以F1分数为指标对比多个分类模型,其中ResNet-50迁移学习模型的F1分数最高,达85.37%,但需注意的是,每张图像仅包含一块光伏板。

范等人[9]采用四层卷积神经网络训练模型,对光伏板的红外近场图像进行检测和分类。输入的红外图像是由FLIR手持热像仪拍摄的240×320像素RGB图像,原始数据集包含39张含热点图像和235张无热点图像。这种数据不平衡对二分类任务造成影响,因此通过图像增强方法扩充数据集:对原始图像进行裁剪,将裁剪后的图像恢复至原始尺寸,去除不含热点的无效图像,最终得到292张含热点图像和292张无热点图像。此外,还对图像进行了旋转和翻转操作,但这仅增加了模型训练时间,未显著提升准确率。该模型将图像分为含热点和无热点两类,分类准确率达96.58%。

阿里等人[10]提出一种基于混合特征的支持向量机(SVM)模型,结合红外热成像技术检测光伏板热点并将其分为健康、非故障热点和故障三类。首先对由手持热像仪拍摄的热成像图进行预处理(提升质量、去除噪声),然后计算不同图像特征构建训练数据集。实验在巴基斯坦拉合尔进行,使用8组串联的光伏组件(每组22块),热像仪的位深度为8位,空间分辨率为640×512像素,训练数据集包含315张图像。实验结果显示,所提SVM机器学习算法的训练准确率为96.8%,测试准确率为93%。

一年前,尼亚齐等人[11]在相同的光伏场地、使用相同样本量,通过机器学习技术对光伏组件热成像图进行热点检测和评估。他们通过训练朴素贝叶斯(nBayes)分类器检测分类后的热点,实现了约94.1%的平均识别率,并指出未来需结合无人机成像和分割技术,以快速评估光伏电站并提高准确率,同时该方法仅适用于特定光伏缺陷的分类。

阿奇戈兹等人[12]研究了基于预训练深度学习方法的热点分类:首先对训练集中的红外热成像图进行数据增强,然后在同一测试集上对比6种预训练深度学习模型(AlexNet、GoogLeNet、ShuffleNet、SqueezeNet、ResNet-50和MobileNet-v2)。数据集来自猛禽地图公司(Raptor Maps Inc)团队[13],共10495张图像(每张24×40像素),其中495张为热点类,10000张为无异常类。70%的热点图像用于训练,其余用于验证和测试。对比结果显示,AlexNet性能最佳,准确率达98.65%。

卡迪纳尔-比亚洛博斯等人[14]研究了基于人工智能的物联网(IoT)平台热点检测技术,通过分析辐照度大于300 W/m²条件下光伏组件间的温差,自动检测光伏组件中的热点。在包含12块光伏板的真实光伏装置中,通过人工放置鸟粪和树叶诱发热点,训练并测试了两种人工智能模型(深度学习和机器学习)。对于红外热成像图中的热点检测,评估了随机森林(Random Forests)机器学习方法;热成像数据采集系统由FLIR Vue Pro R336相机和Spektron 210辐照度传感器组成,ResNet深度卷积神经网络使用6800张图像的数据集,并应用TensorFlow知识迁移技术提升光伏组件识别能力。结果表明,该系统在组件脏污、短路和局部遮挡条件下,热点检测灵敏度达0.995,准确率达0.923。

任等人[15]设计了一种基于SSD算法的光伏热点检测方法,使用MobileNet网络替代原始SSD中的VGG16卷积神经网络结构。SSD模型的输入图像尺寸为300×300像素,原始数据集包含2000张照片(其中1500张含热点),通过裁剪、翻转和尺度增强技术扩充数据至6000张,其中200张作为测试集。实验结果显示,该算法对热点检测具有较高可信度,检测率低且鲁棒性好,与YOLO算法和原始SSD相比,检测速度显著提升。

阿尔哈比布等人[16]开发了一种基于人工智能的光伏系统实时热点检测系统,仅通过串电流和串电压两个参数,实现了82.25%的热点检测准确率。系统使用两块50 W硅基光伏组件,采样率为每分钟2个样本,在辐照度298 W/m²至976 W/m²范围内共采集180个样本。热点检测周期为50秒(该时间内热点无危险性),可实现实时检测。

李等人[17]研究了基于分布式光纤布拉格光栅(FBG)传感器的光伏组件热点检测方法:将传感器阵列粘贴在光伏板表面,通过可调谐激光法、波分复用技术和寻峰算法解调FBG反射波长的漂移。实验分析结果表明,该方法可实时检测光伏板温度,并能识别和定位热点。

巴基尔等人[18]提出一种基于卷积神经网络(CNN)的光伏组件故障分类检测系统,通过无人机拍摄12.5兆瓦光伏电站的热成像图,分别使用长短期记忆网络(LSTM)和CNN进行故障分类,在包含300、500和1000张图像的数据集上,准确率分别为80.99%和73.55%。进一步实验显示,在1.5小时的计算时间内,基于CNN的深度学习算法准确率达95.05%,优于LSTM。

文卡特什等人[19]开发了一种基于集成深度神经网络(DNN)的模型,用于自主检测光伏组件的多种视觉故障(如玻璃破裂、烧痕、蜗牛纹、变色和分层)。尽管该研究并非仅聚焦热点检测,但热点可归为烧痕类进行检测。研究使用搭载在大疆御2变焦(DJI Mavic 2 Zoom)无人机上的RGB相机拍摄图像,数据集包含3150张图像(2520张用于训练,630张用于测试),总体分类准确率达99.68%。与其他机器学习分类器对比发现,仅K近邻算法(kNN)的分类准确率(98.85%)接近该模型。

何等人[20]指出,在使用热红外传感器进行光伏热点检测时,由于像素占比低和复杂环境干扰,故障特征难以有效识别,导致检测网络无法精准检测热点故障。基于此,他们提出DCMF-AFNet网络------一种基于可变形上下文Transformer和双分支多尺度特征融合的无锚框光伏热点故障检测算法。与SSD、Faster-RCNN、Dynamic-RCNN、FCOS、ATSS、VarifocalNet和TOOD等检测算法对比,DCMF-AFNet网络的检测准确率最高,达87.3%。但该算法的实验环境(Intel Core i5-10400F@2.9 GHz×6 CPU、NVIDIA GeForce GTX1660 Ti GPU、PyTorch 1.8.0 CUDA 11.1深度学习框架)表明其计算成本较高。

2022年,孙等人[21]首次尝试将改进的YOLOv5网络用于光伏板热点分类和检测,将光伏板热点按形状分为圆形、线性和方形三类(均为光伏电站现场运行中常见类型)。数据集包含1000张图像(800张用于训练,200张用于验证),为验证YOLOv5网络模型的有效性,还使用YOLOv4、YOLOv3、Faster R-CNN和SSD网络进行了相同测试。实验结果显示,AP-YOLOv5网络在平均精度均值(mAP,87.8%)、平均召回率(89%)和F1分数(88.9%)方面优于其他模型,同时保证了98.6帧/秒的高帧率。

2023年,曹等人[22]使用基于YOLOv5算法的改进算法(YOLOv5s-GBC),该算法在光伏缺陷检测中更快、更准确。实验数据表明,YOLOv5s-GBC在准确率和推理速度等多个评估指标上优于原始方法,分别提升了2%和20.3%。缺陷数据集包含1550张特定图像,来自44块光伏组件(18块单晶硅组件和26块多晶硅组件)。研究将黑点、暗斑和灰尘统一归类为斑点缺陷,因此光伏表面缺陷分为裂纹和斑点两类。1550张图像中,1395张用于训练集,155张用于验证集,且通过随机旋转、缩放、裁剪和透视变换进行数据增强。2024年,曹等人[23]再次提出精准轻量化的YOLOv8-GD算法(原始YOLOv8的改进版本),用于光伏组件电致发光图像的缺陷检测。

本研究采用系统方法对比多个在自定义数据集上训练的YOLO模型,旨在为每个数据集确定最优参数组合,以识别光伏板异常。该评估为了解不同YOLO模型的性能和能力提供了宝贵见解,并为开发高效的光伏系统监测和维护系统建立了基础框架。

研究的主要贡献

  1. 评估YOLOv5、YOLOv7、YOLOv8、YOLO-NAS和YOLOv9的性能,确定在光伏系统监测和维护中最有效的目标检测与识别模型;
  2. 创建两个专用数据集:通过无人机拍摄光伏电站的光伏板图像,结合光学视图和热视图进行全面的视觉和热分析;
  3. 研究超参数调优:通过修改图像尺寸、批次大小和预训练权重,确定最大化特定应用准确率和效率的配置;
  4. 开发实际场景下的光伏系统监测方法框架:为实时检测热点和鸟粪等影响系统性能的异常提供实用见解;
  5. 对比分析多个YOLO模型以及ResNet-50和MobileNet两种主流架构:突出YOLO模型在准确率、实时性能和自定义数据集适应性方面的优势与权衡。

本研究为光伏系统监测及更广泛的目标检测应用领域的未来研发奠定了坚实基础,充分发挥了先进YOLO模型的优势。如表1所示,本文对近五年的相关研究进行了全面综述,详细对比了这些研究的方法、数据集和主要结果,表格最后一行呈现了本研究的发现,便于与现有先进方法直接对比。

表1 基于机器学习的光伏板热点检测相关研究综述

参考文献 算法/模型/方法 应用场景 数据集规模 图像增强技术 所用数据集(图片、红外图像) 评估结果
Pathak等人[8](2022年) ResNet-50 太阳能电站 837张图像 直方图均衡化、归一化 红外图像 准确率85.37%
Fan等人[9](2022年) CNN训练 实验室小规模光伏电站 292张图像 裁剪、旋转、翻转 红外图像 准确率96.58%
Ali等人[10](2020年) SVM 8组串联光伏组件(每组22块) 315张图像 灰度转换、直方图均衡化、噪声滤波 红外图像 训练准确率96.8%、测试准确率93%
Niazi等人[11](2019年) 朴素贝叶斯(nBayes) 8组串联光伏组件(每组22块) 375张图像 灰度转换、直方图均衡化、噪声滤波 红外图像 识别率94.1%
Acikgoz等人[12](2022年) AlexNet、GoogLeNet、ShuffleNet、SqueezeNet、ResNet-50、MobileNet-v2 猛禽地图公司[13] 10495张图像 反转、滤波、锐化 红外图像 AlexNet性能最佳,准确率98.65%
Cardinale-Villalobos等人[14](2023年) ResNet 12块光伏板 6800张图像 - 红外图像 准确率92.3%
Ren等人[15](2020年) 基于MobileNet的SSD 2块光伏组件 6000张图像 裁剪、翻转、尺度变换 普通彩色图像 检测可信度高
Alhabib等人[16](2020年) 串电流和串电压 2块光伏组件 - - - 准确率82.25%
Li等人[17](2022年) FBG传感器 1块光伏板 - - - 可有效识别和定位热点
Bakir等人[18](2023年) CNN 光伏电站 1000张图像 Python Augmentor库 红外图像 准确率80.99%
Venkatesh等人[19](2022年) DNN 4块光伏组件 3150张图像 噪声滤波、旋转、翻转、模糊 RGB图像 准确率99.68%
He等人[20](2023年) DCMF-AFNet、SSD、Faster-RCNN、Dynamic-RCNN、FCOS、ATSS、VarifocalNet、TOOD 光伏电站 1800张图像 噪声滤波、旋转 红外图像 DCMF-AFNet准确率最高,达87.3%
Sun等人[21](2022年) YOLOv5、YOLOv4、YOLOv3、CNN、SSD 光伏板数量未知 1000张图像 - 红外图像 YOLOv5的mAP最高,达87.8%
Cao等人[22](2023年) YOLOv5 44块光伏组件 2624张图像 随机旋转、透视变换、缩放、裁剪 电致发光(EL)图像 mAP@0.5为67.3%
Cao等人[23](2024年) YOLOv8 44块光伏组件 2624张图像 随机翻转、尺度变换、旋转 电致发光(EL)图像 mAP@0.5为92.8%
本研究 YOLOv5、YOLOv7、YOLOv8、YOLO-NAS、YOLOv9 4个独立太阳能电站 "热点"数据集:1294张图像;"鸟粪"数据集:1489张图像 平移变换、混合(Mixup)、缩放、平移、翻转、角度旋转、透视、马赛克(Mosaic)、裁剪、颜色失真、模糊、剪切混合(Cutmix) 红外图像(热点数据集)、RGB图像(鸟粪数据集) "热点"数据集:mAP@0.5为99.3%;"鸟粪"数据集:mAP@0.5为99.4%

2 方法论

YOLO(你只看一次)网络是深度学习领域的革命性突破,提供了尖端的实时目标识别架构。YOLO是一种实时目标检测系统,采用单个神经网络处理图像,与传统的区域提议或滑动窗口方法不同,YOLO将输入图像划分为网格,在单次评估中同时预测边界框和各类别的概率。这种精简流程使YOLO极具速度和效率,适用于自动驾驶、农业应用、监控和机器人技术等需要快速目标检测与分类的场景[24-26]。YOLO模型以其速度和准确率的平衡著称,成为计算机视觉领域的热门选择。

上述YOLO模型(YOLOv5、YOLOv7、YOLOv8、YOLO-NAS和YOLOv9)均经过训练,用于检测光伏板表面的热点和鸟粪,训练基于两个相应的自定义数据集:"热点"数据集包含航拍红外图像,用于训练模型检测热点(由脏污或反向偏压导致);"鸟粪"数据集包含航拍光学图像,用于训练模型检测光伏表面的鸟粪。

方法论流程如图1所示,各步骤详述如下:

首先,使用开发的数据集在同一图形处理器(GPU)上训练所有YOLO模型,并应用相同的默认参数集,目的是确定最快、最鲁棒且预测目标置信度最高的模型。随后,单独分析每个模型,通过精细调整参数优化其性能。这种对每个YOLO模型的对比分析,旨在识别对结果有显著影响的个体参数,并确定每个模型的最佳参数组合。所有训练均在Nvidia GeForce GTX 3080 GPU、Ubuntu 22.04 64位操作系统、惠普暗影精灵10(v.22 H2)主机和第12代英特尔酷睿i9-12900K处理器(16核,3.20 GHz)上进行。

2.1 航拍图像

为创建数据集采集航拍图像时,使用了大疆御2行业版(DJI Mavic 2 Enterprise)无人机。研究利用无人机的双摄像头系统录制两种类型的视频,以实现全面的数据采集:红外(IR)相机录制分辨率为640×520的热视频,采用H.264高清(High Profile)编码,帧率稳定为29.97帧/秒,比特率为9250 kbps,确保捕捉到识别光伏板温度异常(如热点)所需的详细热数据;同时,视觉相机录制分辨率为1920×1080的高清视频,同样采用H.264高清编码,帧率29.97帧/秒,比特率高达36182 kbps,为视觉检查提供卓越的图像清晰度和细节。两种视频流的融合实现了互补分析:红外相机检测到的热异常可与视觉图像交叉参考,提升光伏系统诊断的准确性和可靠性。

因此,利用无人机自动采集红外和视觉相机的图像,能全面呈现光伏电站的状况。图2展示了两组来自这两个相机的配对图像,体现了每种模态的独特见解:图2(a)为红外图像,对应图2(b)的视觉图像;图2©为红外图像,对应图2(d)的视觉图像。红外图像能揭示光伏板热点的本质:图2©中的热点由鸟粪导致(见图2(d)的视觉图像);而图2(a)中的热点由电池裂纹失配引起,该缺陷在图2(b)的视觉图像中不明显,且通常难以用肉眼察觉。这凸显了双成像技术在分类非脏污导致的热点(即视觉图像中不可见、由电池问题引起的热点)方面的重要性。

本分析强调了红外成像在识别传统视觉检查难以发现的异常方面的关键作用。通过结合红外和视觉成像的优势,该方法显著提升了诊断的准确性和效率,为光伏系统监测和维护提供了可靠解决方案。传统热检查需要技术人员使用手持热像仪逐块检查光伏板,既耗时又费力。而自动化无人机技术与同步红外、视觉成像的结合,可克服这些局限,为实时评估光伏系统性能和识别故障提供更快、更全面、可扩展的解决方案。

飞行高度对采集的图像有显著影响:较高高度能以更短的航线和飞行时间拍摄更大范围的光伏电站,但难以区分热点,增加标注难度;较低高度能提供更清晰的图像,便于有效识别热点、简化标注流程,但会延长飞行时间,需要更多航线才能覆盖整个电站。为创建"热点"数据集,光伏电站的飞行高度设定为地面以上4.85米,无人机的红外相机倾斜25度,以垂直捕捉倾斜的光伏板表面,使热点在图像中占据尽可能大的区域。根据飞行高度选择缩放级别,确保采集的图像最终宽高比为5:4。

为生成"鸟粪"数据集,无人机在塞浦路斯大学安装有光伏板的建筑物顶部以上3.35米高度飞行,视觉相机倾斜20度以垂直捕捉光伏板。该数据集还补充了来自塞浦路斯大学校园内遮阳棚上光伏板的图像,遮阳棚上方的飞行高度为1.22米,通过精心规划的GPS坐标确定,以实现检测过程中高效、准确的数据采集(图3为大疆飞行助手(DJI Pilot)应用程序中配置的光伏电站无人机检测预设飞行路径,地图显示了全面覆盖所需的详细航点)。

总之,必须优化飞行高度、宽高比和倾斜角度等参数,以确保获取高质量数据,并最大化光伏系统监测中检测模型的准确性。这些参数的适当校准对于实现高效覆盖和可靠识别热点、鸟粪等异常至关重要,直接有助于制定合理的光伏电站维护策略,以最小化停机时间、提升运行效率。参数经过全面配置,在分辨率、覆盖范围和数据清晰度之间实现最佳平衡。例如,图3中的预设飞行路线(来自控制器软件------大疆飞行助手应用程序)包含了光伏电站全面覆盖所需的所有指定航点,这些带有精确坐标的航点已编程到无人机的GPS导航系统中,实现了目标区域内自动化、一致性的数据采集。这种系统方法提升了监测过程的可重复性和可靠性,为光伏系统的可扩展、有效管理奠定了基础。

2.2 数据集

"热点"和"鸟粪"数据集分别包含显示热点和鸟粪的航拍图像,以及无此类异常的健康光伏板图像。各数据集中健康光伏板图像与含异常光伏板图像的比例不同。

"热点"数据集包含1294张红外图像,来自塞浦路斯拉纳卡的一座2.2兆瓦太阳能电站(图S1)。其中527张图像至少包含一个热点,其余767张图像对应健康的光伏板。该季节双面板光伏板的倾斜角度为25度。通过对光伏电站进行连续航拍监测获取视频,随后将视频分割为帧,并使用Open Labelling工具[27]进行标注。该数据集包含"热点"类别和"故障板"类别(后者涵盖所有至少含一个热点的光伏板)。训练过程使用数据集的三个部分:70%用于训练,15%用于验证,15%用于测试,每个部分均包含含热点和无热点的图像。

表S1概述了"热点"数据集的空图像(无感兴趣目标)和含感兴趣目标的图像,以及每个类别的目标总数。值得注意的是,热点数量多于故障板数量,因为单块故障板可能存在多个热点。

"鸟粪"数据集包含1489张航拍图像,来自塞浦路斯大学校园内不同建筑物上的多个太阳能系统(图S2)。在这1489张图像中,611张图像显示清洁的光伏板,其余878张图像至少包含一个鸟粪(即脏污板)。建筑物屋顶上的所有光伏板倾斜角度为20度,校园中央庭院遮阳棚上的光伏板倾斜角度为0度(即水平放置)。通过对太阳能系统进行连续航拍监测获取视频,随后分割为帧并使用Open Labelling工具标注。该数据集包含两个不同类别:"鸟粪"类别和"脏污板"类别(后者涵盖所有至少含一个鸟粪的光伏板)。训练过程中数据集分为三部分:60%用于训练,20%用于验证,20%用于测试,每个部分均包含含鸟粪和无鸟粪的图像。

表S2概述了该数据集的空图像和含感兴趣目标的图像,以及每个类别的目标总数。需注意,鸟粪数量多于脏污板数量,这表明单块脏污板可能存在多个鸟粪。

2.3 数据增强技术

数据增强技术的应用有助于提升数据集的泛化能力、改进算法性能、增强鲁棒性,并缓解过拟合和数据不平衡等问题。通过人工方式有效扩充用于卷积神经网络(CNN)训练和验证的数据集,具体是从现有数据集中创建额外的数据点,可通过轻微修改现有数据或使用机器学习模型生成新数据点实现。在YOLO中,增强方法指通过对图像进行变换,人工增加训练数据集多样性的技术。

图4展示了三张原始图像(图4(a)、(e)、(i))以及应用于每张图像的多种增强技术:图4(a)应用了马赛克(Mosaic)增强(图4(b))和垂直、水平平移(图4©),还实施了混合(Mixup)增强方法(图4(d)),融合了马赛克、缩放、裁剪、颜色失真和剪切混合(Cutmix)五种技术;图4(f)和(g)分别展示了对原始图像(图4(e))应用颜色失真和缩放的效果;图4(h)展示了另一种混合技术,融合了翻转和模糊增强;图4(j)、(k)、(l)分别展示了对原始图像(图4(i))应用透视变换、角度旋转和裁剪的效果。

以下简要描述所用的每种增强技术,其总体目的是使YOLO及类似深度学习模型在实际目标检测任务中更鲁棒、适应性更强、更有效:

  • 混合(Mixup)增强:通过线性组合图像对及其标签合成新的训练样本[28],在训练过程中注入噪声,减少过拟合,促进更平滑的决策边界,同时通过为少数类生成合成样本解决类别不平衡问题[29];
  • 尺度增强:将输入图像变换为不同尺寸或比例,使模型能识别不同大小和分辨率的目标,应对因视角、距离或相机特性导致的目标尺寸变化,提升对新数据的适应性[30];
  • 平移增强:在图像内水平和垂直移动目标,帮助模型学习目标识别的平移不变性,提升无论目标在图像中具体位置如何都能准确检测的能力,同时有助于处理遮挡问题[32];
  • 翻转增强:包括图像的垂直和水平翻转,引入目标方向的变异性,提升模型的泛化能力,确保模型能从平衡的目标方向分布中学习[33];
  • 角度旋转增强:按不同角度系统旋转输入图像,使模型接触不同的目标方向[34],提升模型的泛化能力和对推理过程中遇到的空间变换的适应性[35];
  • 透视变换增强:通过系统调整模拟视角和空间布局的变化[36],提升模型的视角不变性和在不同实际场景中识别目标的能力;
  • 马赛克(Mosaic)增强:将四张不同图像组合为一张,创建复杂场景和丰富的上下文信息[37],帮助模型理解空间关系和交互,提升在拥挤环境中的识别性能[38];
  • 裁剪增强:从图像中随机移除部分区域,使训练数据的空间构成多样化[33],提升模型在不同空间场景中识别目标的能力,并缓解遮挡和杂乱的影响;
  • 颜色失真增强:改变图像的颜色属性(如亮度、对比度、饱和度和色调),帮助模型学习鲁棒特征,适应不同的光照条件和颜色分布[39];
  • 模糊增强:通过应用模糊滤镜引入图像清晰度的变化[40],提升模型在噪声和低质量图像中识别目标的能力;
  • 剪切混合(Cutmix)增强:用其他图像的矩形区域替换当前图像的部分区域,并混合它们的标签[41],引入空间变异性,帮助模型从更广泛的视觉线索中学习,解决类别不平衡问题,增强对空间变换的适应性。

2.4 YOLO算法(你只看一次)

YOLO检测算法[42]是实时目标检测领域的开创性成果,通过将检测问题构建为单一回归问题,提供了独特的解决方案。与采用区域提议或滑动窗口的传统算法不同,YOLO将输入图像划分为网格,同时预测每个网格单元的边界框和类别概率。这种精简流程实现了快速推理,同时保持了稳健的性能,使YOLO特别适用于既需要速度又需要准确性的应用场景。其高效性和简洁性促成了多个迭代版本的发展,每个版本都针对不同用例增强了算法能力。

2020年初推出的YOLOv5[43]是一个重要里程碑,在速度和准确性的平衡方面取得了重大进步。该模型基于PyTorch框架构建,因其用户友好的界面和模块化设计而广受欢迎。马赛克数据增强、边界框锚点自学习和增强损失函数等显著改进,使其在计算资源有限的环境中也能高效运行。因此,YOLOv5成为需要在不牺牲检测质量的前提下优化性能的应用场景的可靠选择。

2022年年中发布的YOLOv7模型[44]在这些进步的基础上,融入了扩展高效层聚合网络(E-ELAN)和重参数化策略等创新技术。这些增强已被证明能同时提升训练效率和推理速度,YOLOv7在通用检测任务中表现出卓越的性能,在准确性和计算需求之间取得了良好平衡。其可扩展性使其适用于从小型项目到大规模部署的广泛应用场景。

在此基础上,2023年初推出的YOLOv8[45]重点关注解决复杂目标检测挑战。升级后的骨干网络和颈部架构增强了特征提取和表示能力,无锚框检测头的集成进一步提升了模型识别小型和不规则目标的能力,展现出对不同场景的适应性。这些进步使YOLOv8特别擅长处理多样化环境和检测细粒度细节,为目标检测的精度和适应性树立了新标准。

2023年,YOLO-NAS通过利用神经架构搜索(NAS)技术[46]带来了范式转变。该方法能够自动发现针对特定数据集的最高效架构,此外,YOLO-NAS还集成了动态激活函数和增强特征金字塔网络,实现自适应学习。该模型在定制化和效率至关重要的特定领域应用中表现出出色的能力,成为专业任务的多功能工具。

2024年推出的YOLOv9[47]标志着模型效率和多模态能力的重大进步。通过集成先进的注意力机制、多尺度特征聚合和基于Transformer的组件,YOLOv9在降低计算开销的同时实现了更高的准确性。其处理视觉和热学等多种数据模态的能力,进一步提升了其在复杂实时检测场景中的相关性,该版本特别适合需要快速处理和稳健异常检测的尖端应用。

总之,从YOLOv5到先进的YOLOv9的发展历程,体现了在速度、准确性和适应性方面的一系列增强。这些改进表明,该算法在不断演进,以应对日益复杂的检测任务挑战。本研究中这些模型的应用,为了解架构进步如何影响光伏系统监测和维护等专业领域的性能提供了关键见解。

2.5 训练过程

为确保检测性能结果具有可比性,所有模型均在相同的通用参数集下训练。迭代次数(epoch)设定为60,因为超过该次数后训练曲线趋于平稳。两个数据集均保留图像的原始尺寸,YOLO网络训练过程中,即使使用不同的图像尺寸,也会调整图像以保持其原始宽高比。具体而言,"鸟粪"数据集的训练使用原始尺寸为1920像素的图像:例如,若图像原始宽高比为16:9(1920/1080),且图像尺寸设置为1600(而非1920),则宽度会缩减至900以保持相同比例;"热点"数据集的训练使用原始尺寸为640像素的图像。

分别对"鸟粪"和"热点"数据集进行训练:如表S1和S2所示,训练过程既包含数据集中的空图像,也包含不含空图像的情况,并对比两种情况的结果。第二轮训练旨在优化每个YOLO模型的性能,通过探索多种参数组合确定每个模型的最优设置,所考察的参数包括批次大小、图像尺寸和预训练权重的使用。这种方法论允许全面评估不同配置对模型性能的影响,研究结果如图5(a)和(b)所示,分别展示了通过微调过程确定的"鸟粪"和"热点"数据集的最优参数组合。这些图表突出显示了为提升检测准确率、推理速度和整体模型效率所做的具体调整,为每个数据集的最优设置提供了宝贵见解。

每次训练都会改变批次大小、图像尺寸以及所使用的配置文件或预训练模型,这种系统方法允许全面探索参数空间,从而优化模型性能。使用配置文件训练需要从头初始化整个网络架构,而使用预训练权重则可利用在相关数据集上训练的现有模型所获得的知识,潜在地加速训练过程并减少数据需求。本研究使用在COCO数据集[48]上训练的预训练权重,通过这些权重初始化YOLO网络,可利用现有图像目标检测知识加速训练并提升性能,随后在特定数据集上进行微调,使模型能适应新数据同时保留预训练的优势。

需注意的是,"鸟粪"和"热点"数据集与COCO数据集存在显著差异:COCO数据集包含多种目标类别,每个目标通常在图像中占据较大像素比例;而"鸟粪"和"热点"数据集各仅包含两个类别(前者为脏污板和鸟粪,后者为故障板和热点),且鸟粪和热点属于小型目标,在图像中仅占据少数像素,相比COCO数据集中的大型目标更难检测。因此,"鸟粪"和"热点"网络的训练结果预计将具有特别重要的意义。

图5(a)展示了为确定多个YOLO模型在"鸟粪"数据集上的最优参数组合而进行的训练:YOLOv7、YOLOv8和YOLO-NAS各进行5次训练,YOLOv5进行6次,YOLOv9进行8次,部分训练使用预训练权重,其余从头开始。x轴表示不同的训练和模型,y轴表示每次训练的耗时,z轴表示图像尺寸,每个点的颜色对应该训练的批次大小,该图概括了所有训练及每次训练修改的参数。

图5(b)展示了为确定多个YOLO模型在"热点"数据集上的最优参数组合而进行的训练:YOLOv8和YOLO-NAS各进行5次训练,YOLOv5进行4次,YOLOv7进行6次,YOLOv9进行11次,部分训练使用预训练权重,其余从头开始。x轴表示不同的训练和模型,y轴表示每次训练的耗时,z轴表示使用的图像尺寸,每个点的颜色对应该训练的批次大小。需注意,训练7.3的实际批次大小为32,但图中用批次大小16的颜色标记(即所用尺度的最大值);同样,训练1的实际图像尺寸为2048像素,但为了更好地呈现整体结果,y轴上限设为900。

2.6 评估指标

采用文献中常用的数值指标定义和既定术语(如[12,18,19,22]),评估模型预测性能并描述成功率。预测性能评估使用真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)等术语;成功率计算通常使用准确率(A)、精确率(P)和召回率(R)等指标:

  • 准确率(Accuracy):所有正确预测占总预测数的比例,计算公式如下:

    Accuracy =\\frac{TP+TN}{TP+TN+FP+FN}\[%\] \\quad (1)

  • 精确率(Precision,P):正确预测的阳性样本占所有预测为阳性样本的比例,高精确率可能出现在未检测到实际异常但检测到非异常的情况,计算公式如下:

    P=\\frac{TP}{TP+FP}\[%\] (2)

  • 召回率(Recall,R)或灵敏度:正确预测的阳性样本占所有实际阳性样本的比例,反映假阴性误差,有助于衡量模型识别目标类别的能力,计算公式如下:

    R=\\frac{TP}{TP+FN}\[%\] (3)

  • 平均精度均值(mAP):评估算法在控制数据中检测目标有效性的指标,计算公式如下:

    mAP=\\frac{\\sum_{i=1}\^{n} AP_{i}}{n}\[%\] (4)

    其中,(AP_{i})为第i类的平均精度,n为类别总数。mAP是评估YOLO性能的有效指标,因为它同时考虑了目标定位和分类的准确性。考虑到交并比(IOU)指标对小型目标检测的敏感性,宜采用替代评估技术:通常使用单一IOU阈值(常用0.5),降低指标对小型预测误差的敏感性。平均精度(AP)表示不同召回率水平下的平均精确率,计算公式如下:

    AP=\\sum_{i=1}\^{n}(P(k) \\cdot \\Delta R(k))\[%\] (5)

    其中,(P(k))为截止到k的精确率,(\Delta R(k))为从k-1到k的召回率变化,n为召回率水平数。

这些指标共同构成了对YOLO模型的全面评估,有助于平衡目标检测任务中的准确性、精确率、召回率和效率。

3 结果与讨论

本节评估所考虑的YOLO模型的检测性能并进行对比:首先使用相同参数集在开发的数据集上训练模型,然后对比每个YOLO模型的优化网络。所有模型评估均基于上述定义的指标,以深入了解其特性,并为根据特定需求选择模型提供实用指导。

3.1 YOLO模型在"鸟粪"数据集上的性能对比

图6(a)展示了各模型在"鸟粪"数据集上训练后的mAP@0.5测试结果,显然YOLO-NAS和YOLOv5在所有图表中均优于其他模型,且YOLOv5的召回率表现尤为突出。考虑到鸟粪尺寸的变异性,实现高召回率至关重要------YOLO的主要挑战之一是检测图像中的小型目标,而鸟粪尺寸差异显著,这进一步凸显了召回率作为该数据集关键指标的重要性。值得注意的是,YOLO-NAS在最初几个迭代中就实现了超过90%的精确率,表明其收敛速度明显快于其他模型;相反,最新版本的YOLO算法(YOLOv8和YOLOv9)未达预期,结果较差,这可能归因于模型对比所选择的参数组合,以及网络结构可能需要更多GPU内存才能使用更优配置文件进行训练。

五种不同YOLO模型的五次训练耗时差异显著:YOLOv9最快,耗时6.2小时;其次是YOLOv7,耗时8.6小时;值得注意的是,尽管YOLOv5和YOLO-NAS性能更优,但训练耗时分别为10.1小时和12.1小时;YOLOv8的训练时间最长,达17.6小时。虽然YOLOv9和YOLOv7的结果不够理想,但通过在训练过程中探索不同的参数配置,可能会提升性能(即使需要额外时间)。此外,YOLOv9和YOLOv7分别占用6 GB和6.2 GB的CUDA内存,而其他所有模型均占用超过7 GB,这表明这些模型有空间探索更丰富的参数组合,从而可能进一步提升性能。

3.2 YOLO模型在"热点"数据集上的性能对比

图6(b)展示了各模型在"热点"数据集上训练后的mAP@0.5测试结果:YOLOv5、YOLOv8和YOLO-NAS最初表现相近,但随着时间推移,YOLOv5和YOLO-NAS的精确率和召回率持续优于其他模型;YOLOv8和YOLO-NAS在第10次迭代前趋于平稳,而YOLOv5最终表现最佳;YOLOv7和YOLOv9的mAP@0.5分数分别为75%和90%,曲线表明更优的超参数组合可能会进一步提高这两个模型的分数。值得注意的是,YOLOv9在该数据集上的表现相对更好,这可能归因于目标尺寸更大------热点占据光伏板的整个电池,比鸟粪大得多;此外,数据集中图像原始尺寸的减小允许增加其他参数,这可能有助于提升性能。

与"鸟粪"数据集不同,"热点"数据集上训练时间最长的模型是YOLOv7(11.2小时),其次是YOLO-NAS(10.4小时,在第10次迭代前性能趋于平稳);YOLOv9再次成为最快的模型,训练耗时2.8小时;表现最佳的YOLOv5模型训练耗时3.2小时;YOLOv8模型训练耗时5.4小时。这些结果表明,YOLO模型在不同数据集上的训练时间差异显著。

3.3 "鸟粪"数据集上的YOLO模型优化

之前对五个YOLO模型在鸟粪数据集上的性能分析(使用相同参数集)表明,YOLOv5和YOLO-NAS优于其他模型。该数据集的一个重大挑战是YOLO算法对鸟粪的检测:鸟粪尺寸小,且需要使用无人机覆盖大面积光伏板,这使训练过程变得复杂,导致YOLO算法难以准确检测图像中的小型目标。YOLOv8的两次初始训练(图S3)就体现了这一点:为优先考虑批次大小和模型复杂度等其他参数,显著减小了图像尺寸。尽管所有训练的精确率均超过85%,但前两次训练的召回率明显较低,仅为50%。

这一差异尤为值得关注,因为测试结果表明算法无法有效检测鸟粪(图7(a)):仅识别出脏污板,未区分鸟粪本身,仅检测到靠近无人机且尺寸明显更大的光伏板上的鸟粪。图像尺寸的大幅减小导致鸟粪仅由少数像素表示,这体现了算法在识别图像中小型目标方面的固有挑战。相反,使用原始图像尺寸进行的训练,召回率超过90%,图7(b)证实,使用原始图像尺寸训练提取的权重,成功检测到了所有鸟粪。图7©展示了使用"热点"数据集原始图像尺寸训练的权重的测试结果,该模型能有效检测到温度显著偏差的区域。

尽管存在这些挑战,YOLOv5和YOLO-NAS仍表现出卓越的性能,其精确率和召回率指标显著更高,表明它们在检测小型目标方面具有鲁棒性。结果强调了优化模型参数和为特定任务(如检测无人机拍摄图像中的小型目标)选择合适配置的重要性。总体而言,YOLOv5和YOLO-NAS处理"鸟粪"数据集复杂性的能力,凸显了它们在类似实际场景(小型目标检测至关重要)中的潜在适用性。

研究表明,鸟类排便时通常会同时排尿,因此即使检测到单块光伏板上有一个鸟粪,也需要全面清洁整块光伏板[49]。这种主动清洁方法确保去除所有鸟粪(包括可能被模型遗漏的0.137%)------清洁整块光伏板时,这些遗漏的鸟粪也会被清除。通过彻底清洁每块光伏板,可维持太阳能装置的效率和寿命,最大限度地减少残留鸟粪造成的潜在损坏,并优化能源产出。此外,这种预防性维护策略有助于降低腐蚀、染色和阳光透射率降低的风险,从而最大化光伏板阵列的整体性能和投资回报。

YOLOv5(较旧的YOLO版本)的卓越性能可归因于多个因素:数据集的结构和内容对每个模型的性能至关重要,在不同数据集上运行相同的参数集可能会产生完全不同的结果,这表明每个数据集都有其最优参数集,必须通过优化过程确定;此外,参数选择可能受到可用计算资源的限制,这一约束会影响较新YOLO版本的性能------这些版本通常包含更多卷积神经层,以提升检测精度和鲁棒性,使用更复杂的骨干网络训练这些模型时,通常需要使用更简化的参数集以避免内存问题,这一限制可能会阻碍最新YOLO版本的潜在性能,使其无法超越前代模型。

3.4 "热点"数据集上的YOLO模型优化

各YOLO模型的优化网络在"热点"数据集上的对比表明,没有哪个版本在所有指标上始终优于其他版本,这表明每个模型都有其表现最佳的特定场景或条件。因此,最优YOLO模型的选择应根据数据集的具体要求和特征,以及与任务最相关的评估标准进行定制。

在精确率和召回率方面表现最优的两个版本是YOLOv8和YOLO-NAS:YOLO-NAS实现了最高的精确率(最终达99.999%)和99.083%的召回率;YOLOv8的召回率更高,达99.405%,精确率为97.772%。每个模型在不同训练中实现了最高的精确率和召回率,这证实了优化这些指标时的固有权衡------提升一个指标往往会导致另一个指标下降。

研究结果表明,不同的YOLO版本实现了最有利的结果,这支持了每个模型根据数据集表现出不同行为的观察结论。这强调了根据每个数据集的具体特征和要求选择和优化模型的重要性。与其他模型相比,YOLO-NAS在mAP@0.5:0.95指标上始终取得最高结果,表明其在平衡精确率和召回率的目标检测方面表现卓越,即使在具有挑战性的数据集上也是如此。在两个数据集上,YOLO-NAS的表现始终位居前两名,这一稳健性能表明其特别适用于各种目标检测任务,在准确性和计算效率之间实现了可靠的平衡。

表2总结了每个模型的最高指标结果,值得注意的是,所有模型的最高精确率、召回率和平均精度均值(mAP)均通过不同的参数组合实现,这表明每个模型都有多个权重包。例如,YOLOv7有两个不同的参数集可用于实现最优结果:第一个(YOLOv7_4,见图5)产生最高的精确率结果,第二个(YOLOv7_2)产生最高的召回率结果。因此,应根据具体应用需求选择最优模型和最合适的权重包,以实现所需的最高指标结果。

表2 各模型的最高指标结果总结

模型 数据集 精确率(P) 召回率(R) mAP@0.5 mAP@0.5:0.95
YOLOv5 鸟粪 99.689% 99.863% 99.401% 79.953%
YOLOv7 鸟粪 97.810% 98.320% 99.190% 72.750%
YOLOv8 鸟粪 97.817% 97.682% 98.703% 75.622%
YOLO-NAS 鸟粪 98.440% 97.494% 99.271% 97.809%
YOLOv9 鸟粪 95.866% 95.118% 96.517% 71.650%
YOLOv5 热点 98.883% 99.296% 99.323% 80.404%
YOLOv7 热点 97.090% 93.120% 96.940% 70.540%
YOLOv8 热点 97.772% 99.405% 99.142% 78.888%
YOLO-NAS 热点 99.999% 99.083% 98.750% 98.102%
YOLOv9 热点 97.741% 95.183% 97.256% 75.137%

3.5 与现有先进技术的对比分析

如前所述,表1显示ResNet-50和MobileNet表现出优异的性能指标,因此适合作为对比基准。本研究选择这两种算法,评估所训练的YOLO网络在"热点"和"鸟粪"两个自定义数据集上的性能,并对比分析YOLO网络应对这些数据集特定挑战的有效性,以及它们在准确性、效率和适应性方面相对于ResNet-50和MobileNet的表现。

在"热点"数据集上,ResNet50的检测准确性较高,mAP@0.5达98.33%,MobileNet的mAP@0.5为96.02%;"鸟粪"数据集的结果类似,ResNet50的mAP@0.5达97.61%,MobileNet达93.45%。这些结果表明,两种架构都能检测异常,但YOLO在mAP和计算效率方面始终表现更优。

研究结果凸显了YOLO在平衡准确性和实时推理能力方面的优势,使其特别适用于需要快速可靠异常检测的应用场景(如光伏板检测)。此外,YOLO在不同数据集上表现出的稳健性,强调了其多功能性和在实际场景中广泛应用的潜力。该分析证实了所提方法的有效性,并支持将其作为现有先进技术的有力替代方案。

初步结果表明,ResNet-50和MobileNet在两个数据集上的训练表现与YOLO网络相当,但这些模型未针对"热点"和"鸟粪"数据集的具体特征和复杂性进行全面优化,因此难以达到与YOLO网络相同的准确性和效率------YOLO网络专为实时目标检测任务设计。为提升ResNet-50和MobileNet在此特定应用中的性能,可能需要进一步优化(包括超参数调优和架构调整)。

此外,值得注意的是,与YOLO相比,ResNet-50和MobileNet的训练和推理速度更快,但这些算法需要更复杂的数据集结构才能实现有效训练,这可能会增加额外的预处理开销。这种速度与数据集复杂性之间的权衡,是选择特定用例模型时的重要考虑因素,尤其是在平衡实时检测需求与简化数据准备需求时。

4 结论与未来工作

本研究对多个YOLO模型在两个自定义数据集上的应用结果进行了系统对比。数据集通过无人机采集多个光伏系统的航拍图像创建,旨在训练目标检测算法准确识别热点和鸟粪。研究结果表明,应根据具体应用需求和约束选择不同的模型及相应的权重包。该方法为评估光伏电站每块光伏板的热、电和物理状况提供了可靠手段,从而能够及时识别和处理由热点和鸟粪局部遮挡导致的光伏板故障。

研究结果展示了YOLO模型的泛化潜力,强调了其在不同条件下各种光伏电站环境中的适应性和稳健性。利用先进的目标检测和分类能力,这些模型能成功检测不同电站中的热点和鸟粪等异常,不受环境因素、相机参数或飞行参数变化的影响。本研究开发的方法和见解(包括超参数优化和自定义数据集的使用)提供了可扩展的框架,可应用于其他光伏电站。这种适应性确保YOLO模型即使在不同运行场景下部署,也能保持高准确性和效率,使其成为可再生能源领域监测和维护的宝贵工具。

YOLOv5模型表现卓越,在"鸟粪"数据集上的mAP@0.5达99.4%,在"热点"数据集上达99.3%。尽管是所考察的最旧版本,但YOLOv5在mAP@0.5方面始终优于后续版本,凸显了其在以极高准确性识别小型目标方面的有效性。相反,YOLOv8在"热点"数据集上的召回率最高,达99.4%,体现了其准确识别该类别目标的能力。两个数据集都面临独特的挑战,主要与处理极小目标相关,需要模型调整检测机制以有效捕捉细微细节。研究结果凸显了YOLO模型在应对复杂检测任务方面的稳健性,并揭示了YOLOv5在针对特定数据集微调时的持久优势。结果强调了战略参数优化和网络架构在实现卓越精确率和召回率方面的重要性,尤其是在涉及具有挑战性的目标尺寸和类型的应用中。

本研究为开发多目标优化程序奠定了基础,该程序可根据应用需求选择最合适的YOLO模型和权重包[50,51]。多目标优化将在多个实际场景中进行研究,旨在降低端到端复杂性、节约资源,同时保持可接受的分类性能。热点和积尘检测的多目标优化可尝试同时优化所有已确定的目标(例如,降低无人机运行功率、降低边缘和其他位置的模型复杂性、最大化检测准确性);此外,不同的优化变体可能涉及优化一个目标,同时保持其他目标的可接受性能(这些目标成为约束条件),例如,在使用轻量检测/分类模型(约束条件可为训练时间或推理时间)且准确率超过90%的情况下,最大化无人机运行功率(即最大化飞行时间)。

对YOLO模型与ResNet-50和MobileNet两种额外算法的对比分析,揭示了它们各自的优势和局限性。尽管ResNet-50和MobileNet在自定义数据集上表现出相当的准确性,但在用于无人机光伏电站检测所需的实时目标检测任务之前,还需要进一步优化。此外,这些算法需要更复杂的数据集结构才能实现有效训练,这会增加预处理开销。相反,YOLO模型在准确性和实时性能之间实现了更优的平衡,使其特别适用于速度和效率至关重要的应用场景。该对比凸显了YOLO模型的多功能性和更优的适应性,进一步证实了其作为光伏系统监测目标检测首选方案的合理性。

未来工作可包括:在相同数据集上训练其他多种检测算法,对比它们与YOLO算法在识别光伏系统热点和鸟粪方面的性能,该对比分析可能会深入了解不同算法的相对优势和局限性,潜在地提升检测准确性和稳健性;探索深度学习技术的最新进展(如基于Transformer的模型或混合方法),进一步增强有效检测和分类这些问题的能力;通过纳入不同时段和不同天气条件下拍摄的图像来扩充数据集,提升模型在更广泛环境场景中的泛化能力,从而增强其稳健性和准确性------纳入不同的光照条件、天气模式和季节变化,使数据集更准确地反映实际场景,进而实现更可靠、更多功能的光伏系统热点和鸟粪检测;最后,应创建一个新的自定义数据集,专门用于区分清洁光伏板和积尘光伏板,该数据集应包含多种积尘水平和灰尘类型,使算法能有效识别和评估光伏板上与灰尘相关的问题,这类数据集的创建将提升监测和维护光伏板清洁度的能力,从而优化系统性能和寿命。

相关推荐
CV炼丹术3 小时前
AAAI 2026|港科大等提出ReconVLA:利用视觉重构引导,刷新机器人操作精度!(含代码)
论文阅读·计算机视觉·重构·机器人·aaai 2026
清风er3 小时前
智能座舱开发
算法·计算机视觉
却道天凉_好个秋3 小时前
OpenCV(二十四):图像滤波
人工智能·opencv·计算机视觉
知忆_IS4 小时前
【问题解决】Label Studio上传文件数量超限解决方案
python·目标检测·label studio
leiming64 小时前
ResNetLayer 类
人工智能·神经网络·计算机视觉
AI科技星5 小时前
宇宙膨胀速度的光速极限:基于张祥前统一场论的第一性原理推导与观测验证
数据结构·人工智能·经验分享·python·算法·计算机视觉
Evand J6 小时前
【MATLAB例程】二维平面上,三个雷达对一个目标跟踪,输出观测平均与UKF滤波两种算法的结果对比,附下载链接
matlab·平面·目标跟踪·滤波·卡尔曼滤波
CoovallyAIHub7 小时前
让Qwen-VL的检测能力像YOLO一样强,VLM-FO1如何打通大模型的视觉任督二脉
深度学习·算法·计算机视觉
CoovallyAIHub7 小时前
突破跨模态识别瓶颈!火箭军工程大学提出MFENet:让AI在白天黑夜都能准确识人
深度学习·算法·计算机视觉