Energies | 8版YOLO对8版Transformer实测光伏缺陷检测，RF-DETR-Small综合胜出

导读

大型光伏电站中，一块面板出现热斑或裂纹，肉眼难以在数千块面板中定位它。无人机搭载热红外相机的巡检方案已成为行业标配，但拍下来的热图交给哪个检测模型更合适？YOLO 系列以速度见长，Transformer 检测器以精度著称，二者在光伏缺陷这一特定场景下究竟差多少？

本文介绍的这篇论文给出了一份系统的实测答案：研究团队在同一个包含 8 类缺陷的光伏热成像数据集上，用统一训练协议对 YOLOv5 到 YOLOv12 共 8 个 YOLO 版本以及 RT-DETR、RT-DETRv2、RF-DETR 共 8 个 Transformer 变体进行了全面对比。

结果显示，RF-DETR-Small 和 RT-DETRv2_R18vd 在 mAP@0.5 上并列最高，RF-DETR-Small 跨类别一致性最好（STD 最低），在另一座电站的未见数据上仍保持 F1-score 82.18%，被论文推荐为精度、速度与稳健性综合最优的模型。

论文信息

标题：Comparative Evaluation of YOLO- and Transformer-Based Models for Photovoltaic Fault Detection Using Thermal Imagery
作者：Mahdi Shamisavi, Isaac Segovia Ramirez*, Carlos Quiterio Gómez Muñoz
机构：西班牙马德里自治大学
日期：2026 年 2 月 5 日
DOI ：doi.org/10.3390/en1...

一、光伏面板会出哪些故障，为什么需要 AI 检测？

光伏（PV）面板是可再生能源发电的主力，占全部可再生能源发电量的约四分之三。然而面板在生产、运输、安装和运行过程中会出现多种缺陷，轻则降低发电效率，重则引发火灾。论文将光伏缺陷归纳为五大类：

缺陷大类	成因概述	子类别
结构缺陷	制造、运输、安装中的机械应力及温度变化	微裂纹和大裂纹、分层、表面损伤、气泡变形
电气缺陷	非接地系统中的杂散电流、串联互连断裂、焊接质量差	潜在诱导退化（PID）、母线互连故障
热缺陷	模组遮挡、电池失配、二极管故障、封装损坏等导致温度异常	热斑（Hotspots）
覆盖缺陷	建筑物、树木、云层遮挡及沙尘暴；被覆盖的电池升温形成热斑	部分遮挡、灰尘积累
退化缺陷	长期暴露于湿度、紫外线辐射和极端温度	黄变/变色、光致退化

其中覆盖缺陷导致的能量损失可达 15-20%。传统检测手段包括电气参数测量和图像处理，而基于 AI 的检测属于无损检测（Non-Destructive Testing），可通过无人机（UAV）搭载热红外相机大规模自动巡检。当前的核心挑战在于：数据集标注耗时、类别不平衡，且大模型对边缘设备的算力要求高，因此需要找到精度与效率兼顾的轻量级方案。

二、16 个模型、统一协议：如何设计公平对比？

对比的两大架构家族

论文选取了 16 个轻量级模型变体，分属两大架构家族：

YOLO 系列（8 个版本） ：YOLOv5s、YOLOv6、YOLOv7、YOLOv8s、YOLOv9、YOLOv10、YOLOv11s、YOLOv12

Transformer 系列（8 个变体） ：

RT-DETR（Real-Time DETR）：R18vd、R34vd、R50vd 三种骨干
RT-DETRv2：R18vd、R34vd、R50vd 三种骨干
RF-DETR：Nano、Small 两个规模

数据集：8 类光伏热成像缺陷

实验使用 Thermal Solar PV Anomaly Detection Dataset ，包含 7500 张灰度热红外图像，分辨率 640 × 640 像素，通过数据增强技术生成，涵盖 8 个缺陷类别：

缩写	全称	含义
MBP	MultiByPassed	多旁路
MD	MultiDiode	多二极管故障
MHS	MultiHotSpot	多热斑
SBP	SingleByPassed	单旁路
SD	SingleDiode	单二极管故障
SHS	SingleHotSpot	单热斑
SOC	StringOpenCircuit	串联开路
SRP	StringReversedPolarity	串联反极性

类别间存在显著不平衡：SHS 类别图像最多 （约 7.6K 张图像、3.1K 个实例），SRP 类别最少（约 110 张图像、124 个实例）。在目标尺寸上，SRP 的平均边界框面积最大（约 74.8K 平方像素），SHS 最小（约 1.9K 平方像素）。

统一训练配置

所有模型在同一硬件（NVIDIA A30-1-6C MIG 1g.6 GB GPU）上训练 100 epochs，验证集占比约 10%，随机种子固定为 0。YOLO 系列使用 SGD 优化器（学习率 0.01，batch size 8），Transformer 系列统一使用 AdamW 优化器（学习率 0.0001），batch size 因显存限制在 1-2 之间。

三、Transformer 整体精度更高，YOLO 推理速度更快

精度与速度总览

论文以 mAP@0.5、mAP@0.5:0.95、推理时间三个维度进行综合对比，主要发现：

精度方面：

RF-DETR-Small 和 RT-DETRv2_R18vd在 mAP@0.5 上并列最高
RT-DETRv2_R18vd在 mAP@0.5:0.95 上取得最高分，表明其预测框与真实框的对齐精度更好
Transformer 模型整体 mAP@0.5 高于 YOLO 模型

推理速度方面：

YOLOv5、YOLOv8、YOLOv10、YOLOv11推理速度最快
RF-DETR-Small 推理时间约 23 ms ，RT-DETRv2_R18vd 约 24 ms
最慢的是 RT-DETR_R50vd（约 50.57 ms ）和 RT-DETRv2_R50vd（约 44.44 ms）

值得注意的趋势：RT-DETRv2 相比 RT-DETR v1，在保持相近精度的同时实现了更低的推理时间。RF-DETR 系列在 Transformer 阵营中推理时间最短，同时保持了较高的 mAP@0.5。

图片来源于原论文

Precision、Recall 与 F1 对比

F1-score 最高 ：RT-DETRv2_R34vd 和 RF-DETR-Small并列，二者在精确率与召回率之间达到了最好的平衡
Precision 最高：RT-DETR_R50vd、RT-DETRv2_R18vd 和 RF-DETR-Small，预测更准确、误检更少，但 Recall 偏低
Recall 最高：RT-DETRv2_R34vd，对真实缺陷的检出能力最强

对于光伏巡检，漏检一个热斑可能带来安全隐患，因此高 Recall 的模型（如 RT-DETRv2_R34vd）在安全优先场景中值得优先考虑。

四、消融实验：哪类缺陷最难检、哪种尺寸最敏感？

4.1 各缺陷类别的检测精度

以下是 8 个 Transformer 变体在各缺陷类别上的 AP@0.5：

模型	MBP	MD	MHS	SBP	SD	SHS	SOC	SRP
RT-DETR_R18vd	0.899	0.467	0.767	0.916	0.768	0.815	0.776	0.538
RT-DETR_R34vd	0.943	0.483	0.799	0.927	0.803	0.812	0.811	0.583
RT-DETR_R50vd	0.929	0.475	0.783	0.930	0.796	0.801	0.816	0.586
RT-DETRv2_R18vd	0.918	0.593	0.806	0.931	0.813	0.798	0.838	0.602
RT-DETRv2_R34vd	0.889	0.552	0.823	0.927	0.818	0.814	0.787	0.588
RT-DETRv2_R50vd	0.939	0.464	0.786	0.935	0.819	0.808	0.805	0.675
RF-DETR-Nano	0.921	0.560	0.758	0.914	0.732	0.796	0.803	0.704
RF-DETR-Small	0.897	0.586	0.778	0.915	0.768	0.791	0.824	0.756

关键发现：

最容易检测的类别是 SBP（SingleByPassed），各模型 AP@0.5 均在 0.91 以上，平均约 0.92
最难检测的类别是 MD（MultiDiode），AP@0.5 最低仅 0.464（RT-DETRv2_R50vd），最高也只有 0.593（RT-DETRv2_R18vd）
各缺陷类别从难到易排序：MD、SRP、MHS、SD、SHS、SOC、MBP、SBP
样本量较少的 MD 和 SRP 检测难度更大，可能与数据集不平衡有关

图片来源于原论文

4.2 跨类别一致性（STD 分析）

各模型 mAP@0.5 的标准差（STD）反映其在不同类别间的性能波动：

RF-DETR-Small 的 STD 最低，各类别得分最接近其整体 mAP@0.5，表现最为一致
RF-DETR-Nano 虽然 mAP@0.5 低于 RT-DETRv2_R18vd，但 STD 也更低，说明它在各类别间的表现更均匀

当两个模型 mAP 相近时，STD 更低的模型更适合需要稳定检测各类缺陷的场景。

4.3 不同目标尺寸的检测性能

论文将目标按边界框面积分为三类：小目标 （0 至 32 × 32 像素）、中目标 （32 × 32 至 96 × 96 像素）、大目标（96 × 96 像素以上）。

小目标 ：RT-DETRv2_R18vd表现最好。论文分析认为，其较小的骨干网络保留了更多特征细节，减少了下采样的破坏性影响；RT-DETRv2 架构将尺度内注意力（intra-scale attention）与跨尺度融合（cross-scale fusion）解耦，防止小目标特征在融合过程中被淹没
中目标 ：RT-DETRv2_R18vd同样表现突出，RT-DETR_R18vd 和 RT-DETRv2_R34vd 在该尺寸上表现较弱
大目标 ：RF-DETR-Small表现最佳。论文指出，RF-DETR 基于 NAS（神经架构搜索）的设计提供了较大的有效感受野和尺度感知特征融合，更适合捕获大目标所需的粗粒度高层特征
RF-DETR-Small 在小目标检测上相对较弱

图片来源于原论文

4.4 泛化验证：在未见电站数据上的测试

论文选取综合表现最均衡的 RF-DETR-Small，在来自另一座光伏电站 的 84 张红外图像上进行了泛化测试。这些图像在训练和验证阶段均未出现过，拍摄条件与训练数据不同。测试时将所有缺陷类别合并为"有缺陷"和"无缺陷"两类：

指标	数值
Precision	84.56%
Recall	79.93%
F1-score	82.18%

从检测示例来看，RF-DETR-Small 在未见图像上能够准确检测和定位 SingleHotSpot 和 MultiHotSpot 缺陷，验证了该模型在不同运行环境下的可靠性。

图片来源于原论文

五、总结与思考

论文核心结论：Transformer 整体精度优于 YOLO，但推理更慢 。综合精度、速度和跨类别一致性，RF-DETR-Small 是较为均衡的选择（mAP@0.5 最高梯队，推理约 23 ms，STD 最低）；追求极致速度可选 YOLOv5 或 YOLOv10；需要高定位精度和小目标检测则选 RT-DETRv2_R18vd。

这篇论文的价值在于为光伏缺陷检测提供了一份统一条件下的横向对比基准，此前该领域多集中在改进单一模型。局限性方面：

数据集类别不平衡：SRP 仅约 110 张 vs. SHS 约 7600 张，影响小样本类别评估的公平性
泛化测试规模小：84 张图像，且只做了合并类别评估，多类别泛化能力有待验证
边缘部署未验证：实验使用服务器级 GPU（NVIDIA A30），RF-DETR-Small 约 23 ms（约 43 FPS）在边缘设备上的表现尚未测试

论文建议未来引入 few-shot/zero-shot 架构和数据平衡策略，这两个方向对标注稀缺的新电站场景有实际意义。