导读
输电线路绝缘子缺陷检测是电网巡检的关键任务,但复杂光照、小目标、遮挡等场景下传统方法误检漏检率高。
国网甘肃省电力公司天水供电公司联合团队提出 CWSP-YOLO,基于YOLOv11改进,融合可见光与红外双模态,引入跨模态协同感知、小波优化C3k2、通道注意力及PIoU v2动态梯度优化。在自建数据集上,模型取得了84.77%的mAP50、94.53%的精度、82.38%的召回率,实时检测速度达24 FPS,在Jetson Orin Nano边缘设备上仍可达到约9 FPS,为无人机电力巡检提供了高精度、轻量化的解决方案。
论文信息
-
标题:Aerial insulator defect detection method based on CWSP-YOLO
作者:Zhenjun Du, Yixin Geng, Hucheng Wang, Hengchang Zhang, Yanjun Hu
-
机构:国网甘肃省电力公司天水供电公司
-
发表:Scientific Reports (Nature)
一、绝缘子缺陷检测的挑战与多模态必要性
输电线路绝缘子表面缺陷(裂纹、破损、污秽)若未及时发现,易引发闪络、停电等严重事故。传统基于可见光的自动检测在复杂光照、小目标、遮挡场景下误检漏检率高。红外成像能反映异常发热,但分辨率低、细节模糊。单模态数据难以覆盖复杂工况。
为此,本文提出CWSP-YOLO,融合可见光与红外双模态特征,实现优势互补,提升缺陷检测鲁棒性。
二、CWSP-YOLO核心改进
CWSP-YOLO基于YOLOv11架构,在骨干网络、颈部网络、检测头三方面进行改进,整体框架如图1所示。

图片来源于原论文
2.1 跨模态融合Transformer (CFT)
CFT模块用于融合RGB和热红外特征。流程如下:
-
将两种模态的特征图下采样到8×8,展平并拼接成序列,加入可学习位置编码。
-
通过多头自注意力(MHSA)计算跨模态和模态内注意力权重。
-
经残差连接与上采样,将融合后的特征加回原始特征图,增强目标区域显著性。
该模块解决了传统方法只能处理单模态或融合层次浅的问题,实现了中期深度融合。
2.2 小波优化C3k2 (WC3k2)
为降低计算量同时保留细节,对C3k2模块引入Haar小波变换:
-
将输入特征分解为低频(全局轮廓)和高频(细节边缘)子带。
-
对不同频带分别进行卷积处理,有效抑制背景噪声。
-
通过逆小波变换重组特征,保留原始信息的关键特征。
该设计增强了模型对复杂环境及多角度目标的适应性。
2.3 SE通道注意力模块
在颈部网络嵌入Squeeze-and-Excitation (SE)注意力:
-
压缩:全局平均池化汇聚空间信息。
-
激励:两个全连接层(降维比例16)学习通道权重,经Sigmoid归一化。
-
重标定:将权重乘回原始特征,强化关键通道,抑制无关特征。
SE模块提升了复杂背景干扰下的绝缘子识别精度。
2.4 PIoU v2损失函数
原YOLOv11使用CIoU损失,存在梯度不稳定、锚框无意义膨胀等问题。本文采用PIoU v2:
-
引入目标尺寸自适应惩罚因子,根据目标框大小动态调整。
-
非单调注意力机制优化不同质量锚框的梯度权重。
-
改善收敛速度和检测精度。
公式定义见原文(1)-(6),其中注意力函数参数l=1.3。
三、数据集与训练配置
3.1 数据集构建
数据由搭载多模态相机的无人机实地采集:
-
可见光分辨率3840×2160,红外分辨率640×512。
-
有效拍摄距离5-10米,FOV 82°,工作温度-30~50°C。
-
原始图像1143张,包含4类:正常/缺陷的针式绝缘子、盘式绝缘子。有效缺陷样本224个(过热、自爆、破损等)。
-
数据增强:旋转(±30°)、随机裁剪(0.8-1.2)、亮度调整(±20%)、高斯噪声(σ=0.05),最终扩增至5000张。采用K-Fold交叉验证以8:1:1划分训练/验证/测试集。

图片来源于原论文
3.2 训练参数
-
输入尺寸:640×640
-
批量大小:64
-
权重衰减:0.0005,动量:0.9
-
迭代次数:5000
-
学习率策略:前3000次0.01,3000-4500次衰减至0.002,最后500次为0.0002
-
卷积核:3×3,步长2
-
SE降维比例:16
-
训练时长:单张RTX 4090约6小时,损失收敛至0.23
四、实验结果与关键数据
4.1 单模态 vs 多模态对比
| 模型 | mAP50 (%) | 精度 (%) | 召回 (%) | FPS |
|---|---|---|---|---|
| 仅RGB | 76.18 | 55.85 | 88.54 | 78.18 |
| 仅IR | 73.25 | 51.26 | 84.28 | 75.26 |
| RGB+IR (CWSP-YOLO) | 84.77 | 61.15 | 94.53 | 82.38 |
多模态相比单RGB,mAP提升8.59%,精度提升5.3%,召回提升5.99%,速度略有下降但保持实时。
4.2 消融实验
| 实验 | CFT | WC3k2 | SE | PIoU v2 | mAP50 | 精度 | 召回 | FPS |
|---|---|---|---|---|---|---|---|---|
| 1(YOLOv11基线) | × | × | × | × | 77.92 | 54.56 | 86.22 | 71.71 |
| 2 | √ | × | × | × | 82.47 | 59.88 | 92.02 | 81.34 |
| 3 | × | √ | × | × | 81.56 | 58.15 | 91.04 | 79.23 |
| 4 | × | × | √ | × | 81.18 | 59.43 | 91.57 | 80.17 |
| 5 | × | × | × | √ | 79.31 | 55.12 | 87.05 | 76.48 |
| 12(完整) | √ | √ | √ | √ | 84.77 | 61.15 | 94.53 | 82.38 |
-
单独添加CFT提升最显著(mAP↑4.55%)。
-
PIoU v2单独提升有限,但与其他模块组合效果增强。
-
完整模型相比基线:mAP提高7.79%,精度提高9.63%,召回提高13.07%,FPS提高2帧/秒。
4.3 横向对比
| 模型 | mAP50 | 精度 | 召回 | FPS |
|---|---|---|---|---|
| RetinaNet | 73.45 | 50.26 | 82.36 | 70.64 |
| Faster RCNN | 74.45 | 54.32 | 83.47 | 70.13 |
| RT-DETR | 80.16 | 60.88 | 88.53 | 74.69 |
| YOLOv5 | 62.43 | 41.19 | 71.78 | 60.37 |
| YOLOv8 | 65.83 | 46.43 | 74.69 | 61.56 |
| YOLOv9 | 73.66 | 55.23 | 78.15 | 66.58 |
| YOLOv11 | 77.92 | 59.18 | 86.22 | 71.71 |
| YOLOv13 | 82.15 | 59.98 | 90.18 | 79.78 |
| ME-YOLO | 79.32 | 58.45 | 91.07 | 77.52 |
| BPP-YOLO | 76.89 | 55.63 | 89.42 | 75.84 |
| ACFI-YOLO | 82.56 | 60.72 | 93.28 | 81.15 |
| CWSP-YOLO | 84.77 | 61.15 | 94.53 | 82.38 |
CWSP-YOLO在mAP、精度、召回上均超越YOLOv13、ACFI-YOLO等最新模型,FPS与YOLOv11持平。
4.4 边缘设备部署
| 平台 | 预处理 | 骨干 | 颈部 | 头部 | NMS | 总耗时 | FPS |
|---|---|---|---|---|---|---|---|
| RTX 4090 | 1.5 | 5.8 | 12.5 | 4.8 | 7.0 | 41.6 ms | 24 |
| Jetson Orin Nano | 4.3 | 49.2 | 37.8 | 14.5 | 9.3 | 111.1 ms | ~9 |
在边缘设备上仍可达到约9 FPS,满足工程实用需求。
4.5 混淆矩阵
| 真实\预测 | 缺陷(预测) | 正常(预测) |
|---|---|---|
| 缺陷(真实) | TP=173 | FN=37 |
| 正常(真实) | FP=10 | TN=280 |
-
真阳性173,假阴性37(漏检),假阳性10(误检),真阴性280。
-
缺陷召回率 = 173/(173+37)=82.38%,精度 = 173/(173+10)=94.53%,与前述一致。

图片来源于原论文
五、总结与展望
核心贡献:
-
跨模态中期融合:CFT模块有效结合可见光与红外特征,在低分辨率红外图像上仍能捕捉发热异常。
-
小波多尺度细节增强:WC3k2模块分离高低频,提升小缺陷检测灵敏度。
-
注意力与损失优化:SE注意力强化关键通道,PIoU v2加速收敛、减少无效锚框。
-
实时性与边缘部署:24 FPS (RTX 4090) 和 ~9 FPS (Jetson Orin Nano) 满足无人机巡检要求。
改进机理:
-
SE注意力通过压缩-激励-重标定,降低复杂背景误检。
-
小波分解将微小缺陷特征集中于高频分量,增强模型感知能力。
局限与未来方向:
-
数据因商业保密和电网安全限制无法公开,但可按需提供处理后的摘要数据。
-
未来可探索更轻量的融合策略,以及适应更多样化缺陷类型。
该研究为无人机电力巡检提供了高精度、强鲁棒的实时检测方案。

