国网团队提出CWSP-YOLO：多模态融合绝缘子缺陷检测，mAP 84.77%超越YOLOv13，Jetson边缘实时9FPS

导读

输电线路绝缘子缺陷检测是电网巡检的关键任务，但复杂光照、小目标、遮挡等场景下传统方法误检漏检率高。

国网甘肃省电力公司天水供电公司联合团队提出 CWSP-YOLO，基于YOLOv11改进，融合可见光与红外双模态，引入跨模态协同感知、小波优化C3k2、通道注意力及PIoU v2动态梯度优化。在自建数据集上，模型取得了84.77%的mAP50、94.53%的精度、82.38%的召回率，实时检测速度达24 FPS，在Jetson Orin Nano边缘设备上仍可达到约9 FPS，为无人机电力巡检提供了高精度、轻量化的解决方案。

论文信息

标题：Aerial insulator defect detection method based on CWSP-YOLO

作者：Zhenjun Du, Yixin Geng, Hucheng Wang, Hengchang Zhang, Yanjun Hu
机构：国网甘肃省电力公司天水供电公司
发表：Scientific Reports (Nature)

一、绝缘子缺陷检测的挑战与多模态必要性

输电线路绝缘子表面缺陷（裂纹、破损、污秽）若未及时发现，易引发闪络、停电等严重事故。传统基于可见光的自动检测在复杂光照、小目标、遮挡场景下误检漏检率高。红外成像能反映异常发热，但分辨率低、细节模糊。单模态数据难以覆盖复杂工况。

为此，本文提出CWSP-YOLO，融合可见光与红外双模态特征，实现优势互补，提升缺陷检测鲁棒性。

二、CWSP-YOLO核心改进

CWSP-YOLO基于YOLOv11架构，在骨干网络、颈部网络、检测头三方面进行改进，整体框架如图1所示。

图片来源于原论文

2.1 跨模态融合Transformer (CFT)

CFT模块用于融合RGB和热红外特征。流程如下：

将两种模态的特征图下采样到8×8，展平并拼接成序列，加入可学习位置编码。
通过多头自注意力（MHSA）计算跨模态和模态内注意力权重。
经残差连接与上采样，将融合后的特征加回原始特征图，增强目标区域显著性。

该模块解决了传统方法只能处理单模态或融合层次浅的问题，实现了中期深度融合。

2.2 小波优化C3k2 (WC3k2)

为降低计算量同时保留细节，对C3k2模块引入Haar小波变换：

将输入特征分解为低频（全局轮廓）和高频（细节边缘）子带。
对不同频带分别进行卷积处理，有效抑制背景噪声。
通过逆小波变换重组特征，保留原始信息的关键特征。

该设计增强了模型对复杂环境及多角度目标的适应性。

2.3 SE通道注意力模块

在颈部网络嵌入Squeeze-and-Excitation (SE)注意力：

压缩：全局平均池化汇聚空间信息。
激励：两个全连接层（降维比例16）学习通道权重，经Sigmoid归一化。
重标定：将权重乘回原始特征，强化关键通道，抑制无关特征。

SE模块提升了复杂背景干扰下的绝缘子识别精度。

2.4 PIoU v2损失函数

原YOLOv11使用CIoU损失，存在梯度不稳定、锚框无意义膨胀等问题。本文采用PIoU v2：

引入目标尺寸自适应惩罚因子，根据目标框大小动态调整。
非单调注意力机制优化不同质量锚框的梯度权重。
改善收敛速度和检测精度。

公式定义见原文(1)-(6)，其中注意力函数参数l=1.3。

三、数据集与训练配置

3.1 数据集构建

数据由搭载多模态相机的无人机实地采集：

可见光分辨率3840×2160，红外分辨率640×512。
有效拍摄距离5-10米，FOV 82°，工作温度-30~50°C。
原始图像1143张，包含4类：正常/缺陷的针式绝缘子、盘式绝缘子。有效缺陷样本224个（过热、自爆、破损等）。
数据增强：旋转(±30°)、随机裁剪(0.8-1.2)、亮度调整(±20%)、高斯噪声(σ=0.05)，最终扩增至5000张。采用K-Fold交叉验证以8:1:1划分训练/验证/测试集。

图片来源于原论文

3.2 训练参数

输入尺寸：640×640
批量大小：64
权重衰减：0.0005，动量：0.9
迭代次数：5000
学习率策略：前3000次0.01，3000-4500次衰减至0.002，最后500次为0.0002
卷积核：3×3，步长2
SE降维比例：16
训练时长：单张RTX 4090约6小时，损失收敛至0.23

四、实验结果与关键数据

4.1 单模态 vs 多模态对比

模型	mAP50 (%)	精度 (%)	召回 (%)	FPS
仅RGB	76.18	55.85	88.54	78.18
仅IR	73.25	51.26	84.28	75.26
RGB+IR (CWSP-YOLO)	84.77	61.15	94.53	82.38

多模态相比单RGB，mAP提升8.59%，精度提升5.3%，召回提升5.99%，速度略有下降但保持实时。

4.2 消融实验

实验	CFT	WC3k2	SE	PIoU v2	mAP50	精度	召回	FPS
1(YOLOv11基线)	×	×	×	×	77.92	54.56	86.22	71.71
2	√	×	×	×	82.47	59.88	92.02	81.34
3	×	√	×	×	81.56	58.15	91.04	79.23
4	×	×	√	×	81.18	59.43	91.57	80.17
5	×	×	×	√	79.31	55.12	87.05	76.48
12(完整)	√	√	√	√	84.77	61.15	94.53	82.38

单独添加CFT提升最显著（mAP↑4.55%）。
PIoU v2单独提升有限，但与其他模块组合效果增强。
完整模型相比基线：mAP提高7.79%，精度提高9.63%，召回提高13.07%，FPS提高2帧/秒。

4.3 横向对比

模型	mAP50	精度	召回	FPS
RetinaNet	73.45	50.26	82.36	70.64
Faster RCNN	74.45	54.32	83.47	70.13
RT-DETR	80.16	60.88	88.53	74.69
YOLOv5	62.43	41.19	71.78	60.37
YOLOv8	65.83	46.43	74.69	61.56
YOLOv9	73.66	55.23	78.15	66.58
YOLOv11	77.92	59.18	86.22	71.71
YOLOv13	82.15	59.98	90.18	79.78
ME-YOLO	79.32	58.45	91.07	77.52
BPP-YOLO	76.89	55.63	89.42	75.84
ACFI-YOLO	82.56	60.72	93.28	81.15
CWSP-YOLO	84.77	61.15	94.53	82.38

CWSP-YOLO在mAP、精度、召回上均超越YOLOv13、ACFI-YOLO等最新模型，FPS与YOLOv11持平。

4.4 边缘设备部署

平台	预处理	骨干	颈部	头部	NMS	总耗时	FPS
RTX 4090	1.5	5.8	12.5	4.8	7.0	41.6 ms	24
Jetson Orin Nano	4.3	49.2	37.8	14.5	9.3	111.1 ms	~9

在边缘设备上仍可达到约9 FPS，满足工程实用需求。

4.5 混淆矩阵

真实\预测	缺陷(预测)	正常(预测)
缺陷(真实)	TP=173	FN=37
正常(真实)	FP=10	TN=280

真阳性173，假阴性37（漏检），假阳性10（误检），真阴性280。
缺陷召回率 = 173/(173+37)=82.38%，精度 = 173/(173+10)=94.53%，与前述一致。

图片来源于原论文

五、总结与展望

核心贡献：

跨模态中期融合：CFT模块有效结合可见光与红外特征，在低分辨率红外图像上仍能捕捉发热异常。
小波多尺度细节增强：WC3k2模块分离高低频，提升小缺陷检测灵敏度。
注意力与损失优化：SE注意力强化关键通道，PIoU v2加速收敛、减少无效锚框。
实时性与边缘部署：24 FPS (RTX 4090) 和 ~9 FPS (Jetson Orin Nano) 满足无人机巡检要求。

改进机理：

SE注意力通过压缩-激励-重标定，降低复杂背景误检。
小波分解将微小缺陷特征集中于高频分量，增强模型感知能力。

局限与未来方向：

数据因商业保密和电网安全限制无法公开，但可按需提供处理后的摘要数据。
未来可探索更轻量的融合策略，以及适应更多样化缺陷类型。

该研究为无人机电力巡检提供了高精度、强鲁棒的实时检测方案。