（论文速读）基于DCP-MobileViT网络的焊接缺陷识别

论文题目：Welding defects recognition based on DCP-MobileViT network（基于DCP-MobileViT网络的焊接缺陷识别）

期刊： Journal of Intelligent Manufacturing （工程技术二区/Q1 # if = 7.4）

摘要：基于机器视觉的焊接缺陷识别为机器人弧焊提供了可靠的基础。但由于焊接图像噪声干扰严重、同一缺陷形态差异小、现场设备计算能力有限等因素，如何学习各种焊缝缺陷的可区分特征，如何利用轻量级网络提高缺陷识别的精度和模型的可泛化性，一直是一个挑战。因此，我们提出了一种焊接缺陷识别方法，通过设计一个新的DCP-MobileViT网络来解决这一挑战。首先，通过暗通道先验算法(Dark Channel Prior, DCP)得到去噪后的图像及其相应的传输映射，并作为该网络的两个输入;然后，设计双分支网络，通过卷积和变换机制自适应提取和融合两幅输入图像的特征信息;最后，使用来自不同焊接场景的数据集对所提出的DCP-MobileViT模型进行了测试，并与其他三种模型进行了比较。结果表明，与其他模型相比，DCP-MobileViTmodel的焊接缺陷识别精度更高，在不同焊接场景下具有良好的通用性。

基于DCP-MobileViT网络的焊接缺陷识别研究详解

一、研究背景与问题分析

1.1 焊接技术的重要性与挑战

焊接技术作为金属连接的关键技术，广泛应用于航空航天、汽车、造船等各个行业。尽管机器人弧焊已成为主流技术，但焊缝质量仍受多种因素影响，不可避免地会产生各种缺陷，如：

过度熔透（Excessive Penetration, EP）
焊接偏差（Welding Deviation, WD）
夹渣（Slag Inclusion, SI）
气孔（Porosity, PO）
未熔透（Incomplete Penetration, IP）

1.2 论文指出的三大核心问题

问题1：焊接图像的噪声干扰严重

焊接过程伴随着大量噪声干扰，典型的熔池图像包含：

焊炬（welding torch）
液滴过渡（droplet transfer）
熔池区域（molten pool region）
烟雾（smoke）
飞溅（spatter） ⚠️
弧光（arc light） ⚠️
光斑（light spot） ⚠️
其他物体

其中，飞溅、弧光和光斑是主要的干扰因素，影响图像质量，阻碍神经网络有效提取焊接缺陷特征。

现有方法的局限性：

空间滤波和数学形态学：易受弧光照明变化影响，难以可靠提取熔池边缘形状
Retinex算法：无法有效消除强弧光干扰
生成对抗网络（GAN）：虽然效果好，但实时性能有限

问题2：模型泛化能力不足

对于同一类型的焊接缺陷，在不同焊接工艺规范下，熔池形状存在细微差异。如何从未知数据集中识别最具区分性的缺陷特征，提高泛化能力是一个紧迫的挑战。

现有CNN方法的局限：

优先考虑局部特征而非全局特征
导致图像关键特征丢失
泛化能力较差

Transformer的潜力：

能够关注图像的全局特征
提取更全面的信息
Wang等人（2022）的研究表明，改进的ViT模型在焊接熔透状态识别中测试准确率达到98.11%

问题3：模型轻量化设计挑战

焊接过程中会捕获大量实时图像，但现场用于缺陷识别的存储空间和计算资源高度受限。

轻量级网络在焊接领域的研究现状：

Pan等人（2020）的TL-MobileNet模型：解决了样本不足导致的冗余分类问题，但容易混淆相似缺陷
Xiao等人（2023）改进的MobileNetV3：使用无监督学习技术提高分类准确率
Liu等人（2022）的3DSMADA-Net：模型大小可减少到原始模型的1/7，但对不平衡样本可能忽略少数样本的特征

二、创新点详解

2.1 核心创新：DCP-MobileViT网络

论文的核心贡献在于： 这是焊接缺陷识别领域首次同时解决噪声干扰消除和轻量级模型泛化增强两个问题，通过将Dark Channel Prior（DCP）算法嵌入基于卷积和transformer机制的轻量级MobileViT网络。

2.2 三大创新点

创新点1：DCP算法与MobileViT网络的结合

提出了一种焊接缺陷识别方法，通过将暗通道先验方法嵌入轻量级MobileViT网络，减少噪声干扰并增强泛化能力。

DCP算法原理：

DCP算法是经典的图像恢复算法，可以恢复图像的清晰特征。对于机器人弧焊场景，DCP算法对飞溅、弧光和光斑同样有效，因为这些干扰因素对图像的影响类似于自然雾霾。

焊接熔池图像模型定义为：

其中：

I_{weld}(x)：含噪熔池图像
J_{weld}(x)：去噪熔池图像
W：全局焊接弧光强度
t_w(x)：透射图

关键参数设置：

弧光保留系数 ξ= 0.80
梯度定向滤波半径 Ω（x） = 5像素

测试结果表明，这些参数值能够更好地消除噪声干扰，同时保留更多熔池细节。

创新点2：双分支网络设计

设计了名为DCP-MobileViT的双分支网络，通过卷积和transformer机制自适应地从去噪图像及其对应的透射图中提取和组合局部和全局缺陷特征信息。

网络架构特点：

双输入机制：
- 输入1：DCP算法处理后的去噪图像（224×224×3）
- 输入2：对应的透射图（224×224×3）
五层网络结构（Layer1~Layer5）：
- 标准卷积（Conv）
- 倒残差块（MV2，来自MobileNetV2）
- MobileViT块（结合卷积和transformer）
MobileViT块的优势：
- 提取局部空间特征（通过卷积）
- 编码全局特征信息（通过transformer）
- 使用更少的模型参数提取更高效的表示
特征融合：
- 两个分支分别获得feature map1和feature map2
- 合并后获得融合特征图
- 通过全连接层和softmax激活函数预测缺陷类型

模型配置： 选择MobileViT-XXS模型作为DCP-MobileViT模型的骨干网络，以适应现场设备的有限计算能力。

创新点3：多样化数据集构建

构建了包含六种焊接缺陷类型的熔池图像数据集，来自不同焊接工艺规范和未知焊接条件下的多道焊缝序列，用于评估DCP-MobileViT网络的性能。

数据集详情：

数据集	描述	样本数	用途
DB1	已知数据集	2195张	训练、验证和测试（8:1:1）
DB2	未知工艺规范数据集	296张	测试泛化能力
DB3	未知工艺规范的多道焊缝图像	/	焊缝缺陷识别验证
RIAWELC	公开的X射线射线照相图像数据集	24,407张	评估不同工业场景的泛化能力

六种焊接缺陷类型：

正常熔透（NP）
未熔透（IP）
过度熔透（EP）
焊接偏差（WD）- 分为左偏（WD-L）和右偏（WD-R）
夹渣（SI）
气孔（PO）

焊接工艺规范变化：

数据集	焊接电流(A)	焊接速度(mm/s)	气体流量(L/min)	基材	厚度(mm)
DB1	140-260	7	20	不锈钢355	8
DB2	110-280	7	10	不锈钢355	8
DB3	120-260	7	15	不锈钢355	8

三、实验结果与分析

3.1 实验设置

硬件配置：

CPU: i9-12900K，64GB RAM
GPU: NVIDIA GeForce RTX 3090Ti，24GB VRAM
操作系统: Windows 10

软件环境：

Python 3.6
PyTorch 1.10.2
OpenCV 4.6.0

训练参数：

输入尺寸：224×224
批量大小：16
训练轮次：100
初始学习率：0.0002
权重衰减：0.01
优化器：AdamW
学习率调度：余弦退火

3.2 定量分析结果

整体准确率对比

在三个数据集上的准确率（Acc）比较：

模型	DB1	DB2（未知）	RIAWELC
ViT-B/16	94.55%	87.16%	97.83%
MobileNet-V2	95.00%	80.07%	82.44%
MobileViT-XXS	98.64%	94.93%	99.59%
DCP-MobileViT	99.55%	97.30%	99.67%

关键发现：

DCP-MobileViT在所有三个数据集上均达到最高准确率
在未知数据集DB2上，比MobileViT-XXS提高了2.37%
证明了模型在不同焊接场景中具有更好的性能和泛化能力

各类缺陷识别性能

DB1数据集上的平均性能：

模型	精确率(P)	召回率(R)	F1分数
ViT-B/16	95.2%	94.7%	94.9%
MobileNet-V2	96.2%	94.9%	95.5%
MobileViT-XXS	98.8%	98.2%	98.5%
DCP-MobileViT	99.5%	99.7%	99.6%

DB1数据集上各类缺陷的F1分数：

缺陷类型	ViT-B/16	MobileNet-V2	MobileViT-XXS	DCP-MobileViT
NP	89.8%	92.0%	98.1%	100%
IP	96.1%	94.2%	99.0%	99.0%
EP	97.1%	97.1%	97.1%	100%
WD	98.6%	95.7%	100%	100%
SI	97.2%	97.1%	100%	100%
PO	90.3%	96.8%	96.9%	99.5%

DB2数据集（未知工艺规范）上的平均性能：

模型	精确率(P)	召回率(R)	F1分数
ViT-B/16	87.8%	86.5%	87.1%
MobileNet-V2	81.8%	80.4%	81.1%
MobileViT-XXS	94.5%	94.9%	94.7%
DCP-MobileViT	97.0%	97.3%	97.2%

RIAWELC数据集上的平均性能：

模型	精确率(P)	召回率(R)	F1分数
ViT-B/16	97.7%	97.7%	97.7%
MobileNet-V2	82.2%	82.2%	82.2%
MobileViT-XXS	99.5%	99.6%	99.5%
DCP-MobileViT	99.7%	99.7%	99.7%

模型复杂度分析

在DB2数据集上的复杂度对比：

模型	参数量(M)	FLOPs(G)	FPS
ViT-B/16	85.80	16.86	11
MobileNet-V2	2.23	0.33	37
MobileViT-XXS	0.95	0.27	53
DCP-MobileViT	1.87	0.51	31

关键发现：

DCP-MobileViT的参数量（1.87M）在四个模型中排名第二
FPS达到31帧/秒，满足实时监测要求（相机采集频率为10Hz）
在保持较小模型尺寸的同时，实现了最高的识别准确率

3.3 定性分析结果

Grad-CAM可视化分析

通过Grad-CAM（梯度类激活映射）可视化分析，研究人员发现：

层级特征学习：
- 随着网络层数增加，感兴趣区域（ROI）变得更加清晰
- Layer5有效学习了焊接缺陷的区分特征
- 两个分支网络各自负责提取不同的感兴趣特征，互为补充
各类缺陷的关注重点：
- NP、IP、EP：主要关注熔池的几何形状和轮廓特征。随着熔透深度增加，熔池边缘和宽度略有扩大
- WD：关注焊缝熔池相对于中心线的曲率偏差
- SI：关注渣粒的大小，但在颗粒不明显的区域难以识别，容易与NP混淆
- PO：不仅关注熔池外观，还考虑烟雾和弧光等附加特征
抗干扰能力：
- 与其他三个模型相比，DCP-MobileViT对焊炬和其他物体的关注最少
- 表明该模型具有消除无关信息干扰的能力

特征图可视化分析

研究人员对以气孔（PO）缺陷为例的熔池图像在不同层的特征图进行了可视化：

Layer1和Layer2：
- 提取并突出焊缝熔池的主要特征，如轮廓、边缘和纹理
Layer3~Layer5：
- 熔池形状变得无法识别
- 特征图变得越来越抽象
特征提取机制：
- 低层特征图包含更具体的信息（边缘、轮廓、形状）
- 深层特征图表示抽象信息（如熔池状态）
- 表明DCP-MobileViT模型能够模仿人脑的视觉处理方法来评估不同的焊接状态

3.4 焊缝缺陷识别实验

为进一步评估DCP-MobileViT模型在未知焊接工艺规范下对焊缝的缺陷识别能力，研究人员在DB3数据集上对多道焊缝进行了缺陷识别实验。

实验结果：

对六道焊缝（每道焊缝仅包含一种缺陷类型）的识别结果显示：

绿色圆圈：人工标注的实际缺陷类别
红色星号：模型预测的缺陷类型

关键发现：

高准确性：
- 对于大多数焊接时间，模型预测的缺陷类型与实际缺陷类型一致
偶发波动：
- No.20220322-003焊缝（NP）：焊接电流（240A）接近No.20220322-005焊缝（EP）的焊接电流（260A），熔池图像形态差异非常细微，导致模型将NP误判为EP
- No.20220301-015焊缝（SI）：熔池图像包含较少的渣粒，模型容易将其混淆为NP或EP
整体性能：
- DCP-MobileViT模型在未知焊接工艺规范下识别焊缝缺陷方面表现出色

四、技术优势与局限性

4.1 技术优势

首创性：
- 首次在焊接缺陷识别领域同时解决噪声干扰和模型泛化问题
有效的噪声处理：
- DCP算法有效去除飞溅、弧光和光斑等噪声干扰
- 保留更多熔池细节信息
双分支架构的互补性：
- 去噪图像和透射图提供互补信息
- 卷积和transformer机制结合，兼顾局部和全局特征
优秀的泛化能力：
- 在未知工艺规范的数据集上仍保持高准确率（97.30%）
- 在不同工业场景（RIAWELC数据集）中表现出色（99.67%）
轻量级设计：
- 参数量仅1.87M
- 满足现场设备的实时监测需求（31 FPS）
可解释性强：
- 通过Grad-CAM和特征图可视化，清晰展示模型的决策过程

4.2 局限性与未来方向

论文作者诚实地指出了当前研究的局限性：

时间消耗增加：
- 嵌入DCP预处理算法和双输入图像增加了时间消耗
数据集范围有限：
- 目前仅在弧焊和焊接射线照相图像上进行了测试
- 可用数据集数量有限

未来研究方向：

将DCP-MobileViT模型应用于更广泛的焊接场景
- 激光焊接
- 钨极气体保护弧焊（GTAW）
进一步评估模型在不同焊接类型中的性能

五、实际应用价值

5.1 工业应用场景

航空航天领域：
- 确保关键结构件的焊接质量
- 实时监测焊接缺陷，提高安全性
汽车制造：
- 提高生产线焊接质量控制效率
- 减少人工检测成本
造船工业：
- 大规模焊接作业的质量保证
- 降低返工率

5.2 技术优势

实时性：
- 31 FPS的处理速度满足现场实时监测需求
准确性：
- 99.55%的已知数据集准确率
- 97.30%的未知工艺规范准确率
适应性：
- 能够适应不同焊接工艺规范
- 在多道焊缝识别中表现出色
经济性：
- 轻量级设计降低硬件要求
- 减少部署成本

六、总结

这篇发表在《Journal of Intelligent Manufacturing》的论文提出了一种创新的焊接缺陷识别方法------DCP-MobileViT网络。通过巧妙地将Dark Channel Prior算法与轻量级MobileViT网络结合，该方法在保持模型轻量化的同时，显著提高了焊接缺陷识别的准确率和泛化能力。

核心贡献：

✅ 有效解决了焊接图像噪声干扰问题
✅ 增强了模型在未知焊接条件下的泛化能力
✅ 实现了轻量级设计，满足现场实时监测需求
✅ 在多个数据集上取得了最优性能

实验数据验证：

DB1（已知）：99.55%
DB2（未知）：97.30%
RIAWELC（公开）：99.67%
参数量：1.87M
处理速度：31 FPS

该研究为机器人弧焊质量监测提供了一个强大的工具，具有重要的理论意义和实际应用价值。未来，该方法有望扩展到激光焊接、钨极气体保护弧焊等更多焊接场景，为智能制造领域的质量控制提供更广泛的技术支持。