****论文题目:****The Generative Adversarial Network combined with Noise Guidance and Global Features generates High Quality Defect Samples(结合噪声制导和全局特征的生成对抗网络生成了高质量的缺陷样本)
期刊: Neurocomputing
****摘要:****随着工业生产智能化、自动化程度的不断提高,表面缺陷检测已成为工业质量控制的一个重要方面。然而,由于表面缺陷的频率显著降低,获得足够的缺陷数据变得极其困难,这限制了深度学习模型的性能。为了解决这一挑战,我们提出了一种带有噪声引导和全局信息的生成对抗网络(GAN)来生成高质量的缺陷样本图像,从而提高了条带检测的准确性。首先,采用Patch方法对图像进行分块,通过编码信息获取真实样本的特征上下文;这允许学习真实样本的潜在空间分布,引导生成器进行定向学习。其次,设计了一种自适应模拟退火衰减算法,通过约束最小温度稳定性来寻找训练过程的全局最优解;第三,引入去噪模块,利用深度多尺度特征提取和残差结构生成高质量样本。实验结果表明,与现有的先进模型相比,该方法在结构相似度(SSIM)和峰值信噪比(PSNR)方面都有较好的表现。该方法在两个工业小样本数据集(GC10-DET和NEU-DET)上进行了评估,在生成正常图像方面表现出特别强的性能。此外,将生成的图像作为增强数据添加到训练集中,提高了三种高级目标检测模型的性能。总体而言,本研究为工业场景下的小样本缺陷检测提供了有效的解决方案,具有重要的应用潜力。
训练自己的数据集代码见:
用GAN解决工业缺陷样本稀缺问题:噪声引导与全局特征融合的高质量样本生成方法
一、背景与问题:为什么工业缺陷检测这么难?
随着工业生产智能化和自动化的不断推进,表面缺陷检测已成为工业质量控制的关键环节。缺陷会严重影响产品质量和安全性,精准检测对于保证合规标准、减少经济损失不可或缺。
然而,现代制造技术的进步带来了一个令人尴尬的悖论:生产越先进,缺陷越少,但深度学习模型训练恰恰需要大量缺陷样本。 在实际生产环境中,缺陷样本极度稀缺。
这种数据稀缺性带来了两大根本性挑战:
- 获取成本极高:收集足够的缺陷样本需要耗费大量时间、人力和资源。
- 模型性能严重退化:现代深度学习方法(尤其是监督学习)在训练数据有限时,性能会大幅下滑。
虽然传统数据增强技术(线性变换、简单非线性操作)可以做基础的数据集扩充,但它们在面对复杂缺陷模式和工业噪声变化时局限性明显------无法生成物理上有意义的缺陷特征,也无法从根本上提升模型泛化能力。
近年来,生成对抗网络(GAN)、扩散模型(Diffusion Model)和自回归架构等生成模型成为解决数据稀缺的有力手段。其中,GAN在工业缺陷检测应用中具有独特优势:扩散模型需要多步迭代去噪,推理时间长,难以满足工业实时性要求;自回归模型存在序列生成的计算瓶颈;而GAN能够单步直接生成,计算效率高,非常适合资源受限的工业环境。
然而,GAN在小样本工业缺陷检测场景下依然面临三大具体挑战:
- 空间不一致性:生成样本中缺陷与背景纹理的空间关系往往不协调,根源在于全局上下文建模不足。
- 局部最优与模式崩溃:对抗训练动态频繁收敛到局部最优,当生成器过度利用有限缺陷模式时发生模式崩溃。
- 图像质量退化:生成图像存在像素级噪声(随机波动影响图像细节与结构)和伪影(生成过程不一致导致的异常纹理或畸变)。
二、方法概览:三大核心创新
针对上述三大挑战,本文提出了一种结合噪声引导与全局特征的生成对抗网络框架,包含三个相互协作的核心模块。

【此处配图:Fig. 1 --- 模型整体架构图】
整体框架由四部分组成:Transformer编码器、生成器、判别器,以及深度特征提取与去噪模块。下面逐一详细介绍。
三、创新一:Transformer编码器引导噪声分布
问题根源
在传统GAN中,输入生成器的随机噪声通常服从固定均值和方差的高斯分布:
这种设计限制了生成数据的随机性与多样性。由于生成器对真实样本的空间分布一无所知,训练时需要消耗大量计算资源去摸索合适的样本空间。许多研究者通过调整学习率来平衡生成器与判别器的学习动态,但初始阶段研究者并不了解两者能力的差异,容易导致某一方过于强大,引发过早收敛或学习不充分。
解决方案
本文引入Transformer编码器来提取真实样本的潜在空间分布信息,在不修改任何学习率的前提下,为噪声输入注入真实数据的分布特征。

【此处配图:Fig. 2 --- 噪声分布对比图(纯高斯 vs. 富信息噪声的空间分布可视化)】
如图所示,引入编码器后,生成样本(紫色点)的空间分布与真实样本(绿色点)的空间分布更加接近和匹配。
具体流程如下:
第一步:图像分块与序列化
输入图像按预设的patch大小切分为16个块,每个块展平为向量序列,加入位置编码以区分图像不同区域。

【此处配图:Fig. 3 --- Transformer编码器结构图】
第二步:提取真实样本分布参数
Transformer编码器通过自注意力机制处理所有图像块之间的关系,输出真实数据分布的均值 和对数方差
:
第三步:重参数化更新噪声
通过重参数化技术,将编码器输出与原始噪声融合,持续更新潜在噪声:
第四步:噪声融合输入生成器
生成器的最终输入潜变量 是高斯噪声与编码器输出的线性组合:
其中 是超参数,控制真实样本分布对噪声的影响程度。
经过Transformer编码器处理后的噪声分布变为:

这种设计使生成器和判别器能够逐步向Nash均衡方向收敛,而无需人为干预学习率。
四、创新二:自适应模拟退火算法
问题根源
GAN训练中的两大顽疾------训练不稳定 和模式崩溃 ------本质上是优化过程陷入局部最优的结果。粒子群算法和蚁群算法虽然具有一定的全局搜索能力,但前者基于当前和历史最优解更新规则,后者通过信息素积累寻找最优路径,都不适合GAN这种每次迭代处理单一解的场景。模拟退火算法每次迭代处理单一解,其选择策略由温度和退火系数参数控制,天然契合GAN的训练模式。
解决方案
本文设计了一种自适应模拟退火(ASA)算法,集成到GAN训练框架中,通过温度控制机制动态调整生成器和判别器的损失权重。

【此处配图:Table 1 --- 自适应模拟退火算法伪代码】
核心机制:自适应温度控制
温度更新规则:

其中 指定最低温度阈值,防止温度过度衰减,保证训练稳定性。
自适应衰减系数 基于损失波动率
动态计算:
- 损失波动较大 时(训练不稳定):
增大 → 冷却加速 → 快速收敛,但有陷入局部最优的风险
- 损失波动较小 时(训练稳定):
减小 → 冷却放缓 → 保持更强的探索能力,有助于寻找全局最优
概率接受机制(模拟退火经典准则):
允许以一定概率接受较差的解,从而逃离局部最优。
该算法的优势体现在四个方面:
- 根据训练动态自动平衡探索与利用
- 在早期训练阶段保持适当的随机性,防止过早收敛
- 在模型接近稳定区域时加速收敛
- 防止过度温度衰减,维持训练稳定性

【此处配图:Table 2 --- 不同损失变化率 Δ 对PSNR和SSIM的影响】
实验结果表明,当 时,PSNR(Max/Med)达到32.27/28.95,SSIM(Max/Med)达到0.836/0.520,综合表现最优。该结果证明了自适应模拟退火在整个优化过程中具备出色的自适应性和全局搜索能力。
五、创新三:深度空间聚合调制模块(DSAM)
问题根源
生成图像虽然在视觉上近似真实图像,但由于潜在噪声、伪影或学习不完全,模型输出可能存在像素级退化。噪声表现为影响图像细节和结构的随机波动,伪影表现为生成过程不一致产生的异常纹理或畸变。
解决方案
本文提出深度空间聚合调制(DSAM)模块,通过精确的特征聚合和调制策略增强图像去噪与修复性能。

【此处配图:Fig. 4 --- 深度特征提取与去噪模块结构图】
DSAM模块融合了三大设计理念:
理念一:扩张卷积扩大感受野
传统卷积神经网络使用固定大小的感受野,限制了网络捕获全局信息的能力。本文引入不同扩张率(8、4、2)的扩张卷积,通过扩展卷积核采样区域,在不增加计算量的前提下显著扩大感受野,使网络能够捕获更广泛的全局信息。

【此处配图:Fig. 5 --- 不同扩张率的感受野可视化】
该方法在避免网格伪影的同时,保证了更连续的信息采样。
理念二:高低能量组合模块

【此处配图:Fig. 6 --- 扩张卷积与标准卷积的高低能量组合结构图】
将标准卷积(H,高能量,精确捕捉局部细节特征)与扩张卷积(L,低能量,获取远距离受损区域的语义信息)组合,实现局部特征与全局信息的平衡,有效去除噪声并恢复图像结构。
理念三:空间调制特征聚合(SMFA)与残差结构
- SMFA策略:通过深度可分离卷积和自适应池化实现,在减少参数量和计算复杂度的同时,保留有效的空间信息提取能力。自适应池化根据不同图像区域动态调整池化大小,实现最优区域的特征聚合。
- 残差结构:通过跳跃连接引入残差学习,使网络能够更准确地估计受损图像区域,同时保留生成图像的细节和质量。
六、实验与结果
6.1 数据集
本文在两个工业小样本数据集上进行验证:
- GC10-DET:共2294个样本,涵盖10个类别,类别严重不均衡。最少类别(折痕crease)仅49个样本,最多类别(丝斑filaments)有734个样本。本方法主要针对这些少数类别进行增强。
- NEU-DET:每类300个样本,涵盖6种缺陷类型,类别均衡分布。


【此处配图:Fig. 7 --- GC10-DET数据集类别分布饼图】
【此处配图:Fig. 8 --- NEU-DET数据集类别分布饼图】
6.2 消融实验

【此处配图:Table 3 --- 消融实验结果】
消融实验全面评估了三个核心模块各自以及协同的贡献:
- 基线(无任何模块):PSNR(Max/Med) = 30.98/28.70,SSIM(Max/Med) = 0.822/0.452
- 仅DSAM:PSNR中位值达到29.01,是所有单模块配置中最高的,表明DSAM对大多数生成样本都能稳定提升图像质量
- 三模块全部集成 :PSNR(Max/Med) = 32.27/28.95 ,SSIM(Max/Med) = 0.836/0.520
完整框架的峰值PSNR相比最强单模块基线提升了2.4%,最大SSIM达到0.836,确立了新的性能基准。这充分证明了三个模块之间的协同效应。
6.3 批次大小分析

【此处配图:Table 4 --- 不同批次大小的PSNR和SSIM值】
系统评估了6种批次大小配置(4、8、16、32、64、128)的影响:
- PSNR:峰值出现在batch=64(33.03),比最差配置batch=128(31.94)高出约1.1 dB;中位PSNR在所有配置中变异系数低于0.2%,体现了自适应模拟退火算法的稳定性。
- SSIM:最大结构相似度在最小批次(batch=4)时最高(0.848),随批次增大逐渐降低,反映了全局优化收敛与精细结构保留之间的内在权衡;中位SSIM则随批次增大逐步提升,在batch=64时达到峰值0.527。
综合来看,batch 32至64区间是最优工作点,是Transformer编码器捕获全局上下文信息与去噪模块保持足够梯度多样性之间的最佳平衡。
6.4 收敛分析

【此处配图:Fig. 9 --- 生成器与判别器的损失曲线】
在20000个训练epoch的经验验证中,模型展现出优异的收敛特性:
- 判别器:损失稳定收敛至1.108(训练均值1.093,最终阶段标准差仅0.036),从初始值1.385平滑下降,有效避免了局部最优陷阱。
- 生成器:损失稳定在2.178,G/D比值1.965,证明对抗训练动态平衡,任意一方均未主导训练过程。生成器从初始损失2.911平滑下降,无骤降或剧烈波动,成功抑制了模式崩溃等对抗训练的病理行为。
最终状态近似于稳定的Nash均衡,具有平衡的竞争动态,无病理性行为。
6.5 统计鲁棒性分析
为验证统计鲁棒性,作者进行了9次独立实验,每次合成1000个缺陷样本。

【此处配图:Table 5 --- 9次实验的PSNR和SSIM详细数据】
【此处配图:Table 6 --- 9次实验的统计汇总(均值±标准差、95%置信区间、t统计量、p值)】
统计结果非常显著,所有指标的p值均小于0.001,置信区间窄,变异系数极低,充分证明了本方法的可靠性与可重复性。
6.6 对比实验

【此处配图:Table 7 --- 与20余种先进模型的性能对比(GC10和NEU数据集)】
本文与包括WGAN、ACGAN、StyleGANv2、CHAIN、DynGAN、SOMGAN、SPGAN在内的20余个先进模型进行了全面对比:
GC10数据集:
- 本方法PSNR(Max/Med) = 32.34/28.99 (所有方法中最高),SSIM(Max/Med) = 0.842/0.522
- 部分高分模型(如SNGAN、SNRGAN)虽然数值指标具有竞争力,但无法生成有效图像(标记为"N"),严重限制了其实际部署价值
NEU数据集:
- 本方法PSNR(Max/Med) = 29.92 /28.57(PSNR最高),SSIM(Max/Med) = 0.579/0.330(SSIM中位值最高)
- 某些模型虽在个别指标上略高(如SNGAN的PSNR最大值29.98),但综合稳定性和可靠性远不及本方法

【此处配图:Fig. 10 --- 各模型生成图像可视化对比】
如图所示,数值指标与实际生成质量之间存在显著差距:SNGAN数值优秀但无法生成连贯图像;CoDeGAN虽PSNR具有竞争力,但输出模糊、边缘轮廓不清晰;SPGAN的SSIM高但存在严重伪影;StyleGANv2初期能生成清晰图像,但训练不稳定,最终出现模式崩溃或梯度消失,导致图像出现黑色损坏区域。相比之下,本方法不仅数值性能优越,视觉质量也始终如一,训练全程保持稳定。
6.7 检测性能验证

【此处配图:Table 8 --- 生成图像在三种先进检测器上的测试结果】
将本方法生成的合成图像作为数据增强加入训练集,在三种先进检测器上验证效果:
| 检测器 | GC10 mAP@50提升 | NEU mAP@50提升 |
|---|---|---|
| YOLOv11(单阶段) | 63.3 → 67.9(+4.6%) | 75.1 → 76.6(+1.5%) |
| Faster-RCNN(两阶段) | 50.2 → 55.7(+5.5%) | 68.9 → 71.3(+2.4%) |
| RT-DETR(实时Transformer) | 66.3 → 69.1(+2.8%) | 71.1 → 72.5(+1.4%) |
三种不同架构的检测器均获得一致性提升,充分证明本方法生成的合成图像质量高、多样性足,能有效增强工业缺陷检测的训练数据集。
七、结论与局限性
本文提出的增强型GAN框架从三个维度系统性地解决了工业缺陷检测中的数据稀缺和样本质量不足问题:
- Transformer编码器:编码真实样本的特征上下文,引导生成器向真实数据分布方向学习
- 自适应模拟退火算法:在训练过程中优化全局解,通过温度约束维持稳定性,提升训练鲁棒性和样本质量
- 深度去噪模块:结合深度多尺度特征提取与残差结构,消除噪声伪影,进一步提升生成质量
实验结果表明,在SSIM和PSNR两项指标上,本方法均优于现有先进方法,生成的图像在三种先进目标检测模型上均显著提升了检测性能。
局限性与未来工作:
该方法在缺陷特征模糊或低分辨率图像上仍存在一定局限。未来工作将聚焦于:优化训练过程、探索高分辨率图像生成能力,以及针对多样化工业应用场景研究更先进的数据增强技术。
八、方法总结
| 模块 | 解决问题 | 核心技术 | 关键效果 |
|---|---|---|---|
| Transformer编码器 | 样本分布拟合不准确 | 自注意力机制 + 重参数化 | 噪声包含真实样本分布信息,引导Nash均衡收敛 |
| 自适应模拟退火 | 局部最优 / 模式崩溃 | 自适应温度控制 + 概率接受机制 | 平衡探索与利用,PSNR和SSIM综合最优 |
| DSAM去噪模块 | 像素级退化(噪声/伪影) | 扩张卷积 + SMFA + 残差结构 | 感受野扩大,局部+全局特征协同,图像质量显著提升 |