(论文速读)GINet:结合轴承语义的全局可解释卷积神经网络

****论文题目:****A Globally Interpretable Convolutional Neural Network Combining Bearing Semantics for Bearing Fault Diagnosis(结合轴承语义的全局可解释卷积神经网络在轴承故障诊断中的应用)

****期刊:****IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT

****摘要:****轴承故障诊断对于维护工业系统的安全至关重要。随着工业物联网技术采集的海量数据,基于深度学习的端到端模型在轴承故障诊断中得到了广泛的应用。然而,其有限的可解释性对其可靠性提出了挑战,阻碍了该领域的进一步发展。为了解决这一可解释性问题,我们提出了一种结合轴承语义的全局可解释卷积神经网络(CNN)用于轴承故障诊断。具体而言,首先基于故障特征频率(FCF)构建轴承信号的物理语义。在此基础上,提出了一种新的承载语义嵌入方法来提高卷积层的可解释性。此外,还精心设计了一个全局可解释网络(GINet)结构,以确保轴承语义在整个网络中可见。在两个数据集上的实验结果表明,在实现全局可解释性的同时,该网络的性能仍然与基准方法相当。该网络还表现出更好的噪声鲁棒性,证明了语义嵌入的有效性。此外,由于该网络是对基本CNN的可解释修改,因此它不仅限于轴承故障诊断。从理论上讲,通过适当的语义,它也可以应用于其他基于信号的故障诊断任务。


让深度学习"说清楚":GINet-BS 如何为轴承故障诊断带来全局可解释性

一、背景:深度学习诊断轴承故障,却成了"黑盒"

在工业互联网时代,旋转机械的安全运行至关重要。一旦轴承发生故障,轻则造成停机损失,重则引发人员伤亡事故。因此,轴承故障诊断一直是工业智能化的核心课题。

传统方法依赖频域分析------当轴承发生故障时,振动信号中会出现特定的故障特征频率(Fault Characteristic Frequency,FCF),通过分析该频率成分即可判断故障类型。然而,随着旋转机械结构日趋复杂,单纯的频域方法越来越力不从心。

于是,以 CNN 为代表的端到端深度学习模型 应运而生,并迅速成为该领域的主流范式。其工作流程简洁:采集并预处理振动信号 → 训练深度学习模型 → 直接输出诊断结果。这类模型在准确率上表现出色,但也埋下了一个隐患:它们本质上是不可解释的黑盒


二、核心问题:黑盒模型的三重困境

现有端到端模型在可解释性上面临三个层次的问题,这也是本文聚焦解决的核心挑战。

2.1 数据驱动导致特征难以理解

深度学习模型完全从数据中自主学习特征,完全忽视了专家知识。这意味着模型提取的特征往往与人类理解的物理规律脱节,即便模型诊断正确,工程师也无从知晓"它为何做出这个判断"。

2.2 中间过程是"黑箱"

这类模型只给出最终诊断结果,整个推理过程对用户完全不透明。在工业场景中,这种不透明性严重损害了模型的可信度------一个无法解释自身决策的系统,很难被工程师和监管方真正信任。

2.3 CNN 的"语义淹没"问题

这是 CNN 用于故障诊断时特有的深层问题。随着卷积层不断加深,特征图的分辨率持续降低,原本清晰的 FCF 频率成分逐渐被"淹没"在高层抽象特征中(见论文 图3:三层特征图从下往上,低层清晰可见 FCF 峰值,高层则完全消失)。这不仅影响可解释性,也削弱了模型在噪声环境下的鲁棒性。

此外,全连接层在计算时会丢失输入的空间结构信息,其高维权重矩阵也让"哪个空间位置对输出贡献最大"的问题无从回答。


三、现有可解释方法的局限

当前的可解释方法分为两类,但各有明显短板。

前向可解释方法(Ante hoc) 依靠专家知识预先构建可解释结构,最典型的是将小波卷积嵌入网络,使最底层卷积核具有物理含义。但这类方法只能解释网络的最低层,对更深层的决策过程依然无能为力。

后向可解释方法(Post hoc) 如 Grad-CAM、LIME、SHAP,通过分析已训练模型的梯度或权重来生成"注意力热图",说明模型关注了哪些输入区域。这类方法的问题在于:它们缺乏对信号物理语义的定义 ,生成的热图固然展示了模型关注的频段,但那些频段对应什么物理含义,却无从得知(见论文 图8:对同一 IF 样本,Grad-CAM++、LIME、SHAP 的热图各不相同且均较为分散,难以关联到具体故障频率;而 GINet-BS 的热图精确集中在语义频点)。


四、本文方案:GINet-BS 的三步构建

本文提出的 GINet-BS(Globally Interpretable Network with Bearing Semantics) 分三个阶段构建,逐层解决上述问题。整体框架见论文 图1

第一步:定义轴承语义

轴承语义(Bearing Semantics, BS) 是本文为信号可解释性提出的核心概念,定义为 FCF 及其谐波的集合:

其中 m 取 3(因为高阶谐波幅值小、易被噪声淹没,前3阶语义最为显著稳定)。

FCF 的计算基于轴承几何参数和转速:

  • 滚动体故障(BF)
  • 内圈故障(IF)
  • 外圈故障(OF)

以 CWRU 数据集为例(6205-2RS JEM SKF 轴承,9个滚动体,转速1730 rpm),计算分别得到67.95 Hz,156.14Hz,103.36 Hz。

由此定义 9条轴承语义 (3种故障 × 3阶谐波),详见论文 表I:BS1~BS3 对应 BF(68/136/204 Hz),BS4~BS6 对应 IF(156/312/468 Hz),BS7~BS9 对应 OF(103/207/310 Hz)。

第二步:语义嵌入------让卷积核"专注"于语义

知识在神经网络中是纠缠的 ------一个语义概念可能被多个卷积核共同学习,而一个卷积核也可能同时学习多个语义。为了实现解耦,本文提出语义嵌入方法

卷积核分组:将一个卷积层的 N 个卷积核分成 S+1 组(S 为语义数量)。前 S 组为"可解释卷积",每组对应一条语义;最后1组为"自由卷积",保持模型灵活性。两者的比例由超参数 r在[0,1] 控制:

掩码构造 :为每条语义构造一个掩码,其作用类似于带通滤波器 ------在对应语义频点附近(±p 个频率点)取值为1,其余位置取值为极小值(见论文 图2):

将掩码 Mi 与特征图 Fi 做 Hadamard 积后,再输入对应卷积核组:

这样,每组卷积核被"强制"只能看到自己负责的语义区域,从而学习到该语义对应的特征,实现卷积层级别的语义可解释性

第三步:GINet 结构------让语义贯穿全网

单层可解释还不够,本文进一步提出 GINet(Globally Interpretable Network) 结构,确保轴承语义在整个网络中始终可见。

特征图尺度维持策略

  • 去除所有池化层(避免特征图分辨率急剧下降)
  • 低层卷积使用步长1(特征图与输入等长,FCF 不会被淹没)
  • 仅在网络中间层使用一次步长2(兼顾模型的抽象特征提取能力)

全卷积网络(FCN)骨干:完全摒弃全连接层,改用全卷积结构,末尾添加全局平均池化(GAP)代替展平+FC。这样既保留了空间信息的传播路径,又避免了全连接层带来的不可解释性。

最终网络结构(以 GINet-BS-CNN 为例)见论文 表II:4个 IConv1D 层(通道数依次为64/128/256/256,步长1/1/2/1,特征图长度1024/1024/512/512),最后经 GAP 和 FC 输出10分类结果。


五、实验验证

5.1 数据集设置

Case I:CWRU 数据集

采集自 Case Western Reserve University 轴承测试台,12 kHz 采样率,3 HP 负载,1730 rpm 转速。涵盖3种故障损伤直径(7/14/21 mil),4种健康状态(正常+BF+IF+OF),共10个类别,每类500样本,训练/验证/测试比例 4:3:3。实验前对信号进行希尔伯特变换提取包络谱,取前1024 Hz 输入模型(见论文 图4)。

Case II:XJTU-SY 数据集

由西安交通大学采集,测试轴承型号 LDK UER204(8个滚动体,滚动体直径7.92mm,节圆直径34.55mm)。选取3种转速(2100/2250/2400 rpm)下各2组外圈故障(OF1~OF6),每类300样本,1:1:1 划分。各转速对应 FCF 分别为107.91/115.62/123.32 Hz,共定义9条语义(见论文 表V ,见论文 图14)。

5.2 全局可解释性验证

以 GINet-BS-CNN(r=1)为例,用 Grad-CAM 可视化各卷积层的决策热图:

  • 图5(IF样本,第4层):模型主要关注156 Hz(BS4)和312 Hz(BS5),与 IF 的 FCF 及一阶谐波精确对应。BS6(468 Hz)因能量过低未被显著关注,符合预期。
  • 图6(OF样本,全4层):随着层次加深,模型的注意力逐渐从宽泛的频段收敛到 BS7/BS8/BS9(OF 对应的三条语义),每一层的决策依据均清晰可循。

对比之下,普通 CNN 的同一可视化结果(图7)显示:低层虽能捕捉一些频段知识,高层随着感受野扩大,语义信息被完全淹没,完全无法与物理含义对应。这直接证明了语义嵌入和特征图维持策略的有效性。

可扩展性 :将 GINet-BS 应用于 DenseNet、GoogLeNet、ResNet 三种骨干网络(图10),与原网络相比,集成后的模型在高层热图中对物理语义的聚焦更加精准,证明了方法的通用性。

5.3 诊断性能与噪声鲁棒性

所有模型在无噪声场景下训练,在不同 SNR 下测试,结果见论文 表III (CWRU)和 表VI(XJTU-SY)。

CWRU 数据集关键数据(表III)

可以看到:无噪声时,G-CNN 与原 CNN 性能相当(均为100%),说明语义嵌入不会牺牲正常场景下的诊断精度。而随着噪声增强,原始模型性能急剧崩塌(原 CNN 在 0 dB 时仅 56.66%,DenseNet 更跌至19.11%),集成 GINet-BS 后模型表现出显著的抗噪优势(G-CNN 在 0 dB 仍达 98.97%)。

噪声鲁棒性的物理解释:这一改善并非偶然。由于 FCF 与轴承故障之间存在确定的因果关系,以 FCF 为基础构建的语义本身就是故障的物理表征,具有天然的抗噪特性。模型被引导去关注这些"信噪比更高"的物理频点,自然比盲目学习全频域特征的模型更加鲁棒。

5.4 可解释性与灵活性的权衡(r 参数实验)

r 参数控制可解释卷积核与自由卷积核的比例。论文通过不同 r 设置进行了消融实验,结果见论文 表IV

  • r=1.0(全语义引导):0 dB 下准确率 98.97%
  • r=0.6:0 dB 下准确率 97.02%
  • r=0.2:0 dB 下准确率 79.60%
  • r=0(无语义,仅 GINet 结构):0 dB 下准确率 32.19%(甚至弱于原 CNN 的 56.66%)

r=0 时性能反而下降,原因是特征图尺度维持策略限制了模型学习长程特征的能力,而失去了语义引导的补偿,整体效果变差。这说明 GINet 结构与语义嵌入相辅相成,缺一不可

5.5 计算开销分析

语义嵌入引入了额外的分组和 Hadamard 积计算,见论文 图12

  • 参数量:GINet-BS-CNN 约 40,000 参数,较同结构 CNN 多约 15,000(增加约60%)
  • 训练时间 :CNN 每轮仅需 0.13 s,GINet-BS-CNN 增至 1.07 s(约8倍),其他骨干网络类似,均有10倍量级的训练耗时增加
  • 推理时间 :1500个测试样本,CNN 耗时 0.22 s,GINet-BS-CNN 耗时 0.78 s;单样本推理达到毫秒级,满足绝大多数工业实时检测需求

最优层数为4层------3层时存在欠拟合,超过4层后噪声鲁棒性不再显著提升,且训练成本急剧上升。


六、总结与展望

GINet-BS 的核心贡献在于将"物理知识"与"深度学习"做了有机融合:

  • 显式定义了轴承信号的物理语义(FCF 及其谐波),使解释结果不再抽象,而是有明确物理意义的频率成分
  • 语义嵌入方法使每个卷积层的卷积核各司其职,每层的决策依据均可通过标准 Grad-CAM 可视化并被工程师理解
  • GINet 结构 (全卷积 + 特征图尺度维持)打通了语义从低层到高层的传播通道,实现了真正的全局可解释性
  • 作为副产品,语义引导还带来了显著的噪声鲁棒性提升,在 SNR = 0 dB 的极端噪声条件下仍能维持极高精度

当然,该方法目前也存在一定局限:首先,训练计算开销较大(约10倍);其次,需要预先知道 FCF,对于 XJTU-SY 中因调幅/调频导致 FCF 计算不准确的内圈故障,方法适用性有所下降。

未来工作方向包括:为复杂旋转机械自动构建语义(减少对先验知识的依赖)、以及在保持可解释性的前提下进一步压缩计算开销,探索可解释性与模型复杂度的更优平衡点。

相关推荐
kingcjh972 小时前
一、大模型视频生成实战:Wan2.1 本地部署全记录
深度学习·生成对抗网络·ai作画·音视频
努力的小白o(^▽^)o2 小时前
常见的优化器
人工智能
yang_B6213 小时前
噪声处理方法
大数据·人工智能·算法
Gideon_k_Marx3 小时前
读代码3:OLMo3全详解 - layer2--Data (上)
人工智能·深度学习·机器学习·语言模型·自然语言处理
春风化作秋雨3 小时前
Transformer:颠覆AI的注意力革命
人工智能·深度学习·transformer
无忧智库3 小时前
算力、算法、数据三位一体:构建城市级AI大模型算力池的全景式解构与未来展望(WORD)
大数据·人工智能·算法
L-影3 小时前
下篇:它到底是怎么操作的——AI中半监督学习的类型与作用,以及为什么它成了行业的“最优解”
人工智能·学习·机器学习·ai·半监督学习
后端小肥肠3 小时前
OpenClaw多Agent实战|手把手教你用一只小龙虾接入多个飞书Bot
人工智能·aigc·agent
北京耐用通信3 小时前
从隔离到互联:工业现场中耐达讯自动化CC-Link IE转Modbus RTU实战指南
人工智能·科技·物联网·自动化·信息与通信