****论文题目:****A Globally Interpretable Convolutional Neural Network Combining Bearing Semantics for Bearing Fault Diagnosis(结合轴承语义的全局可解释卷积神经网络在轴承故障诊断中的应用)
****期刊:****IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT
****摘要:****轴承故障诊断对于维护工业系统的安全至关重要。随着工业物联网技术采集的海量数据,基于深度学习的端到端模型在轴承故障诊断中得到了广泛的应用。然而,其有限的可解释性对其可靠性提出了挑战,阻碍了该领域的进一步发展。为了解决这一可解释性问题,我们提出了一种结合轴承语义的全局可解释卷积神经网络(CNN)用于轴承故障诊断。具体而言,首先基于故障特征频率(FCF)构建轴承信号的物理语义。在此基础上,提出了一种新的承载语义嵌入方法来提高卷积层的可解释性。此外,还精心设计了一个全局可解释网络(GINet)结构,以确保轴承语义在整个网络中可见。在两个数据集上的实验结果表明,在实现全局可解释性的同时,该网络的性能仍然与基准方法相当。该网络还表现出更好的噪声鲁棒性,证明了语义嵌入的有效性。此外,由于该网络是对基本CNN的可解释修改,因此它不仅限于轴承故障诊断。从理论上讲,通过适当的语义,它也可以应用于其他基于信号的故障诊断任务。
让深度学习"说清楚":GINet-BS 如何为轴承故障诊断带来全局可解释性
一、背景:深度学习诊断轴承故障,却成了"黑盒"
在工业互联网时代,旋转机械的安全运行至关重要。一旦轴承发生故障,轻则造成停机损失,重则引发人员伤亡事故。因此,轴承故障诊断一直是工业智能化的核心课题。
传统方法依赖频域分析------当轴承发生故障时,振动信号中会出现特定的故障特征频率(Fault Characteristic Frequency,FCF),通过分析该频率成分即可判断故障类型。然而,随着旋转机械结构日趋复杂,单纯的频域方法越来越力不从心。
于是,以 CNN 为代表的端到端深度学习模型 应运而生,并迅速成为该领域的主流范式。其工作流程简洁:采集并预处理振动信号 → 训练深度学习模型 → 直接输出诊断结果。这类模型在准确率上表现出色,但也埋下了一个隐患:它们本质上是不可解释的黑盒。
二、核心问题:黑盒模型的三重困境
现有端到端模型在可解释性上面临三个层次的问题,这也是本文聚焦解决的核心挑战。
2.1 数据驱动导致特征难以理解
深度学习模型完全从数据中自主学习特征,完全忽视了专家知识。这意味着模型提取的特征往往与人类理解的物理规律脱节,即便模型诊断正确,工程师也无从知晓"它为何做出这个判断"。
2.2 中间过程是"黑箱"
这类模型只给出最终诊断结果,整个推理过程对用户完全不透明。在工业场景中,这种不透明性严重损害了模型的可信度------一个无法解释自身决策的系统,很难被工程师和监管方真正信任。
2.3 CNN 的"语义淹没"问题
这是 CNN 用于故障诊断时特有的深层问题。随着卷积层不断加深,特征图的分辨率持续降低,原本清晰的 FCF 频率成分逐渐被"淹没"在高层抽象特征中(见论文 图3:三层特征图从下往上,低层清晰可见 FCF 峰值,高层则完全消失)。这不仅影响可解释性,也削弱了模型在噪声环境下的鲁棒性。

此外,全连接层在计算时会丢失输入的空间结构信息,其高维权重矩阵也让"哪个空间位置对输出贡献最大"的问题无从回答。
三、现有可解释方法的局限
当前的可解释方法分为两类,但各有明显短板。
前向可解释方法(Ante hoc) 依靠专家知识预先构建可解释结构,最典型的是将小波卷积嵌入网络,使最底层卷积核具有物理含义。但这类方法只能解释网络的最低层,对更深层的决策过程依然无能为力。
后向可解释方法(Post hoc) 如 Grad-CAM、LIME、SHAP,通过分析已训练模型的梯度或权重来生成"注意力热图",说明模型关注了哪些输入区域。这类方法的问题在于:它们缺乏对信号物理语义的定义 ,生成的热图固然展示了模型关注的频段,但那些频段对应什么物理含义,却无从得知(见论文 图8:对同一 IF 样本,Grad-CAM++、LIME、SHAP 的热图各不相同且均较为分散,难以关联到具体故障频率;而 GINet-BS 的热图精确集中在语义频点)。

四、本文方案:GINet-BS 的三步构建
本文提出的 GINet-BS(Globally Interpretable Network with Bearing Semantics) 分三个阶段构建,逐层解决上述问题。整体框架见论文 图1。

第一步:定义轴承语义
轴承语义(Bearing Semantics, BS) 是本文为信号可解释性提出的核心概念,定义为 FCF 及其谐波的集合:

其中 m 取 3(因为高阶谐波幅值小、易被噪声淹没,前3阶语义最为显著稳定)。
FCF 的计算基于轴承几何参数和转速:

- 滚动体故障(BF)
- 内圈故障(IF)
- 外圈故障(OF)
以 CWRU 数据集为例(6205-2RS JEM SKF 轴承,9个滚动体,转速1730 rpm),计算分别得到67.95 Hz,156.14Hz,103.36 Hz。
由此定义 9条轴承语义 (3种故障 × 3阶谐波),详见论文 表I:BS1~BS3 对应 BF(68/136/204 Hz),BS4~BS6 对应 IF(156/312/468 Hz),BS7~BS9 对应 OF(103/207/310 Hz)。

第二步:语义嵌入------让卷积核"专注"于语义
知识在神经网络中是纠缠的 ------一个语义概念可能被多个卷积核共同学习,而一个卷积核也可能同时学习多个语义。为了实现解耦,本文提出语义嵌入方法:
卷积核分组:将一个卷积层的 N 个卷积核分成 S+1 组(S 为语义数量)。前 S 组为"可解释卷积",每组对应一条语义;最后1组为"自由卷积",保持模型灵活性。两者的比例由超参数 r在[0,1] 控制:

掩码构造 :为每条语义构造一个掩码,其作用类似于带通滤波器 ------在对应语义频点附近(±p 个频率点)取值为1,其余位置取值为极小值
(见论文 图2):


将掩码 Mi 与特征图 Fi 做 Hadamard 积后,再输入对应卷积核组:

这样,每组卷积核被"强制"只能看到自己负责的语义区域,从而学习到该语义对应的特征,实现卷积层级别的语义可解释性。
第三步:GINet 结构------让语义贯穿全网
单层可解释还不够,本文进一步提出 GINet(Globally Interpretable Network) 结构,确保轴承语义在整个网络中始终可见。
特征图尺度维持策略:
- 去除所有池化层(避免特征图分辨率急剧下降)
- 低层卷积使用步长1(特征图与输入等长,FCF 不会被淹没)
- 仅在网络中间层使用一次步长2(兼顾模型的抽象特征提取能力)
全卷积网络(FCN)骨干:完全摒弃全连接层,改用全卷积结构,末尾添加全局平均池化(GAP)代替展平+FC。这样既保留了空间信息的传播路径,又避免了全连接层带来的不可解释性。
最终网络结构(以 GINet-BS-CNN 为例)见论文 表II:4个 IConv1D 层(通道数依次为64/128/256/256,步长1/1/2/1,特征图长度1024/1024/512/512),最后经 GAP 和 FC 输出10分类结果。

五、实验验证
5.1 数据集设置
Case I:CWRU 数据集
采集自 Case Western Reserve University 轴承测试台,12 kHz 采样率,3 HP 负载,1730 rpm 转速。涵盖3种故障损伤直径(7/14/21 mil),4种健康状态(正常+BF+IF+OF),共10个类别,每类500样本,训练/验证/测试比例 4:3:3。实验前对信号进行希尔伯特变换提取包络谱,取前1024 Hz 输入模型(见论文 图4)。

Case II:XJTU-SY 数据集
由西安交通大学采集,测试轴承型号 LDK UER204(8个滚动体,滚动体直径7.92mm,节圆直径34.55mm)。选取3种转速(2100/2250/2400 rpm)下各2组外圈故障(OF1~OF6),每类300样本,1:1:1 划分。各转速对应 FCF 分别为107.91/115.62/123.32 Hz,共定义9条语义(见论文 表V ,见论文 图14)。


5.2 全局可解释性验证
以 GINet-BS-CNN(r=1)为例,用 Grad-CAM 可视化各卷积层的决策热图:


- 图5(IF样本,第4层):模型主要关注156 Hz(BS4)和312 Hz(BS5),与 IF 的 FCF 及一阶谐波精确对应。BS6(468 Hz)因能量过低未被显著关注,符合预期。
- 图6(OF样本,全4层):随着层次加深,模型的注意力逐渐从宽泛的频段收敛到 BS7/BS8/BS9(OF 对应的三条语义),每一层的决策依据均清晰可循。
对比之下,普通 CNN 的同一可视化结果(图7)显示:低层虽能捕捉一些频段知识,高层随着感受野扩大,语义信息被完全淹没,完全无法与物理含义对应。这直接证明了语义嵌入和特征图维持策略的有效性。

可扩展性 :将 GINet-BS 应用于 DenseNet、GoogLeNet、ResNet 三种骨干网络(图10),与原网络相比,集成后的模型在高层热图中对物理语义的聚焦更加精准,证明了方法的通用性。

5.3 诊断性能与噪声鲁棒性
所有模型在无噪声场景下训练,在不同 SNR 下测试,结果见论文 表III (CWRU)和 表VI(XJTU-SY)。
CWRU 数据集关键数据(表III):

可以看到:无噪声时,G-CNN 与原 CNN 性能相当(均为100%),说明语义嵌入不会牺牲正常场景下的诊断精度。而随着噪声增强,原始模型性能急剧崩塌(原 CNN 在 0 dB 时仅 56.66%,DenseNet 更跌至19.11%),集成 GINet-BS 后模型表现出显著的抗噪优势(G-CNN 在 0 dB 仍达 98.97%)。
噪声鲁棒性的物理解释:这一改善并非偶然。由于 FCF 与轴承故障之间存在确定的因果关系,以 FCF 为基础构建的语义本身就是故障的物理表征,具有天然的抗噪特性。模型被引导去关注这些"信噪比更高"的物理频点,自然比盲目学习全频域特征的模型更加鲁棒。
5.4 可解释性与灵活性的权衡(r 参数实验)
r 参数控制可解释卷积核与自由卷积核的比例。论文通过不同 r 设置进行了消融实验,结果见论文 表IV:

- r=1.0(全语义引导):0 dB 下准确率 98.97%
- r=0.6:0 dB 下准确率 97.02%
- r=0.2:0 dB 下准确率 79.60%
- r=0(无语义,仅 GINet 结构):0 dB 下准确率 32.19%(甚至弱于原 CNN 的 56.66%)
r=0 时性能反而下降,原因是特征图尺度维持策略限制了模型学习长程特征的能力,而失去了语义引导的补偿,整体效果变差。这说明 GINet 结构与语义嵌入相辅相成,缺一不可。
5.5 计算开销分析
语义嵌入引入了额外的分组和 Hadamard 积计算,见论文 图12:
- 参数量:GINet-BS-CNN 约 40,000 参数,较同结构 CNN 多约 15,000(增加约60%)
- 训练时间 :CNN 每轮仅需 0.13 s,GINet-BS-CNN 增至 1.07 s(约8倍),其他骨干网络类似,均有10倍量级的训练耗时增加
- 推理时间 :1500个测试样本,CNN 耗时 0.22 s,GINet-BS-CNN 耗时 0.78 s;单样本推理达到毫秒级,满足绝大多数工业实时检测需求
最优层数为4层------3层时存在欠拟合,超过4层后噪声鲁棒性不再显著提升,且训练成本急剧上升。
六、总结与展望
GINet-BS 的核心贡献在于将"物理知识"与"深度学习"做了有机融合:
- 显式定义了轴承信号的物理语义(FCF 及其谐波),使解释结果不再抽象,而是有明确物理意义的频率成分
- 语义嵌入方法使每个卷积层的卷积核各司其职,每层的决策依据均可通过标准 Grad-CAM 可视化并被工程师理解
- GINet 结构 (全卷积 + 特征图尺度维持)打通了语义从低层到高层的传播通道,实现了真正的全局可解释性
- 作为副产品,语义引导还带来了显著的噪声鲁棒性提升,在 SNR = 0 dB 的极端噪声条件下仍能维持极高精度
当然,该方法目前也存在一定局限:首先,训练计算开销较大(约10倍);其次,需要预先知道 FCF,对于 XJTU-SY 中因调幅/调频导致 FCF 计算不准确的内圈故障,方法适用性有所下降。
未来工作方向包括:为复杂旋转机械自动构建语义(减少对先验知识的依赖)、以及在保持可解释性的前提下进一步压缩计算开销,探索可解释性与模型复杂度的更优平衡点。