（论文速读）GINet：结合轴承语义的全局可解释卷积神经网络

****论文题目：****A Globally Interpretable Convolutional Neural Network Combining Bearing Semantics for Bearing Fault Diagnosis（结合轴承语义的全局可解释卷积神经网络在轴承故障诊断中的应用）

****期刊：****IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT

****摘要：****轴承故障诊断对于维护工业系统的安全至关重要。随着工业物联网技术采集的海量数据，基于深度学习的端到端模型在轴承故障诊断中得到了广泛的应用。然而，其有限的可解释性对其可靠性提出了挑战，阻碍了该领域的进一步发展。为了解决这一可解释性问题，我们提出了一种结合轴承语义的全局可解释卷积神经网络(CNN)用于轴承故障诊断。具体而言，首先基于故障特征频率(FCF)构建轴承信号的物理语义。在此基础上，提出了一种新的承载语义嵌入方法来提高卷积层的可解释性。此外，还精心设计了一个全局可解释网络(GINet)结构，以确保轴承语义在整个网络中可见。在两个数据集上的实验结果表明，在实现全局可解释性的同时，该网络的性能仍然与基准方法相当。该网络还表现出更好的噪声鲁棒性，证明了语义嵌入的有效性。此外，由于该网络是对基本CNN的可解释修改，因此它不仅限于轴承故障诊断。从理论上讲，通过适当的语义，它也可以应用于其他基于信号的故障诊断任务。

让深度学习"说清楚"：GINet-BS 如何为轴承故障诊断带来全局可解释性

一、背景：深度学习诊断轴承故障，却成了"黑盒"

在工业互联网时代，旋转机械的安全运行至关重要。一旦轴承发生故障，轻则造成停机损失，重则引发人员伤亡事故。因此，轴承故障诊断一直是工业智能化的核心课题。

传统方法依赖频域分析------当轴承发生故障时，振动信号中会出现特定的故障特征频率（Fault Characteristic Frequency，FCF），通过分析该频率成分即可判断故障类型。然而，随着旋转机械结构日趋复杂，单纯的频域方法越来越力不从心。

于是，以 CNN 为代表的端到端深度学习模型 应运而生，并迅速成为该领域的主流范式。其工作流程简洁：采集并预处理振动信号 → 训练深度学习模型 → 直接输出诊断结果。这类模型在准确率上表现出色，但也埋下了一个隐患：它们本质上是不可解释的黑盒。

二、核心问题：黑盒模型的三重困境

现有端到端模型在可解释性上面临三个层次的问题，这也是本文聚焦解决的核心挑战。

2.1 数据驱动导致特征难以理解

深度学习模型完全从数据中自主学习特征，完全忽视了专家知识。这意味着模型提取的特征往往与人类理解的物理规律脱节，即便模型诊断正确，工程师也无从知晓"它为何做出这个判断"。

2.2 中间过程是"黑箱"

这类模型只给出最终诊断结果，整个推理过程对用户完全不透明。在工业场景中，这种不透明性严重损害了模型的可信度------一个无法解释自身决策的系统，很难被工程师和监管方真正信任。

2.3 CNN 的"语义淹没"问题

这是 CNN 用于故障诊断时特有的深层问题。随着卷积层不断加深，特征图的分辨率持续降低，原本清晰的 FCF 频率成分逐渐被"淹没"在高层抽象特征中（见论文图3：三层特征图从下往上，低层清晰可见 FCF 峰值，高层则完全消失）。这不仅影响可解释性，也削弱了模型在噪声环境下的鲁棒性。

此外，全连接层在计算时会丢失输入的空间结构信息，其高维权重矩阵也让"哪个空间位置对输出贡献最大"的问题无从回答。

三、现有可解释方法的局限

当前的可解释方法分为两类，但各有明显短板。

前向可解释方法（Ante hoc） 依靠专家知识预先构建可解释结构，最典型的是将小波卷积嵌入网络，使最底层卷积核具有物理含义。但这类方法只能解释网络的最低层，对更深层的决策过程依然无能为力。

后向可解释方法（Post hoc） 如 Grad-CAM、LIME、SHAP，通过分析已训练模型的梯度或权重来生成"注意力热图"，说明模型关注了哪些输入区域。这类方法的问题在于：它们缺乏对信号物理语义的定义 ，生成的热图固然展示了模型关注的频段，但那些频段对应什么物理含义，却无从得知（见论文图8：对同一 IF 样本，Grad-CAM++、LIME、SHAP 的热图各不相同且均较为分散，难以关联到具体故障频率；而 GINet-BS 的热图精确集中在语义频点）。

四、本文方案：GINet-BS 的三步构建

本文提出的 GINet-BS（Globally Interpretable Network with Bearing Semantics） 分三个阶段构建，逐层解决上述问题。整体框架见论文图1。

第一步：定义轴承语义

轴承语义（Bearing Semantics, BS） 是本文为信号可解释性提出的核心概念，定义为 FCF 及其谐波的集合：

其中 m 取 3（因为高阶谐波幅值小、易被噪声淹没，前3阶语义最为显著稳定）。

FCF 的计算基于轴承几何参数和转速：

滚动体故障（BF）
内圈故障（IF）
外圈故障（OF）

以 CWRU 数据集为例（6205-2RS JEM SKF 轴承，9个滚动体，转速1730 rpm），计算分别得到67.95 Hz，156.14Hz，103.36 Hz。

由此定义 9条轴承语义 （3种故障 × 3阶谐波），详见论文表I：BS1~BS3 对应 BF（68/136/204 Hz），BS4~BS6 对应 IF（156/312/468 Hz），BS7~BS9 对应 OF（103/207/310 Hz）。

第二步：语义嵌入------让卷积核"专注"于语义

知识在神经网络中是纠缠的 ------一个语义概念可能被多个卷积核共同学习，而一个卷积核也可能同时学习多个语义。为了实现解耦，本文提出语义嵌入方法：

卷积核分组：将一个卷积层的 N 个卷积核分成 S+1 组（S 为语义数量）。前 S 组为"可解释卷积"，每组对应一条语义；最后1组为"自由卷积"，保持模型灵活性。两者的比例由超参数 r在[0,1] 控制：

掩码构造 ：为每条语义构造一个掩码，其作用类似于带通滤波器 ------在对应语义频点附近（±p 个频率点）取值为1，其余位置取值为极小值（见论文图2）：

将掩码 Mi 与特征图 Fi 做 Hadamard 积后，再输入对应卷积核组：

这样，每组卷积核被"强制"只能看到自己负责的语义区域，从而学习到该语义对应的特征，实现卷积层级别的语义可解释性。

第三步：GINet 结构------让语义贯穿全网

单层可解释还不够，本文进一步提出 GINet（Globally Interpretable Network） 结构，确保轴承语义在整个网络中始终可见。

特征图尺度维持策略：

去除所有池化层（避免特征图分辨率急剧下降）
低层卷积使用步长1（特征图与输入等长，FCF 不会被淹没）
仅在网络中间层使用一次步长2（兼顾模型的抽象特征提取能力）

全卷积网络（FCN）骨干：完全摒弃全连接层，改用全卷积结构，末尾添加全局平均池化（GAP）代替展平+FC。这样既保留了空间信息的传播路径，又避免了全连接层带来的不可解释性。

最终网络结构（以 GINet-BS-CNN 为例）见论文 表II：4个 IConv1D 层（通道数依次为64/128/256/256，步长1/1/2/1，特征图长度1024/1024/512/512），最后经 GAP 和 FC 输出10分类结果。

五、实验验证

5.1 数据集设置

Case I：CWRU 数据集

采集自 Case Western Reserve University 轴承测试台，12 kHz 采样率，3 HP 负载，1730 rpm 转速。涵盖3种故障损伤直径（7/14/21 mil），4种健康状态（正常+BF+IF+OF），共10个类别，每类500样本，训练/验证/测试比例 4:3:3。实验前对信号进行希尔伯特变换提取包络谱，取前1024 Hz 输入模型（见论文图4）。

Case II：XJTU-SY 数据集

由西安交通大学采集，测试轴承型号 LDK UER204（8个滚动体，滚动体直径7.92mm，节圆直径34.55mm）。选取3种转速（2100/2250/2400 rpm）下各2组外圈故障（OF1~OF6），每类300样本，1:1:1 划分。各转速对应 FCF 分别为107.91/115.62/123.32 Hz，共定义9条语义（见论文表V ，见论文 图14）。

5.2 全局可解释性验证

以 GINet-BS-CNN（r=1）为例，用 Grad-CAM 可视化各卷积层的决策热图：

图5（IF样本，第4层）：模型主要关注156 Hz（BS4）和312 Hz（BS5），与 IF 的 FCF 及一阶谐波精确对应。BS6（468 Hz）因能量过低未被显著关注，符合预期。
图6（OF样本，全4层）：随着层次加深，模型的注意力逐渐从宽泛的频段收敛到 BS7/BS8/BS9（OF 对应的三条语义），每一层的决策依据均清晰可循。

对比之下，普通 CNN 的同一可视化结果（图7）显示：低层虽能捕捉一些频段知识，高层随着感受野扩大，语义信息被完全淹没，完全无法与物理含义对应。这直接证明了语义嵌入和特征图维持策略的有效性。

可扩展性 ：将 GINet-BS 应用于 DenseNet、GoogLeNet、ResNet 三种骨干网络（图10），与原网络相比，集成后的模型在高层热图中对物理语义的聚焦更加精准，证明了方法的通用性。

5.3 诊断性能与噪声鲁棒性

所有模型在无噪声场景下训练，在不同 SNR 下测试，结果见论文 表III （CWRU）和 表VI（XJTU-SY）。

CWRU 数据集关键数据（表III）：

可以看到：无噪声时，G-CNN 与原 CNN 性能相当（均为100%），说明语义嵌入不会牺牲正常场景下的诊断精度。而随着噪声增强，原始模型性能急剧崩塌（原 CNN 在 0 dB 时仅 56.66%，DenseNet 更跌至19.11%），集成 GINet-BS 后模型表现出显著的抗噪优势（G-CNN 在 0 dB 仍达 98.97%）。

噪声鲁棒性的物理解释：这一改善并非偶然。由于 FCF 与轴承故障之间存在确定的因果关系，以 FCF 为基础构建的语义本身就是故障的物理表征，具有天然的抗噪特性。模型被引导去关注这些"信噪比更高"的物理频点，自然比盲目学习全频域特征的模型更加鲁棒。

5.4 可解释性与灵活性的权衡（r 参数实验）

r 参数控制可解释卷积核与自由卷积核的比例。论文通过不同 r 设置进行了消融实验，结果见论文 表IV：

r=1.0（全语义引导）：0 dB 下准确率 98.97%
r=0.6：0 dB 下准确率 97.02%
r=0.2：0 dB 下准确率 79.60%
r=0（无语义，仅 GINet 结构）：0 dB 下准确率 32.19%（甚至弱于原 CNN 的 56.66%）

r=0 时性能反而下降，原因是特征图尺度维持策略限制了模型学习长程特征的能力，而失去了语义引导的补偿，整体效果变差。这说明 GINet 结构与语义嵌入相辅相成，缺一不可。

5.5 计算开销分析

语义嵌入引入了额外的分组和 Hadamard 积计算，见论文 图12：

参数量：GINet-BS-CNN 约 40,000 参数，较同结构 CNN 多约 15,000（增加约60%）
训练时间 ：CNN 每轮仅需 0.13 s，GINet-BS-CNN 增至 1.07 s（约8倍），其他骨干网络类似，均有10倍量级的训练耗时增加
推理时间 ：1500个测试样本，CNN 耗时 0.22 s，GINet-BS-CNN 耗时 0.78 s；单样本推理达到毫秒级，满足绝大多数工业实时检测需求

最优层数为4层------3层时存在欠拟合，超过4层后噪声鲁棒性不再显著提升，且训练成本急剧上升。

六、总结与展望

GINet-BS 的核心贡献在于将"物理知识"与"深度学习"做了有机融合：

显式定义了轴承信号的物理语义（FCF 及其谐波），使解释结果不再抽象，而是有明确物理意义的频率成分
语义嵌入方法使每个卷积层的卷积核各司其职，每层的决策依据均可通过标准 Grad-CAM 可视化并被工程师理解
GINet 结构 （全卷积 + 特征图尺度维持）打通了语义从低层到高层的传播通道，实现了真正的全局可解释性
作为副产品，语义引导还带来了显著的噪声鲁棒性提升，在 SNR = 0 dB 的极端噪声条件下仍能维持极高精度

当然，该方法目前也存在一定局限：首先，训练计算开销较大（约10倍）；其次，需要预先知道 FCF，对于 XJTU-SY 中因调幅/调频导致 FCF 计算不准确的内圈故障，方法适用性有所下降。

未来工作方向包括：为复杂旋转机械自动构建语义（减少对先验知识的依赖）、以及在保持可解释性的前提下进一步压缩计算开销，探索可解释性与模型复杂度的更优平衡点。