深度学习周报（3.30~4.5）

[1 文献阅读：《Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline》](#1 文献阅读：《Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline》)

[1.1 背景](#1.1 背景)

[1.2 方法论](#1.2 方法论)

[1.3 创新点](#1.3 创新点)

[1.4 实验结果及分析](#1.4 实验结果及分析)

[2 补充：STFT](#2 补充：STFT)

[2.1 定义](#2.1 定义)

[2.2 原理与数学表示](#2.2 原理与数学表示)

[2.3 局限与应用领域](#2.3 局限与应用领域)

[3 总结](#3 总结)

摘要

本周主要阅读了《Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline》这篇论文，了解了其将声学信号作为基础数据、结合频谱增强与 CNN 架构对甲烷泄漏进行检测的核心方法与创新；其次，基于论文对短时傅里叶变换进行了拓展学习，了解了其原理、局限与应用领域等知识点，同时回顾了部分之前学习过的内容。

Abstarct

This week, I mainly read the paper titled "Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline," gaining an understanding of its core method and innovations, which involve using acoustic signals as the foundational data and combining spectrum enhancement with a CNN architecture for methane leak detection. In addition, based on this paper, I further studied the short-time Fourier transform, learning about its principles, limitations, and application areas, while also reviewing some previously covered material.

1 文献阅读：《Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline》

链接：Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline - ScienceDirect

1.1 背景

天然气管道泄漏在工程实践中经常发生，不仅浪费能源，还会引发严重的安全和环境隐患。

传统的泄漏检测通常需要经过数据采集、降噪、特征提取和分类诊断四个步骤，比较割裂。数据采集通常会得到振动、声学或图像类原始数据，其中声学类有着传播距离长、非接触测量和无盲区等优势，故本研究选定其作为原始数据。然而，现有的降噪算法难以处理工业现场中复杂的背景噪声，人工提取音频特征又高度依赖专家的先验知识，这就导致模型在面对新的工业环境时需要重新设计，泛化能力大打折扣。

1.2 方法论

为了解决上述问题，突破传统机器学习分类器和普通深度学习模型的局限，本研究提出了一种结合频谱增强（Spectrum Enhancement）与卷积神经网络的新型端到端架构，即 SE-CNN。

在数据输入与预处理上，该方法首先采集受外界干扰较小的超声波频段音频信号，随后通过核心的频谱增强模块对其进行短时傅里叶变换，提取出特定频段的时频子矩阵，并通过二维离散卷积操作在矩阵上滑动过滤，以达到凸显泄漏的平稳信号并消除背景非平稳噪声的目的。

在网络架构上，经过增强处理的数据会输入到一个受 VGGNet 启发但更为轻量化的 CNN 网络中，该网络包含 9 个卷积层和 4 个池化层，同时为了有效防止模型过拟合并降低计算负担，使用全局平均池化层替代了传统的全连接层。

1.3 创新点

该研究的核心创新在于频谱增强模块与 CNN 的结合，将传统检测步骤中的降噪、特征提取和分类诊断三个步骤集合为一个，系统仅需接收原始声音数据即可直接输出是否泄漏的诊断结果。

其中，频谱增强模块主要采用短时傅里叶变换，不仅在数据进入网络前有效抑制了背景干扰，还能大幅压缩数据体积；通过引入全局平均池化和 Dropout 机制，该架构在保持网络深度的同时大幅削减参数量，赋予了模型极为出色的鲁棒性。

1.4 实验结果及分析

论文在真实管线（主管道直径125mm，分支25mm）上采集了6类不同状态，即无泄漏/微小泄漏/大泄漏等，并混合强弱背景噪声的数据进行测试。

首先，对频谱增强效果进行了定性与定量两个方面的验证，发现采用频谱增强技术的效果优于不采用，提高其值可以使频谱更强，但谱的大小会相应缩小，可能导致关键信息的丢失。

其次，在卷积架构中，不同步幅（S）对 SE-CNN 的性能影响不大，值较大则在显著缩短训练时间同时可能伴随丢失关键信息的风险；核的个数（K) 主要取决于 S，当 K≥2S 时，频谱增强后的矩阵相邻元素之间的差值会减小，从而削弱频谱的特征。

最后，对比了 SVM、CNN 与 SE-CNN 的效果，SE-CNN 在各类任务中的平均准确率达到了 94.3%。尤其在条件最为苛刻的强背景噪声环境下，其准确率依然逼近九成，显著优于 SVM 与普通 CNN ，充分验证了该算法在工业抗干扰应用中的巨大价值。

2 补充：STFT

2.1 定义

**短时傅里叶变换（Short-time Fourier Transform, STFT）**是一种时频分析方法，能够将一维的时间序列信号转化为二维的时频矩阵，从而更清晰地反映原始信号在不同时间和频率上的特征。

在前面学习量子傅里叶变换时，了解到傅里叶变换（FT）主要是提供了一种全新的视角来理解复杂信号。具体而言，假设有一杯由橙汁、苹果汁和葡萄汁混合而成的果汁，普通视角下只会感受到复杂的味道，在傅里叶变换的视角下则能知道这杯混合果汁里包含了多少橙汁、多少苹果汁与多少葡萄汁。

对于这种频率不随时间变化的信号（平稳信号），傅里叶变换已然足够；但对于频率随时间剧烈变化的信号（非平稳信号），它却力有不足，为了了解频率随时间演变的过程，短时傅里叶变换出现了。

2.2 原理与数学表示

STFT 主要原理是将一个长信号切分成许多个等长的短片段，并假设在极短的时间窗口内，信号是平稳的。其步骤大概是，首先，用一个特定的窗口函数（如汉宁窗、高斯窗）截取信号的一小部分（即加窗），对这一小块信号进行快速傅里叶变换，得到该时刻的频率分布；接着，将窗口向后移动一段距离并重复前面的步骤直至结束；最后，将所有片段的结果按时间顺序排列，形成一张二维的网格图。

对于连续信号，其公式为：

其中为输入的原始信号，f 为频率，为中心位置在的窗函数。

它的结果直观表现为时频图，也是理解声音或波形的常用工具，通常横轴代表时间，纵轴代表频率，颜色或者亮度则代表能量的大小（振幅），下图就是前篇论文中利用短时傅里叶变换得到的一个时频图例子：

2.3 局限与应用领域

STFT 的局限性在于其时间和频率分辨率不可兼得。对于短时间窗口（窄窗），由于其时间切割较细，在得到精准变化的时间点的同时，傅里叶变换采样点变少，频率精度变差；对于长时间窗口就相反，能够将频率看得很准，但无法确定变化的具体时刻。因此在实际应用中，需要根据信号特征来选择合适的窗函数长度。

它主要应用于语音处理、音频分析、工业检测和医学等领域，进行语音识别、音色分析、声学信号处理或分析脑电图之类的工作。

3 总结

本周主要阅读了一篇论文，并基于论文对不了解的知识点，即短时傅里叶变换进行了拓展。在论文的导论部分，给检测的每个步骤都罗列了一些方法，感觉后面可以补充学习，同时论文列出了成本函数、梯度下降、F1分数等许多公式，也让我顺带回顾了一下前面的知识。