目录
[1 文献阅读:《Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline》](#1 文献阅读:《Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline》)
[1.1 背景](#1.1 背景)
[1.2 方法论](#1.2 方法论)
[1.3 创新点](#1.3 创新点)
[1.4 实验结果及分析](#1.4 实验结果及分析)
[2 补充:STFT](#2 补充:STFT)
[2.1 定义](#2.1 定义)
[2.2 原理与数学表示](#2.2 原理与数学表示)
[2.3 局限与应用领域](#2.3 局限与应用领域)
[3 总结](#3 总结)
摘要
本周主要阅读了《Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline》这篇论文,了解了其将声学信号作为基础数据、结合频谱增强与 CNN 架构对甲烷泄漏进行检测的核心方法与创新;其次,基于论文对短时傅里叶变换进行了拓展学习,了解了其原理、局限与应用领域等知识点,同时回顾了部分之前学习过的内容。
Abstarct
This week, I mainly read the paper titled "Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline," gaining an understanding of its core method and innovations, which involve using acoustic signals as the foundational data and combining spectrum enhancement with a CNN architecture for methane leak detection. In addition, based on this paper, I further studied the short-time Fourier transform, learning about its principles, limitations, and application areas, while also reviewing some previously covered material.
1 文献阅读:《Enhanced spectrum convolutional neural architecture: An intelligent leak detection method for gas pipeline》
1.1 背景
天然气管道泄漏在工程实践中经常发生,不仅浪费能源,还会引发严重的安全和环境隐患。
传统的泄漏检测通常需要经过数据采集、降噪、特征提取和分类诊断四个步骤,比较割裂。数据采集通常会得到振动、声学或图像类原始数据,其中声学类有着传播距离长、非接触测量和无盲区等优势,故本研究选定其作为原始数据。然而,现有的降噪算法难以处理工业现场中复杂的背景噪声,人工提取音频特征又高度依赖专家的先验知识,这就导致模型在面对新的工业环境时需要重新设计,泛化能力大打折扣。
1.2 方法论
为了解决上述问题,突破传统机器学习分类器和普通深度学习模型的局限,本研究提出了一种结合频谱增强(Spectrum Enhancement)与卷积神经网络的新型端到端架构,即 SE-CNN。
在数据输入与预处理上,该方法首先采集受外界干扰较小的超声波频段音频信号,随后通过核心的频谱增强模块对其进行短时傅里叶变换,提取出特定频段的时频子矩阵,并通过二维离散卷积操作在矩阵上滑动过滤,以达到凸显泄漏的平稳信号并消除背景非平稳噪声的目的。
在网络架构上,经过增强处理的数据会输入到一个受 VGGNet 启发但更为轻量化的 CNN 网络中,该网络包含 9 个卷积层和 4 个池化层,同时为了有效防止模型过拟合并降低计算负担,使用全局平均池化层替代了传统的全连接层。
1.3 创新点
该研究的核心创新在于频谱增强模块与 CNN 的结合,将传统检测步骤中的降噪、特征提取和分类诊断三个步骤集合为一个,系统仅需接收原始声音数据即可直接输出是否泄漏的诊断结果。
其中,频谱增强模块主要采用短时傅里叶变换,不仅在数据进入网络前有效抑制了背景干扰,还能大幅压缩数据体积;通过引入全局平均池化和 Dropout 机制,该架构在保持网络深度的同时大幅削减参数量,赋予了模型极为出色的鲁棒性。
1.4 实验结果及分析
论文在真实管线(主管道直径125mm,分支25mm)上采集了6类不同状态,即无泄漏/微小泄漏/大泄漏等,并混合强弱背景噪声的数据进行测试。
首先,对频谱增强效果进行了定性与定量两个方面的验证,发现采用频谱增强技术的效果优于不采用,提高其值可以使频谱更强,但谱的大小会相应缩小,可能导致关键信息的丢失。
其次,在卷积架构中,不同步幅(S)对 SE-CNN 的性能影响不大,值较大则在显著缩短训练时间同时可能伴随丢失关键信息的风险;核的个数(K) 主要取决于 S,当 K≥2S 时,频谱增强后的矩阵相邻元素之间的差值会减小,从而削弱频谱的特征。
最后,对比了 SVM、CNN 与 SE-CNN 的效果,SE-CNN 在各类任务中的平均准确率达到了 94.3%。尤其在条件最为苛刻的强背景噪声环境下,其准确率依然逼近九成,显著优于 SVM 与普通 CNN ,充分验证了该算法在工业抗干扰应用中的巨大价值。
2 补充:STFT
2.1 定义
**短时傅里叶变换(Short-time Fourier Transform, STFT)**是一种时频分析方法,能够将一维的时间序列信号转化为二维的时频矩阵,从而更清晰地反映原始信号在不同时间和频率上的特征。
在前面学习量子傅里叶变换时,了解到傅里叶变换(FT)主要是提供了一种全新的视角来理解复杂信号。具体而言,假设有一杯由橙汁、苹果汁和葡萄汁混合而成的果汁,普通视角下只会感受到复杂的味道,在傅里叶变换的视角下则能知道这杯混合果汁里包含了多少橙汁、多少苹果汁与多少葡萄汁。
对于这种频率不随时间变化的信号(平稳信号),傅里叶变换已然足够;但对于频率随时间剧烈变化的信号(非平稳信号),它却力有不足,为了了解频率随时间演变的过程,短时傅里叶变换出现了。
2.2 原理与数学表示
STFT 主要原理是将一个长信号切分成许多个等长的短片段,并假设在极短的时间窗口内,信号是平稳的。其步骤大概是,首先,用一个特定的窗口函数(如汉宁窗、高斯窗)截取信号的一小部分(即加窗),对这一小块信号进行快速傅里叶变换,得到该时刻的频率分布;接着,将窗口向后移动一段距离并重复前面的步骤直至结束;最后,将所有片段的结果按时间顺序排列,形成一张二维的网格图。
对于连续信号 ,其公式为:
其中 为输入的原始信号,f 为频率,
为中心位置在
的窗函数。
它的结果直观表现为时频图,也是理解声音或波形的常用工具,通常横轴代表时间,纵轴代表频率,颜色或者亮度则代表能量的大小(振幅),下图就是前篇论文中利用短时傅里叶变换得到的一个时频图例子:

2.3 局限与应用领域
STFT 的局限性在于其时间和频率分辨率不可兼得。对于短时间窗口(窄窗),由于其时间切割较细,在得到精准变化的时间点的同时,傅里叶变换采样点变少,频率精度变差;对于长时间窗口就相反,能够将频率看得很准,但无法确定变化的具体时刻。因此在实际应用中,需要根据信号特征来选择合适的窗函数长度。
它主要应用于语音处理、音频分析、工业检测和医学等领域,进行语音识别、音色分析、声学信号处理或分析脑电图之类的工作。
3 总结
本周主要阅读了一篇论文,并基于论文对不了解的知识点,即短时傅里叶变换进行了拓展。在论文的导论部分,给检测的每个步骤都罗列了一些方法,感觉后面可以补充学习,同时论文列出了成本函数、梯度下降、F1分数等许多公式,也让我顺带回顾了一下前面的知识。