深度学习周报（3.23~3.29）

摘要

本周主要阅读了两篇关于甲烷泄漏检测的文献，两篇都基于同样的数据集 GasVid，前者侧重于检测甲烷是否泄漏，属于二分类任务，后者在前者的基础上侧重于对甲烷泄漏的程度进行划分定级。此外拓展了部分相关知识，如全球变暖潜能、羽流以及甲烷泄漏的相关量化技术等。

Abstract

This week, I mainly read two papers on methane leak detection, both based on the same dataset, GasVid. The former focused on detecting whether methane is leaking, which is a binary classification task, while the latter built on this to further classify and grade the severity of methane leaks. In addition, I expanded my knowledge on related topics, such as global warming potential, plumes, and quantification techniques for methane leaks.

1 《Machine vision for natural gas methane emissions detection using an infrared camera》

链接：Machine vision for natural gas methane emissions detection using an infrared camera - ScienceDirect

1.1 研究背景

天然气在全球能源体系中占据重要地位，但其主要成分甲烷在全球变暖潜能（GWP）上远高于二氧化碳，故在低碳未来中的作用仍存在争议，也因此及时发现天然气基础设施中的甲烷泄漏对于应对气候变化和减少经济损失至关重要。

p.s 全球变暖潜能（GWP）是指在一定时间尺度内，某种温室气体排放到大气中对全球变暖的影响相对于等质量的二氧化碳的影响。

目前广泛使用光学气体成像（OGI）红外摄像机进行人工巡检，因为不同性质的气体羽流在红外摄像机中会呈现为不同颜色，但这种方法会耗费较高的劳动力成本、无法持续监测与实时反馈，不同 OGI 运营商的调查质量也参差不齐。因此，需要利用自动化技术来代替人工检测甲烷泄漏的情况。

p.s 羽流是指从源头排放出来的气态或液态流体，在本文情境中，则特指天然气从泄漏点喷射出来后在空气中流动、扩散形成的类似羽毛或烟雾状的可见区域。

1.2 方法论

首先，论文通过在科罗拉多州 METEC 设施进行受控释放构建了 GasVid 数据集，包含来自不同泄漏源的甲烷泄漏标注视频，共覆盖 5 种距离和 7 种泄漏速率。

其次，为了消除红外视频中背景波动的影响，让模型更容易锁定羽流，论文对数据进行了预处理（即背景减除）与归一化，对比了无背景减除、固定背景减除、移动平均背景减除和基于高斯混合模型（MOG）的背景减除几种方法的效果。

最后，论文基于 TensorFlow 开发了名为 GasNet 的二维卷积神经网络，测试了不同复杂度架构的效果，并设计了基于光流法的传统机器视觉方法作为基线模型进行对比。

1.3 创新点

第一，这是该领域内首次将深度学习和计算机视觉直接应用于红外摄像机甲烷泄漏视频的自动检测。

第二，系统性分析了背景扣除算法对深度学习在气体检测中精度的影响，验证了在红外气体成像背景下，进行合适的图像背景扣除确实对提高深度学习模型精度能起到一定作用。

1.4 实验及结果

实验在多个成像距离和不同泄漏尺寸下进行。

**对于不同背景减除方法：**不采用的最高准确率为82%，标准差均低于2.0%，随着距离增加和泄漏尺寸减小，性能会迅速退化，总体而言效果最差；固定减除在4.6米和6.9米下的所有准确率水平均超过93%，且标准差较小；平均减除相较于固定减除的检测精度均显著提升；高斯混合优于固定减除，但在十米左右及更远时效果逊于平均减除，更近距离与平均减除相似。

**对于不同复杂度的模型架构：**在近距离时准确率均保持高位，架构差异并不显著；随着距离增大，GasNet-2性能优于其他两种架。

对于不同聚合程度：通过将所有距离和泄漏大小的数据混合训练一个通用模型，比单独针对每个距离训练的模型表现出更好的泛化能力，平均准确率达到 95%。

2 《VideoGasNet: Deep learning for natural gas methane leak classification using an infrared camera》

链接：VideoGasNet: Deep learning for natural gas methane leak classification using an infrared camera - ScienceDirect

2.1 研究背景

在成功实现了对是否发生泄漏进行自动检测（即上篇论文）之后，工业界进一步地需要评估泄漏的严重程度，以优先安排对大规模泄漏源的修复，因为少数大泄漏源的泄漏量往往占据总泄漏量的大部分。此外，前文主要针对静态单帧图像进行处理，但甲烷羽流是具有高度时空动态特性的流体，静态的单帧图像可能无法捕捉其完整的物理特征。本文主要基于此进行深入研究。

2.2 方法论

首先，将问题由简单的二分类升级为八分类（不同流率等级）与三分类（小、中、大）两种多分类问题从而实现按程度分类泄漏情况以确定大规模泄漏源。

其次，不再局限于静态处理，而是引入处理视频序列的深度学习架构，将较长视频划分为不同帧数的短视频，并对比效果（比如一段视频有 750 帧，每段 5 帧则一共 150 段，编号为 5）

随后，对比了不同模型结构的效果，即类似于 GasNet 的 2D CNN、加入时间维度提取时空特征的 3D CNN 与结合卷积和长短期记忆网络处理时序依赖的 ConvLSTM。

最后，对损失函数进行优化，引入错误惩罚系数，即将大泄漏误判为无泄漏的惩罚要远高于将其误判为中泄漏。

2.3 创新点

第一，首次提出并实现了基于红外视频的甲烷泄漏程度分类技术。

第二，不仅关注画面空间信息，还提出了利用连续多帧视频片段和时序模型来捕捉气体羽流随时间扩散的动态特征。

2.4 实验及结果

在原始的八分类实验中，对于不同的视频帧数，3D CNN 均优于 ConvLSTM 和 2D CNN，视频帧编号 15 和 60 的预测准确率高于视频帧编号 5 和 100 ；而对于不同的距离，在 4.6 米和 6.9 米时，3D CNN 与 ConvLSTM 之间的准确率差异并不显著；但该实验最高准确率不超过 40%，体现在 3D CNN 上，故将其命名为 VideoGasNet。

在最简单的二分类实验中，本文提出的 VideoGasNet 架构优于前文的 GasNet，这表明本文架构适用于简单检测场景。

对于三分类实验，则主要是将复杂的八级气体排放数据映射并预测出具有实际指导意义的三级（Small, Medium, Large）排放流率规模，在 4.6 米下，其准确率达到 78.2%。

3 总结

本周主要阅读的两篇论文是同一个团队的，都与甲烷泄漏检测有关，整体上构成了递进的关系，前者通过视频的单帧静态画面检测有无甲烷泄漏，后者则联系了时序关系对甲烷泄漏程度进行多分类，大体都是采用卷积结构（加一点混合的 LSTM），后续打算看看有没有相关领域应用注意力机制的文献。