论文阅读笔记：Gated CRF Loss for Weakly Supervised Semantic Image Segmentation

[1 背景](#1 背景)
[2 创新点](#2 创新点)
[3 方法](#3 方法)
[4 模块](#4 模块)
- [4.1 语义分割交叉熵](#4.1 语义分割交叉熵)
- [4.2 弱标签（涂鸦/点）](#4.2 弱标签（涂鸦/点）)
- [4.3 Gated CRF Loss](#4.3 Gated CRF Loss)
[5 效果](#5 效果)
- [5.1 总体效果](#5.1 总体效果)
- [5.2 消融实验](#5.2 消融实验)
[6 结论](#6 结论)

1 背景

最先进的语义分割方法依赖于在完全标注的数据集上训练的深度卷积神经网络，这些数据集已被证明在时间和金钱方面都非常昂贵。为了纠正这种情况，弱监督方法利用了其他形式的监督，这些监督需要的注释工作量要少得多，但由于这些区域中监督信号的近似性质，它们通常无法预测精确的对象边界。虽然在提高性能方面取得了很大进展，但许多这些弱监督方法都是针对其自身的特定设置高度定制的。这给重用算法和稳步推进带来了挑战。

以前的弱监督方法依赖于替代的监督来源，无论是生成分割建议，扩大注释输入，其他任务的先验，在其他数据集上进行预训练，还是采用非常规的训练程序，以尽量减少弱监督和完全监督分割性能之间的差距。虽然已经取得了相当大的进展，但许多以前方法中引入的模块都是针对其特定设置量身定制的，这限制了重用算法和在该领域取得稳步进展的可能性。本文旨在寻找一种简单而有效的学习方法来研究弱监督语义分割的基本问题。

2 创新点

提出了门控CRF损失

门控 CRF 损失旨在提供几个重要作用：

1）它使内核结构具有灵活性，以掩盖来自不需要的像素位置的影响

2）它将学习语境关系卸载到CNN上，并专注于语义边界

3）它不依赖于高维滤波，因此具有简单的实现

3 方法

本文训练了标准神经网络，对有标注的像素使用部分交叉熵损失函数，对未标注的像素提出了门控CRF损失。

在整篇论文中，介绍了该损失函数的优点，分析了弱监督训练的几个方面，并表明本文的"纯粹"方法在基于points和基于scribbles的标注中实现了最先进的性能。

4 模块

4.1 语义分割交叉熵

训练用于语义分割任务的神经网络 F F F 需要成对的图像 x x x 及其带标注的对应图像 y y y ，传递 C C C 类中的每像素类分配。用 N N N 表示图像中的像素总数、带下标的像素位置以及预测 y ^ = F ( x ) \hat{y}=F(x) y^=F(x) 中类别 i i i 的概率为 y ^ ( i ) \hat{y}(i) y^(i) 。多类分类问题的传统损失是交叉熵损失，当标签 y y y 作为概率分布给出时（软标签），其形式为

或当标签 y y y 具有类标签时（硬标签）

在完全监督中，训练图像的几乎所有像素都被标注，形成与 y y y 大小相同的标注像素 m i ∈ { 0 , 1 } m_i \in \{0, 1\} mi∈{0,1} 的密集图，可能存在未标注的例外，包括不明确或不相关的类。在弱监督中，仅对训练图像的几个像素进行标注，形成标注像素 m i m_i mi 的部分图，其稀疏性取决于弱标注的类型（例如涂鸦、点）。由于未标注的像素不向学习过程提供任何信息，因此在用于通过反向传播计算梯度的损失函数中不考虑它们，即

请注意，在文献中，由于标注像素 m i m_i mi 的部分映射，弱监督语义分割的交叉熵损失通常称为部分交叉熵（pCE）。

4.2 弱标签（涂鸦/点）

典型的弱监督是由标注更少像素同时获得更多样本的动机驱动的。绘制多边形、涂鸦或边界框已被证明可以在标注时间和分割性能之间产生良好的折衷。与边界框相比，点击和涂鸦具有一些有价值的资产：1）虽然稀疏，但注释像素更加准确和可靠； 2）标注过程更加高效； 3）对象类和东西类（例如"天空"、"道路"）可以以相同的方式处理。因此，在这项工作中，专注于点击和涂鸦注释，但所提出的技术也可以应用于例如通过用适当的损失替换 pCE 来实现图像级标签。

4.3 Gated CRF Loss

本文着手寻找一种方法来最小化弱监督和完全监督语义分割之间的性能差距。作者希望在不依赖任何常用先验的情况下实现这一目标，例如"objectness"；不扩大带标注的输入；没有在类似任务和数据集上预训练模型（即 COCO）；无需使用复杂的训练程序或使用非常规最小化技术优化网络权重；并且不会生成"fake" proposals作为GT并进行多轮训练，这被证明会导致过拟合。

由于仅在弱标注上应用 pCE 通常无法提供接近语义边界的足够监督信号，因此在监督不可用的情况下，很自然地会出现更糟糕的预测。为了缓解这种情况，作者使用带标注的输入作为 pCE 监督信号的种子，并使用其他形式的正则化将其传播到周围像素。这种方法已被证明适用于经典 CRF 后处理和损失函数。然而，作者将设置限制为单轮联合训练，没有预处理/后处理操作。

首先定义类别 i i i 和 j j j 在位置 a a a 和 b b b 的能量方程

其中， ψ a , b \psi_{a,b} ψa,b 表示成对的潜在可能性， μ \mu μ 表示通用类兼容性矩阵，尺寸为 R C × C R^{C \times C} RC×C ，紧接着的是 P P P 个内核 k ( p ) ( ⋅ , ⋅ ) k^{(p)}(\cdot, \cdot) k(p)(⋅,⋅) 用于一对有权重 w ( p ) w^{(p)} w(p) 的位置。特征向量 f a ( p ) f_a^{(p)} fa(p) 是第 p p p 个内核独有的，并且不依赖于预测结果。实际情况下，通常由位置坐标或者输入的模态信息（RGB或者深度图）决定。根据文献[32]，作者使用的 k ( p ) ( ⋅ , ⋅ ) k^{(p)}(\cdot, \cdot) k(p)(⋅,⋅)为

观察定义的能量项，很明显，在特征相似的情况下，如果两个位置的类标签不同，则其值会更高。这种相似性是由内核的组合、权重和带宽定义的，在单个双边 (RGBXY) 内核的情况下，这些相似性会转化为5D颜色邻近相似性。图2中展示了一些示例。

式-1中标记能量适合连续松弛，这是采用类别概率的损失函数的理想属性。现在，可以在位置 a a a 和 b b b 处写出预测 y ^ \hat{y} y^ 的能量，然后在"密集"设置中写出预测 y ^ \hat{y} y^ 的总能量，其中图像的每个像素都与其他每个像素相关：

预测 y ^ \hat{y} y^ 的能量公式是 CRF 的核心部分，并已在之前的工作中采用。虽然已经做出了改进，但在实例化弱监督语义分割的能量公式时，仍然缺少几个重要的方面。

Gated CRF Loss的改进包括：

（1） b ≠ a b \neq a b=a 条件指定总能量项不包括自标记能量。然而，除了自身位置 a a a 之外，还有其他像素位置可能需要从总能量中排除。排除点可以是标记为无效的像素，无论是 RGB 图像中曝光过度/曝光不足的区域，还是其他模式（例如深度图）中丢失的数据。 "待排除"区域也可以通过一些常用的计算操作生成，例如通过深度学习框架的数据增强（图像裁剪和旋转）生成的 RGB 图像的出界区域。为了排除这些像素影响其他像素，我们定义了一个与图像 x x x 大小相同的源图 m s r c m^{src} msrc ，其中 m a s r c ∈ { 0 , 1 } m_a^{src}\in\{0, 1\} masrc∈{0,1}，其中 1 表示可用于为任意像素提供成对能量的像素，否则为 0。

（2）所有位置 a ∈ [ 1 , N ] a \in [1, N] a∈[1,N] 的求和的假设条件是总能量是作为这样的累积而找到的。对于某些情况（包括弱监督分割）来说，这也是过度简单化。对于此任务，可能需要排除带标注的位置免受其他像素的影响，因为 pCE 损失在这些位置上提供了直接且更强的监督。简而言之，如果 pCE 正确分类了标注像素的标签，那么应用 CRF 能量项来"纠正"它们不会带来额外的好处。为了排除这些像素接收能量，作者定义了一个与图像 x x x 大小相同的目标图 m a d s t m_a^{dst} madst ，其中 m a d s t ∈ { 0 , 1 } m_a^{dst} \in \{0, 1\} madst∈{0,1} ，其中 1 表示可用于接收和累积成对能量的像素图像中的任何其他位置，否则为 0

（3）假设所有核都是高斯分布并且特征向量 k ( p ) k^{(p)} k(p) 包含位置坐标，对于任何固定位置 a a a ，联合标记 a a a 和 b b b 的成对能量将随着距 a a a 的距离而减小。具有长范围求和的 CRF 损失对结合 pCE 和 CRF 损失的深度神经网络的联合训练提出了巨大的计算挑战。当监督信号非常稀疏且微弱时尤其如此。作者认为，当与相当简单的一元项模型一起使用时，[32]中 CRF 设置的"密集"属性对于捕获像素之间的远程关系至关重要。基于 CNN 的现代预测模型发展了专注机制，可以有效地捕获全局上下文。因此，拥有密集的成对项可能不会带来额外的好处（即模型下采样后，本身就具备全局关联性）。更重要的是，这需要使用高维过滤技术来减轻过高的计算复杂性，这也使内核项的操作变得复杂。作者认为，在弱监督语义分割的背景下，将 b b b 的求和范围限制为局部邻域 Ω ( a ) \Omega(a) Ω(a) 是有益的，该局部邻域由可接受的信号损失和内核带宽 σ ( p ) \sigma^{(p)} σ(p) 的函数来表征。

为解决（1）（2）中的问题，重写式1来支持门控信息传播：

完整的能量方程变为：

后一种表示可以使用标准张量运算有效地计算。由于损失函数直接嵌入到网络中，因此在训练期间局部影响会传播到图像的整个范围。

我们提出的门控 CRF 损失函数只是预测类别概率的总能量：

总损失为

5 效果

5.1 总体效果

使用不同标注监督方式的可视化效果。

不同模型之间的效果对比。

5.2 消融实验

（1）Source and destination masking

Table 1表明source masking的效果最好，是必须要有的。进一步添加destination masking使Cityscapes数据集改善约 1%，但 Pascal VOC 恶化最多 0.20%。这可以通过两个数据集中弱标注的性质来解释。Cityscapes通常包含许多散布在图像周围的物体实例。这为 pCE 单独学习强类描述提供了足够的弱标注。因此，在这种情况下激活目标屏蔽是有意义的，因为它会抑制门控 CRF 丢失对更可靠的 pCE 的影响。然而，在 Pascal VOC 中，图像中通常只存在几个对象实例。因此，与 Cityscapes 相比，弱标注要少得多且稀疏，使得 pCE 的监督不太可靠。

（2）增大标注粗度

Table 2表明，即使像许多现有方法那样将点监督的大小从 [1×1]px 增加到 [3×3]px 看似微不足道，也会产生与基线情况相差 3% mIoU 的模型，即仅 PCE。然而，即使仅使用 [1×1]px 监督，在相同设置中与 pCE 一起使用的门控 CRF 损失也成功地弥补了这一差距。此外，任意放大带标注的输入并不总是有益的，因为它暗示了有关对象最小尺寸的先验知识，而对象的最小尺寸在数据集之间差异很大。例如，作者观察到，在 CityScapes 上仅使用 pCE 并没有从 [1×1]px 提高到 [3×3]px，可能是因为放大背景中非常小的对象的标注会导致其他类过度填充

（3）局部邻域尺寸

Table 3表明了增大 σ X Y \sigma_{XY} σXY 并不会持续提高验证机的效果，可见前面说明的局部损失对全局也有影响的推测是正确的。这暗示局部应用的损失即使对于很小的 σ X Y \sigma_{XY} σXY也会产生全局影响。

Figure 3说明了增大 σ X Y \sigma_{XY} σXY 对于细物体的结果更准，但是损失了边缘精度。

（4）GatedCRF损失权重

Table 4展示了使用不同的门控 CRF 损失权重 λ \lambda λ 和 3 个级别的监督对 Pascal VOC 的影响。选择的 λ = 0.1 \lambda=0.1 λ=0.1 值给出了最佳的总体结果。然而，还观察到，至少对于选定的 λ 值范围，门控 CRF 损失的影响并没有显着减弱，这可能表明它不太容易出现损失平衡问题。

6 结论

实验证明，本文的简单方法可以实现两种流行的弱监督形式的最先进性能：points和scibble。