SAM附录详解 - 技术栈

前言

自动掩码生成细节

下面讨论用于生成发布数据集 SA-1B 的数据引擎全自动阶段的细节。

裁剪（Cropping）

掩码是通过在整张图像上以 32×32 的规则点网格进行采样生成的。此外，我们还使用了 2×2 和 4×4 的部分重叠窗口进行放大裁剪，在这些裁剪图像上分别使用 16×16 和 8×8 的规则点网格进行采样。裁剪使用的是原始高分辨率图像（这也是唯一一次使用原始图像）。我们移除了那些接触到裁剪区域内部边界的掩码。

我们使用标准的基于边界框的贪心非极大值抑制（NMS）方法，分两个阶段进行：

在每个裁剪区域内部进行 NMS：使用模型预测的 IoU 对掩码进行排序；
在所有裁剪区域之间进行 NMS：根据掩码来源的裁剪区域，从放大倍数最高的（即来自 4×4 裁剪）到放大倍数最低的（即原始图像）进行排序。

在这两个阶段中，我们都使用了 0.7 的 NMS 阈值。

过滤（Filtering）

我们使用了三个过滤器来提升掩码质量：

置信度过滤：只保留模型预测 IoU 分数大于等于 88.0 的掩码；
稳定性过滤：通过将同一个软掩码（soft mask）在不同阈值下二值化得到两个二值掩码，并比较它们之间的 IoU。只有当以 -1 和 +1 阈值得到的掩码之间的 IoU 大于等于 95.0 时，才保留以 0 阈值得到的掩码；
全图掩码过滤：我们发现有时自动生成的掩码会覆盖整个图像，这些掩码通常没有实际意义。因此我们过滤掉了覆盖面积超过图像 95% 的掩码。

所有过滤阈值的选择都旨在在保证掩码数量的同时，尽可能提高掩码质量，这一标准由专业标注人员根据第 5 节所述方法进行评估。

后处理（Postprocessing）

我们观察到两类可以通过后处理缓解的错误类型：

小的虚假区域：估计有 4% 的掩码包含小的、不相关的区域。为解决这一问题，我们移除了面积小于 100 像素的连通区域；如果一个掩码的最大区域也小于该阈值，则整个掩码都会被移除；
小的虚假空洞：估计也有约 4% 的掩码包含小的空洞。我们通过填充面积小于 100 像素的空洞来修复这些问题。空洞是通过对掩码取反后识别出的连通区域确定的。

自动掩码生成模型

我们为全自动掩码生成训练了一个特殊版本的 SAM 模型，该模型在推理速度上有所牺牲，但提升了掩码生成的质量。与默认的 SAM 模型相比，该版本的主要差异包括：

仅在手动和半自动数据上进行训练；
使用大规模抖动数据增强 [simple copy paste]，训练迭代次数更长（177656 次，而非 90000 次）；
模拟交互训练仅使用点和掩码提示（不使用框），且在训练中每个掩码仅采样 4 个点（相比默认的 9 个点，这加快了训练速度，对 1 个点的性能无影响，但如果评估使用更多点，会降低 mIoU）；
掩码解码器使用了 3 层而非 2 层。

待更新