【论文阅读笔记】Lite-SAM Is Actually What You Need for Segment Everything

1.论文介绍

Lite-SAM Is Actually What You Need for Segment Everything

Lite-SAM是您实际上所需的分割一切的工具

2024年 arxiv
Paper

2.摘要

Segment Anything模型（SAM）以其优越的性能给分割领域带来了重大变化，但其对计算资源的巨大需求仍然是一个限制因素。 MobileSAM、Edge-SAM、MobileSAM-v2等许多作品都探索了轻量级解决方案。然而，他们使用传统的网格搜索采样策略或两阶段串联方法，不允许端到端训练，严重限制了分段一切（SegEvery）的性能。本文介绍了 Lite-SAM，这是一种针对 SegEvery 任务的高效端到端解决方案，旨在降低计算成本和冗余。 Lite-SAM由四个主要组件组成：精简的CNNTransformer混合编码器（LiteViT）、自动提示提议网络（AutoPPN）、传统提示编码器和掩码解码器。所有这些组件都集成在 SAM 框架内。我们的LiteViT是一个高性能的轻量级骨干网络，参数只有1.16M，比现有最轻的骨干网络Shufflenet减少了23%。我们还推出了 AutoPPN，这是一种用于提示框和积分生成的创新端到端方法。这是对传统网格搜索采样方法的改进，其独特的设计可以轻松集成到任何 SAM 系列算法中，从而扩展了其可用性。我们在大量公共和私人数据集上对 Lite-SAM 进行了彻底的基准测试。评估涵盖了广泛的通用指标，包括参数数量、SegEvery 执行时间和准确性。研究结果表明，Lite-SAM 以精简的 4.2M 参数运行，显着优于同类产品，与 SAM、MobileSAM、Edge-SAM、EfficientViT-SAM 和 EfficientViT-SAM 相比，性能提高了 43 倍、31 倍、20 倍、21 倍和 1.6 倍 MobileSAM-v2 分别始终保持有竞争力的准确性。这凸显了 Lite-SAM 在实现性能和精度之间的最佳平衡方面的能力，从而在该领域树立了新的最先进 (SOTA) 基准。

Keywords: SAM，轻量级SAM，SegEvery

3.Introduction

SAM 代表了视觉框架的重大进步，与 GPT 在 NLP 中的影响类似。它包含两个关键组件：基于 ViT 的图像编码器和提示引导掩模解码器，它们协同工作。 SAM 旨在处理两个分段任务：SegAny 和 SegEvery。这两项任务都涉及与类别无关的掩模分割，但目标不同。 SegAny 使用特定提示（例如点或框）来隔离和分割图像中感兴趣的特定项目。相比之下，SegEvery 的目标是描绘图像中所有可辨别的主题。

张超宁等提出了一种"解耦蒸馏"，旨在蒸馏 SAM 的 ViT-H 解码器，从而产生更高效的轻量级编码器，可以与 SAM 解码器集成。然而，该算法模型缺乏平台适配的鲁棒性，并且在翻译过程中表现出相当大的准确性损失，使其不太适合在移动设备上部署。赵等人介绍了基于 YOLOv8 [15] 构建的 Fast-SAM 模型，该模型展示了卓越的分割能力。然而，它的主要局限性是缺乏全方位的交互方式，特别是缺乏专用的框和点功能。李等人设计了 SemanticSAM，这是一种增强不同尺度图像的分割和识别多功能性的模型。但必须强调的是，其大量参数导致推理时间更长。韩才等人提出了 EfficientViT，引入了一种新颖的轻量级算法，该算法取得了有希望的结果。周崇等人。提出了 Edge-SAM ，这是一种在 iPhone 上实现 SegAny 任务实时执行的算法。所有上述方法[4,16,18,45,49,56,57]都针对SegAny进行了评估；然而，SegEvery 仍然非常耗时。

MobileSAM-v2 为 YOLOv8提出了一种创新的训练方法，使用预先生成的提示（对象感知提示采样）代替传统的 Gridsearch 采样策略，提高了 SegEvery 过程的效率。尽管有这样的改进，但这种方法需要使用单独的模型，这被认为是权宜之计。由于YOLOv8固有的推理和训练需求，总体节省的时间可能有限。为了解决上述问题，我们的贡献可总结如下：

我们推出了 LiteViT，这是一种轻量级 CNN-Transformer 编码器，通过减少参数来提高准确性，非常适合有限的计算环境。
开发 AutoPPN，一个自动提示提案网络，提高了网格搜索方法的效率，并与 SAM 系列算法轻松集成。
通过实验验证了 Lite-SAM 的性能，如图 1 所示，显示了 SegEvery 上的加速结果，同时保持了准确性。

4.网络结构详解

Lite-SAM架构，该架构由四个主要组件组成：LiteViT编码器、AutoPPN网络、标准提示编码器和掩码解码器。该配置如图（a）所示。新的AutoPPN模块专门设计用于简化自动化提示任务。该算法以端到端的方式同时对边界框提示和点提示进行回归，与已有的密集位置编码方案相比，显著减少了SegEvery任务的推理时间。这一进步是实现实时分割的关键。

Lite-SAM架构

标准的自注意力token混合器以其高计算成本而闻名。相比之下，组合CNN-Transformer混合结构在制作轻量级Vision Transformer（ViT）网络中发挥着重要作用。这种混合平衡了模型精度和计算效率。受现有研究中自注意力层的有效变化的启发，作者开发了LiteViT图像编码器，从PoolFormer-S12 基线开始。将图像编码器模型建立在一个称为LiteViT Block的新型构建模块上。详细的体系结构规范见图（b）。为了克服捕捉局部特征的挑战，本文将多尺度池化整合到了轻量级注意力模块中。具体地说，引入了多尺度池化模块（MSPM），以有效地增强网络架构的每个阶段的感受野。在LiteViT模块中，输入首先由MSPM模块处理，然后由卷积MLP（多层感知器）模块处理；每一级都通过跳跃连接进行连接。为了便于下采样和调整各级的输出通道，采用了一个称为补丁合并模块的专用模块，该模块可有效地充当主干卷积层。

AutoPPN ：

对提示使用密集位置编码的标准方法可能不适合实时分割任务。为了增强SegEvery任务的推理性能，引入了AutoPPN模块，该架构在图（c）中详细描述。用位于边界框中心的单个点表示对象是一种简单有效的技术。基于这一概念，AutoPPN框架以端到端的方式从输出特征图中预测提示点和边界框。相应的损失由两个元素组成：点提示的置信度和边界框回归的准确性。我们已实施三项重大修改以完善我们的方法，详情如下：

（1）通过用更复杂的主干MSPM网络取代基本的主干卷积网络来增强我们的网络。这种更新的网络有效地整合了多尺度空间信息，大大提高了对天空、建筑物和水体等大型物体或实体的检测召回率。

（2）为了估计点提示的置信度，我们结合了距离变换的使用，以便于计算点与其对应掩模之间的距离。如果一个点位于多个掩模内，我们会选择面积最小的掩模。不同于基于高斯的方法，我们的技术能够在前景和背景之间创建柔和的逐点真值区分，而非生硬的二元分割。此外，本文的方法优先识别对象或实体的最中心点，而不是简单地关注其边界框的中心。这种修改有助于减轻在涉及不清楚的点提示的场景中存在的模糊性。在计算损失时，我们选择了MSE（Mean Squared Error）。

同时，对于边界框回归，采用平滑L1损失。同样重要的是要注意，任何未标记的区域都被排除在损失计算过程之外。在推理过程中，我们只应用基于点的非最大值抑制（Point-NMS），并坚持选择前N个点的做法。

（3）在端到端回归阶段，我们根据边界矩形的大小将目标掩蔽区域分为三组：大（

），中等（）和小（）。对每组进行单独的损失计算。这三项改进极大地提高了性能。

PPN回归的总损失，其中LH-MSE表示硬挖掘MSE损失，LS-L1表示盒回归的平滑L1损失。

Loss ：

对于Lite-SAM的综合训练，结合了掩码损失，它结合了SAM中的原始焦点损失和骰子损失。这种组合量化了预测掩模和真值之间的逐像素对齐。此外，均方误差损失测量IoU预测与预测掩码与真实掩码的交集之间的差异。mask损失正式表示为：

总的训练损失由 L t o t a l = L p p n + L m a s k L_{total} = L_{ppn} + L_{mask} Ltotal=Lppn+Lmask定义。

说明

这个轻量化SAM的创新在于：

改掉原来的image encoder，创新一个LiteViT：它由多尺度池化和MLP代替自注意力，且每一层都用残差连接，还设计了一个patch merge模块，neck也是conv1*1+LN。
设计一个AutoPPN端到端地自动生成点提示或者框提示，并增加了点置信度损失和框回归损失以校正。有个问题在于它描述位置编码太过复杂费劲所以设置AutoPPN，但是位置编码是在mask decoder中使用的，如果说AutoPPN出来的点和框已经包含位置信息，那么提示编码器和mask decoder也会有改变，但文章中没有描述，所以这里存疑。