SAM无法分割任何东西?- SAM- adaptor: 在表现不佳的场景中调整SAM - 现在支持SAM2!

SAM2-Adapter:

Evaluating & Adapting Segment Anything 2 in Downstream Tasks: Camouflage, Shadow, Medical Image Segmentation, and More

GitHub | Arxiv | Project

Abstract

The advent of large models, also known as foundation models, has significantly transformed the AI research landscape, with models like Segment Anything (SAM) achieving notable success in diverse image segmentation scenarios. Despite its advancements, SAM encountered limitations in handling some complex low-level segmentation tasks like camouflaged object and medical imaging. In response, in 2023, we introduced SAM-Adapter, which demonstrated improved performance on these challenging tasks. Now, with the release of Segment Anything 2 (SAM2)---a success with enhanced architecture and a larger training corpus---we reassess these challenges. This paper introduces SAM2-Adapter, the first adapter designed to overcome the persistent limitations observed in SAM2 and achieve new state-of-the-art (SOTA) results in specific downstream tasks including medical image segmentation, camouflaged (concealed) object detection, and shadow detection. SAM2- Adapter builds on the SAM-Adapter's strengths, offering enhanced generalizability and composability for diverse applications. We present extensive experimental results demonstrating SAM2-Adapter's effectiveness. We show the potential and encourage the research community to leverage the SAM2 model with our SAM2-Adapter for achieving superior segmentation outcomes.

大型模型(也称为基础模型)的出现极大地改变了人工智能研究的格局,其中诸如Segment Anything(SAM)之类的模型在多种图像分割场景中取得了显著成功。尽管SAM取得了进步,但在处理一些复杂的低级分割任务(如伪装物体检测和医学成像)时仍遇到了一些限制。

为了应对这些问题,我们在2023年推出了SAM-Adapter,该工具在这些具有挑战性的任务上表现出了改进的性能。现在,随着Segment Anything 2(SAM2)的发布------这是一款在架构上有所增强且训练数据集更大的成功之作------作者重新评估了这些挑战。

本文介绍了SAM2-Adapter,这是第一款旨在克服SAM2中持续存在的限制,并在包括医学图像分割、伪装(隐蔽)物体检测和阴影检测在内的特定下游任务中实现新的最先进(SOTA)结果的适配器。SAM2-Adapter在SAM-Adapter的优势基础上进行构建,为各种应用提供了增强的泛化能力和可组合性。我们展示了广泛的实验结果,以证明SAM2-Adapter的有效性。我们展示了其潜力,并鼓励研究界利用我们的SAM2-Adapter与SAM2模型结合,以实现更优的分割效果。

根据上传的文档《SAM2-Adapter -- Evaluating and Adapting Segment Anything 2 in Downstream Tasks -- Camouflage, Shadow, Medical Image Segmentation, and More.pdf》,以下是动机、方法和结论的详细解析:

动机

1. 背景与问题

大型模型(Foundation Models)的兴起:近年来,大型模型在AI研究中取得了显著进展,如Segment Anything (SAM) 模型在多种图像分割场景中表现出色。

SAM的局限性:尽管SAM在许多场景中都取得了成功,但在处理一些复杂的低级结构分割任务(如伪装对象检测和医学成像)时,其性能受到限制。

SAM-Adapter的提出:在2023年,研究者们提出了SAM-Adapter,通过适配SAM模型,在挑战性的下游任务中取得了更好的性能。

SAM2的发布:随着Segment Anything 2 (SAM2) 的发布,其增强的架构和更大的训练语料库引起了研究者的兴趣。然而,SAM在下游任务中遇到的问题在SAM2中是否依旧存在,成为了新的研究问题。

2. 研究动机

探索SAM2的局限性:验证SAM2在下游任务中是否仍面临相同的挑战。

设计SAM2-Adapter:设计一种适配器,以利用SAM2的强大预训练编解码器,在特定下游任务中实现新的最先进(SOTA)性能。

方法

1. 使用SAM2作为骨干

保留SAM2的编解码器:利用SAM2的图像编码器和掩码解码器组件,图像编码器权重保持冻结,以保留其在大规模数据集上学习到的丰富视觉表示;掩码解码器权重用预训练的SAM2参数初始化,并在训练过程中进行微调。

2. 引入SAM2-Adapter

适配器架构:设计了一个简单的适配器,由两个多层感知机(MLP)和一个激活函数组成。由于SAM2的图像编码器具有四个阶段的分层分辨率,因此为每个阶段初始化了四个不同的适配器,并在每个阶段的各层中插入适配器,同阶段的适配器权重共享。

任务特定信息的注入:通过适当的提示(prompts)将任务特定知识F_i注入网络,利用基础模型在大规模数据集上学习的能力,通过适当的提示增强模型在下游任务中的泛化能力。

3. 适配器的工作原理

生成提示:对于每个适配器,使用线性层(MLP_tune)生成任务特定的提示P_i,P_i通过上投影层(MLP_up)和GELU激活函数生成,并附加到SAM模型的每个Transformer层。

灵活的任务特定信息:F_i可以根据任务灵活设计,例如从特定数据集样本中提取的纹理或频率信息,或手工设计的规则。

结论

1. 解决了SAM2的局限性

通过SAM2-Adapter,研究者成功解决了SAM2在特定下游任务中的局限性,包括医疗图像分割、伪装对象检测和阴影检测。

2、 实现了新的SOTA性能

实验表明,SAM2-Adapter在多个任务和数据集上取得了新的SOTA性能,包括ISTD(阴影检测)、COD10K、CHAMELEON、CAMO(伪装对象检测)和kvasir-SEG(医学图像分割)。

3. 增强了模型的通用性和可组合性

SAM2-Adapter继承了SAM-Adapter的优势,具有更强的通用性和可组合性,能够轻松适应不同的应用场景,如从医学影像到环境监测。

相关推荐
gz7seven6 分钟前
BLIP-2模型的详解与思考
大模型·llm·多模态·blip·多模态大模型·blip-2·q-former
我爱学Python!11 小时前
解决复杂查询难题:如何通过 Self-querying Prompting 提高 RAG 系统效率?
人工智能·程序人生·自然语言处理·大模型·llm·大语言模型·rag
rommel rain13 小时前
SpecInfer论文阅读
人工智能·语言模型·transformer
Just Jump1 天前
机器翻译基础与模型 之三:基于自注意力的模型
自然语言处理·transformer·机器翻译
audyxiao0011 天前
突破自动驾驶瓶颈!KoMA:多智能体与大模型的完美融合
人工智能·机器学习·大模型·自动驾驶·多智能体
cv君1 天前
视频修复技术和实时在线处理
深度学习·音视频·transformer·视频修复
机器学习之心2 天前
POD-Transformer多变量回归预测(Matlab)
matlab·回归·transformer·pod-transformer
Slender20012 天前
大模型KS-LLM
人工智能·深度学习·机器学习·自然语言处理·大模型·bert·知识图谱
regret~2 天前
【论文笔记】LoFLAT: Local Feature Matching using Focused Linear Attention Transformer
论文阅读·深度学习·transformer
haidizym2 天前
(笔记+作业)第四期书生大模型实战营---L0G2000 Python 基础知识
redis·笔记·python·大模型