SAM无法分割任何东西?- SAM- adaptor: 在表现不佳的场景中调整SAM - 现在支持SAM2!

SAM2-Adapter:

Evaluating & Adapting Segment Anything 2 in Downstream Tasks: Camouflage, Shadow, Medical Image Segmentation, and More

GitHub | Arxiv | Project

Abstract

The advent of large models, also known as foundation models, has significantly transformed the AI research landscape, with models like Segment Anything (SAM) achieving notable success in diverse image segmentation scenarios. Despite its advancements, SAM encountered limitations in handling some complex low-level segmentation tasks like camouflaged object and medical imaging. In response, in 2023, we introduced SAM-Adapter, which demonstrated improved performance on these challenging tasks. Now, with the release of Segment Anything 2 (SAM2)---a success with enhanced architecture and a larger training corpus---we reassess these challenges. This paper introduces SAM2-Adapter, the first adapter designed to overcome the persistent limitations observed in SAM2 and achieve new state-of-the-art (SOTA) results in specific downstream tasks including medical image segmentation, camouflaged (concealed) object detection, and shadow detection. SAM2- Adapter builds on the SAM-Adapter's strengths, offering enhanced generalizability and composability for diverse applications. We present extensive experimental results demonstrating SAM2-Adapter's effectiveness. We show the potential and encourage the research community to leverage the SAM2 model with our SAM2-Adapter for achieving superior segmentation outcomes.

大型模型(也称为基础模型)的出现极大地改变了人工智能研究的格局,其中诸如Segment Anything(SAM)之类的模型在多种图像分割场景中取得了显著成功。尽管SAM取得了进步,但在处理一些复杂的低级分割任务(如伪装物体检测和医学成像)时仍遇到了一些限制。

为了应对这些问题,我们在2023年推出了SAM-Adapter,该工具在这些具有挑战性的任务上表现出了改进的性能。现在,随着Segment Anything 2(SAM2)的发布------这是一款在架构上有所增强且训练数据集更大的成功之作------作者重新评估了这些挑战。

本文介绍了SAM2-Adapter,这是第一款旨在克服SAM2中持续存在的限制,并在包括医学图像分割、伪装(隐蔽)物体检测和阴影检测在内的特定下游任务中实现新的最先进(SOTA)结果的适配器。SAM2-Adapter在SAM-Adapter的优势基础上进行构建,为各种应用提供了增强的泛化能力和可组合性。我们展示了广泛的实验结果,以证明SAM2-Adapter的有效性。我们展示了其潜力,并鼓励研究界利用我们的SAM2-Adapter与SAM2模型结合,以实现更优的分割效果。

根据上传的文档《SAM2-Adapter -- Evaluating and Adapting Segment Anything 2 in Downstream Tasks -- Camouflage, Shadow, Medical Image Segmentation, and More.pdf》,以下是动机、方法和结论的详细解析:

动机

1. 背景与问题

大型模型(Foundation Models)的兴起:近年来,大型模型在AI研究中取得了显著进展,如Segment Anything (SAM) 模型在多种图像分割场景中表现出色。

SAM的局限性:尽管SAM在许多场景中都取得了成功,但在处理一些复杂的低级结构分割任务(如伪装对象检测和医学成像)时,其性能受到限制。

SAM-Adapter的提出:在2023年,研究者们提出了SAM-Adapter,通过适配SAM模型,在挑战性的下游任务中取得了更好的性能。

SAM2的发布:随着Segment Anything 2 (SAM2) 的发布,其增强的架构和更大的训练语料库引起了研究者的兴趣。然而,SAM在下游任务中遇到的问题在SAM2中是否依旧存在,成为了新的研究问题。

2. 研究动机

探索SAM2的局限性:验证SAM2在下游任务中是否仍面临相同的挑战。

设计SAM2-Adapter:设计一种适配器,以利用SAM2的强大预训练编解码器,在特定下游任务中实现新的最先进(SOTA)性能。

方法

1. 使用SAM2作为骨干

保留SAM2的编解码器:利用SAM2的图像编码器和掩码解码器组件,图像编码器权重保持冻结,以保留其在大规模数据集上学习到的丰富视觉表示;掩码解码器权重用预训练的SAM2参数初始化,并在训练过程中进行微调。

2. 引入SAM2-Adapter

适配器架构:设计了一个简单的适配器,由两个多层感知机(MLP)和一个激活函数组成。由于SAM2的图像编码器具有四个阶段的分层分辨率,因此为每个阶段初始化了四个不同的适配器,并在每个阶段的各层中插入适配器,同阶段的适配器权重共享。

任务特定信息的注入:通过适当的提示(prompts)将任务特定知识F_i注入网络,利用基础模型在大规模数据集上学习的能力,通过适当的提示增强模型在下游任务中的泛化能力。

3. 适配器的工作原理

生成提示:对于每个适配器,使用线性层(MLP_tune)生成任务特定的提示P_i,P_i通过上投影层(MLP_up)和GELU激活函数生成,并附加到SAM模型的每个Transformer层。

灵活的任务特定信息:F_i可以根据任务灵活设计,例如从特定数据集样本中提取的纹理或频率信息,或手工设计的规则。

结论

1. 解决了SAM2的局限性

通过SAM2-Adapter,研究者成功解决了SAM2在特定下游任务中的局限性,包括医疗图像分割、伪装对象检测和阴影检测。

2、 实现了新的SOTA性能

实验表明,SAM2-Adapter在多个任务和数据集上取得了新的SOTA性能,包括ISTD(阴影检测)、COD10K、CHAMELEON、CAMO(伪装对象检测)和kvasir-SEG(医学图像分割)。

3. 增强了模型的通用性和可组合性

SAM2-Adapter继承了SAM-Adapter的优势,具有更强的通用性和可组合性,能够轻松适应不同的应用场景,如从医学影像到环境监测。

相关推荐
ibrahim8 小时前
Llama 3.2 900亿参数视觉多模态大模型本地部署及案例展示
ai·大模型·llama·提示词
威化饼的一隅13 小时前
【多模态】swift-3框架使用
人工智能·深度学习·大模型·swift·多模态
伯牙碎琴15 小时前
智能体实战(需求分析助手)二、需求分析助手第一版实现(支持需求提取、整理、痛点分析、需求分类、优先级分析、需求文档生成等功能)
ai·大模型·agent·需求分析·智能体
聆思科技AI芯片17 小时前
实操给桌面机器人加上超拟人音色
人工智能·机器人·大模型·aigc·多模态·智能音箱·语音交互
zaim11 天前
计算机的错误计算(一百八十七)
人工智能·ai·大模型·llm·错误·正弦/sin·误差/error
deephub2 天前
LEC: 基于Transformer中间层隐藏状态的高效特征提取与内容安全分类方法
人工智能·深度学习·transformer·大语言模型·特征提取
Engineer-Yao2 天前
【win10+RAGFlow+Ollama】搭建本地大模型助手(教程+源码)
docker·大模型·win10·wsl·ollama·本地大模型·ragflow
宝贝儿好2 天前
【NLP】第七章:Transformer原理及实操
人工智能·深度学习·自然语言处理·transformer
Struart_R2 天前
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer 论文解读
人工智能·深度学习·计算机视觉·transformer·视频生成
AI程序猿人2 天前
三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力
人工智能·pytorch·深度学习·自然语言处理·大模型·transformer·llms