19 SAM 论文精读:ViT 如何成为分割基础模型的视觉编码器?

在上一篇文章中,我们精读了 CLIP。

CLIP 的核心思想是:使用大规模图文对训练图像编码器和文本编码器,让图像和文本进入同一个语义空间。它让 ViT 不再只是一个图像分类 backbone,而是成为多模态模型中的视觉编码器。

这一篇我们继续看另一个非常重要的视觉基础模型:SAM,Segment Anything Model。

如果说 CLIP 让 ViT 学会了"图像和语言如何对齐",那么 SAM 则让 ViT 进入了另一个更加基础的视觉任务:图像分割。

SAM 对应的论文是 Segment Anything,由 Alexander Kirillov、Nikhila Ravi、Ross Girshick 等人提出,发表于 ICCV 2023。论文提出了一个新的分割任务、一个可提示的分割模型,以及一个超大规模分割数据集 SA-1B;SA-1B 包含约 1100 万张图像和超过 10 亿个 mask。

一、为什么需要 SAM?

在 SAM 之前,图像分割已经有很多成熟任务,例如语义分割、实例分割、全景分割和交互式分割。语义分割关注的是:

每个像素属于哪个类别?

例如:

person、car、road、sky、building

实例分割关注的是:

每个目标实例在哪里?

例如同一张图中有三个人,实例分割不仅要知道这些像素属于 person,还要区分 person 1、person 2、person 3。

交互式分割关注的是:用户给一个点或框,模型分割用户想要的目标。

这些任务都很重要,但传统分割模型通常存在一个问题:任务和数据集绑定得很紧。

例如,一个在 COCO 上训练的实例分割模型,通常只能识别 COCO 定义好的类别;一个医学图像分割模型,往往需要专门的医学标注数据;一个遥感图像分割模型,也通常需要专门针对遥感场景重新训练。

SAM 想解决的问题更大:

能不能训练一个通用分割模型,让它面对新图像、新类别、新场景时,也能根据用户提示分割目标?

这就是 SAM 名字中 Segment Anything 的含义:不是只分割固定类别,而是尽可能分割任意图像中的任意对象。

二、SAM 的核心思想:Promptable Segmentation

SAM 最关键的概念是:

复制代码
Promptable Segmentation

也就是 可提示分割

这里的 prompt 和 NLP 中的 prompt 思想类似。对于大语言模型,我们可以输入一段提示,让模型完成不同任务;对于 SAM,我们可以输入点、框、粗略 mask 等提示,让模型分割对应区域。

SAM 的任务可以抽象为一个函数:

其中:

I 表示输入图像;

P 表示用户提供的 prompt;

M 表示模型输出的分割 mask;

表示 SAM 模型。

也就是说,SAM 不是简单地做:

而是做:

这一点非常重要。传统分割模型通常只输入图像,然后输出预定义类别的分割结果。SAM 则把用户提示也作为输入,因此它可以根据不同 prompt 输出不同 mask。例如同一张图像中有一只狗和一辆车:

点在狗身上 → 输出狗的 mask

框住汽车 → 输出汽车的 mask

给一个粗略 mask → 输出更精细的 mask

因此,SAM 的核心不是"自动识别所有类别",而是:根据提示分割用户指定的区域。

论文明确指出,SAM 被设计并训练为 promptable 模型,因此可以 zero-shot 迁移到新的图像分布和任务。

未完待续..............................................................

相关推荐
滴图服务-七七5 小时前
滴滴地图:精准定位赋能企业数字化转型
大数据·人工智能·地图服务·甲级测绘资质·商业授权
爱学习的程序媛5 小时前
2026上半年大模型全景技术解读:推理融合、Agent 爆发与多模态统一
人工智能·ai
A.说学逗唱的Coke7 小时前
【大模型专题】向量数据库深度解析:从原理到实战,构建企业级 AI 知识检索底座
数据库·人工智能
果丁智能7 小时前
智能锁赋能网约房民宿数字化管控:身份核验+远程授权,筑牢安全防线、降本增效
网络·数据库·人工智能·安全·智能家居
V搜xhliang02467 小时前
AI智能体的数据安全与合规实践
人工智能·学习·数据分析·自动化·ai编程
PPIO派欧云7 小时前
PPIO登上贵州新闻联播,深化AI算力生态建设
人工智能
hai3152475437 小时前
一种通过空间几何转换进行软件编程计算的方式与现有计算的对比
人工智能·深度学习·数学建模·硬件架构·几何学·图论·拓扑学
猿饵块7 小时前
LibreOffice---文档制作
人工智能
硅谷秋水7 小时前
HARBOR:一个面向具身智体机器人强化学习的驾驭框架
人工智能·深度学习·机器学习·机器人
Mr..Jackey7 小时前
瑞佑 RUI Builder 图形化 UI 设计工具
arm开发·人工智能·单片机·ui·人机交互·ra8889·lcd控制芯片