ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

说出概念,SAM 3 就明白你在说什么,并在所有出现的位置精确描绘出边界。

Meta 的「分割一切」再上新?

9 月 12 日,一篇匿名论文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登陆 ICLR 2026,引发网友广泛关注。

大家纷纷猜测,这篇论文出自 Meta,毕竟文风和 Meta 以前发布的论文非常相似。再加上 SAM 与 SAM 2 均由 Meta 推出,这让外界几乎可以确定,SAM 3 就是 Meta「Segment Anything」系列的正式续作。

在时间节点上,这篇论文的出现也几乎完美契合 Meta 的节奏。SAM 1 于 2023 年 4 月发表,获得当年 ICCV 最佳论文提名,其(零样本)分割一切的概念让研究者直呼「CV」不存在了,并且被誉为 CV 领域的「GPT-3 时刻」。

SAM 2 于 2024 年 7 月发表,在前身的基础上为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能统一到一个强大的系统中。

而如今,又是一年过去了。SAM 3 的登场似乎恰逢其时。

那么这次 SAM 3 有什么新进展呢?

它被定义为一个更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS)。

即将文本和 / 或图像范例作为输入,为每一个与该概念匹配的对象预测实例掩码和语义掩码,同时在视频帧之间保持对象身份的一致性。该工作的重点是识别原子视觉概念 (atomic visual concepts),因此将输入文本限制为简单的名词短语,例如「红苹果」或「条纹猫」,只要描述你想要的东西,它就能在图像或视频中找到并分割出每一个对应实例。

这意味着,分割终于学会了理解语言,但不是那种模糊的语义联想,而是一种扎根于视觉的极简理解方式。说出概念,它就明白你在说什么,并在所有出现的位置精确描绘出边界。

有的小伙伴可能记得,SAM 1 就有文本功能,这次又有什么不同呢?

论文中明确指出,在 SAM 1 中,文本提示的功能「没有被完全开发」(were not fully developed)。SAM 1 和 SAM 2 的实际重点在于视觉提示(如点、框、掩码)。

它们未能解决一个更广泛的任务:即找到并分割出输入内容中(例如,一段视频里所有的「猫」)出现的某一概念的所有实例。

简单来说,SAM 3 让用户从「手动一个个点出来」升级到了「告诉模型一个概念,它帮你全部找出来」。

SAM3 在两方面均取得进步。在通过点击进行可提示视觉分割方面(左图),SAM3 的性能优于 SAM2;同时,它在可提示概念分割方面(右图)也取得了进展,用户可以通过一个简短的名词短语、图像范例或两者的组合,来指定一个视觉概念并分割出其所有实例。

在论文提出的新基准 SA-Co 上,SAM 3 的性能比之前的系统提升了至少 2 倍 。在多个公开基准测试上取得了 SOTA 成绩。例如,在 LVIS 数据集上,它的零样本掩码平均精度达到了 47.0,而之前的最佳纪录是 38.5 。

同时,模型在单个 H200 GPU 上处理一张有超过 100 个物体的图像仅需 30 毫秒 。

不过评论区也对该工作提出了质疑。有人指出,根据文本描述分割物体的想法并不新鲜,在学术界早已被称为「指代分割」,并且已有相当多的研究。因此,有人认为这项工作只是将一个旧概念「重新命名」和包装。

还有评论认为,Meta 只是在「追赶」开源社区的步伐,因为社区早已通过组合不同的模型(例如,将检测模型与 LLM API 结合)实现了类似的功能。

方法介绍

文中提到,SAM 3 是对 SAM 2 的扩展,其在图像与视频中实现了可提示分割(promptable segmentation)的重大突破。

与 SAM 2 相比,SAM 3 在可提示视觉分割(Promptable Visual Segmentation,PVS)上表现更优,并为可提示概念分割(Promptable Concept Segmentation,PCS)设定了新的标准。

至于 PCS 任务以及 PVS 任务,简单来说就是,SAM 3 接收概念提示(如简单的名词短语如黄色校车、图像示例)或视觉提示(如点、框、掩码)来定义需要进行时空分割的对象(可逐个分割)。

可以说,本文聚焦的重点是识别原子级视觉概念,如红色苹果(red apple)或条纹猫。如图 1 所示,用户可通过简短名词短语、图像示例或二者组合,分割指定视觉概念的所有实例。

不过 PCS 本身存在固有模糊性,许多概念具有多重释义:例如小窗户这个短语就很有主观性(多大算小?多大算大?)和边界模糊(是否包含百叶窗?)。

针对这一问题,Meta 在数据收集、指标设计和模型训练等多个阶段对这些模糊性问题进行了系统化处理。与前代 SAM 版本一致,SAM 3 保持完全交互性,允许用户通过添加优化提示来消除歧义,引导模型生成预期输出。

在模型架构上,SAM 3 采用双编码器 - 解码器 Transformer 架构,这是一个具有图像级识别能力的检测器 ------ 通过与跟踪器和内存模块相结合,可应用于视频领域。检测器和跟踪器通过对齐的感知编码器(PE)主干网络接收视觉 - 语言输入。

此外,该研究还构建了一个可扩展的人机协同数据引擎(如下图),用于为大规模多样化训练数据集进行标注。基于这套系统,该研究成功标注了包含 400 万独特短语和 5200 万掩码的高质量训练数据,以及包含 3800 万短语和 14 亿掩码的合成数据集。

更进一步的,本文还创建了用于 PCS 任务的 Segment Anything with Concepts(SA-Co)基准测试,涵盖 124K 张图像和 1.7K 视频中的 214K 独特概念,其概念数量超过现有基准测试集 50 倍以上。

实验

表 1 显示:在零样本设置下,SAM 3 在封闭词汇数据集 COCO、COCO-O 和 LVIS 的边界框检测任务中具有竞争力,在 LVIS 掩码任务上表现显著更好。

在开放词汇 SA-Co/Gold 数据集上,SAM 3 的 CGF 分数是最强基线 OWLv2 的两倍,在其他 SA-Co 子集上的提升甚至更高。

在 ADE-847、PascalConcept-59 和 Cityscapes 上进行的开放词汇语义分割实验显示,SAM 3 的表现超越了强大的专家型基线 APE。

小样本自适应。SAM 3 在 10-shot 设置下实现了当前最优性能,超过了 Gemini 的上下文提示以及目标检测专家模型(如 gDino)。

带有 1 个样本的 PCS。表 3 显示在三种设置下,SAM 3 在 COCO (+17.2)、LVIS (+9.7) 和 ODinW (+20.1) 上的表现均远超之前最先进的 T-Rex2。

物体计数。结果如表 4 所示,与 MLLM 相比,SAM 3 不仅实现了良好的物体计数准确率,而且还提供了大多数 MLLM 无法提供的对象分割功能。

SAM 3 在文本提示下的视频分割表现。结果显示 SAM 3 的表现远超基线,尤其是在包含大量名词短语的基准测试中。

表 6 将 SAM 3 与 VOS(Video Object Segmentation) 任务上的先进方法进行了比较。SAM 3 在大多数基准测试中都比 SAM 2 取得了显著的改进。对于交互式图像分割任务,SAM 3 在平均 mIoU 方面优于 SAM 2。

了解更多内容,请参考原论文。

相关推荐
清风吹过3 小时前
LSTM新架构论文分享6:LSTM+Transformer融合
论文阅读·人工智能·深度学习·神经网络·lstm·transformer
Hoking3 小时前
LangChain4j集成SpringBoot接入百炼大模型(Qwen)
java·人工智能·spring boot·llm
量子位3 小时前
马斯克从英伟达挖人做AI游戏!第一步:研发世界模型
人工智能·ai编程
程序员大雄学编程3 小时前
「机器学习笔记11」深入浅出:解密基于实例的学习(KNN算法核心原理与实践)
人工智能·笔记·机器学习
AI拉呱_4 小时前
第145期《2025年AI现状报告》解读(三):安全篇
人工智能·安全
益企研究院4 小时前
AICC2025 智算中心与算力服务论坛顺利举办
人工智能
千年人参1004 小时前
AI 与神经网络:从理论到现代应用
人工智能·深度学习·神经网络
视***间4 小时前
边缘计算的未来:从技术突围到规模化爆发的关键十年(智算未来,驱动创新——视程空间赋能智能时代核心AI算力)
人工智能·科技·边缘计算·ai算力·视程空间
工藤学编程4 小时前
零基础学AI大模型之解析器PydanticOutputParser
人工智能