分割万事万物的AI,再进化!Meta SAM 3 来了,支持中文提示词!

深夜,Meta 又一次给 AI 视觉领域丢下重磅炸弹------SAM 3(Segment Anything Model 3)与 SAM 3D 全面发布!

不仅模型开放权重,连推理代码、数据集、体验平台都一次性放出,可谓"真·全家桶"。

这意味着什么?

如果说早期的 SAM 1、SAM 2 让我们看到了"分割一切"的可能性,那么现在,Meta 想让机器做到更多:

不仅要分割一切,还要从一张图片里重建整个 3D 世界。

SAM 3

和 SAM 3D 关注 3D 不同,SAM 3 是新一代通用分割大模型,能力全面提升。

之前我们介绍过 SAM3 ICLR 2026 惊现 SAM 3,匿名提交,实现"概念分割",CV领域再迎颠覆性突破?通过引入可提示概念分割(promptable concept segmentation) 模型能够根据文本提示或示例图像提示,找到并分割某个概念的所有实例。

这次发布让我们看到,它不仅可以分割,还可以

检测 + 分割 + 跟踪

覆盖 图像 & 视频

并且支持 多种提示方式:

✔ 文本提示(Text Prompt)

✔ 示例提示(Exemplar Prompt)

✔ 视觉提示(Visual Prompt)

"Promptable Concept Segmentation"------概念级分割,这让 SAM 3 能识别大量新概念,并支持开放词汇。

为了评估模型在大词汇量情况下的检测与分割能力,Meta 还构建了 SA-Co(Segment Anything with Concepts)基准。与以往基准相比,SA-Co 涵盖了规模更大的概念词汇,挑战性显著提高。

在 Meta 发布的新 benchmark SA-Co 上,SAM 3 相比现有模型做到:

图像 + 视频概念分割性能提升一倍以上

用户偏好测试中,SAM 3 的结果是 OWLv2 的 3 倍

单图像推理 30ms 内完成 100+ 对象检测与分割

简而言之,速度快、效果强、能力广。

对于开发者和研究者而言,像Coovally 这样的AI平台已经集成了1000+预训练模型,您可以直接调用使用,极大简化了开发流程。

不仅如此,您也可以直接在Coovally平台上上传自己的模型和数据进行训练,享受一站式的AI开发体验。

!!点击下方链接,立即体验Coovally!!

平台链接: www.coovally.com

SAM 3D

SAM 3D 是 SAM 家族最新成员,一个真正将2D 分割能力延伸到 3D 理解的里程碑模型。

如果说 SAM 是"让所有人都能对图像进行分割"的起点,那么 SAM 3D 则是在此基础上迈向"人人皆可 3D"时代的重要一步:它不仅能识别物体、人体、场景,还能把普通 2D 图片"长成"完整的 3D 结构。

它包含两个子模型:

  • SAM 3D Objects

SAM 3D Objects 专注于通用物体与场景的3D重建,能从一个静止图像中还原物体的详细形状、纹理和空间布局。

数据引擎革命: 创建3D真值通常需要3D艺术家手动制作,费时费力。SAM 3D的创新在于,它构建了一个高效的"人机循环"数据标注引擎:

利用一系列模型自动为海量图片生成多个3D网格候选。让标注者(而非创建者)对AI生成的选项进行评分和排序,这是一个门槛更低、效率更高的任务。将最棘手的案例路由给专业的3D艺术家处理,以填补数据盲区。

通过这一引擎,Meta以前所未有的规模为近100万张真实世界图像标注了3D信息,生成了约314万个模型参与生成的网格。

训练范式创新: 借鉴大语言模型的成功经验,SAM 3D采用了"预训练-后训练" 的全新食谱。

在大量合成的3D资产上学习基础3D先验。利用上述数据引擎产出的真实世界数据,对模型进行"对齐"训练,从而跨越从合成数据到真实数据的鸿沟。

模型与数据引擎相互促进,形成一个不断自我改进的正向飞轮。

这些只需几年之前还属于研究级能力,如今被 Meta 做成开源工具。

  • SAM 3D Body
  • 海量高质量数据: 基于从数十亿图像中通过自动化引擎挖掘出的约800万张高质量图片进行训练,这些图片涵盖了罕见姿势和复杂拍摄条件,使模型对遮挡、奇异姿态和多样着装具有惊人的鲁棒性。
  • 可提示的交互设计: 模型支持通过分割掩码、2D关键点等交互输入来引导预测,让用户拥有更大的控制权。
  • 全新的参数化人体模型MHR: 本次开源还包括MHR模型,它将人体的骨骼结构与软组织形状分离,提供了更强的可解释性,并已应用于Meta的Codec Avatars等核心技术。

Meta 强调,这两个模型在各类 3D benchmark 上都达到了 SOTA(业界领先)性能。

一句话总结 SAM 3D:

把普通人拍的 2D 照片,变成可用于 AR/VR、影视、游戏、机器人和科学研究的 3D 数据。

Meta 还构建了一个包含约 800 万张图像的高质量训练数据集,使其能够应对遮挡、罕见姿态和各种服装,并在多个 3D 基准测试中均超越了以往的模型。

这次为什么这么重要?

从 SAM(2D 分割)到 SAM 3(通用检测/分割/跟踪)到 SAM 3D(3D 重建平台)

Meta 正在构建一个覆盖:

「2D 识别 → 3D 理解 → 视频跟踪 → 多模态推理」的完整视觉 AI 基础设施。

对于整个 AI 视觉生态的意义包括:未来的 AI 应用不再需要从零训练检测/分割模型

3D 生成、AR/VR、机器人将获得标准化 3D 感知能力视频编辑、特效制作将彻底简化。学术界获得了统一的开放数据与 benchmark工业检测、农业、安防、自动驾驶、小样本学习等领域都能直接接入。

一句话,这是视觉 AI 的一次"地基级"升级。

总结

当我们还在讨论"能不能分割一切"时,Meta 已经把问题升级为------"能不能从一张图片里重建世界?"

SAM 3D 与 SAM 3 的同步发布,让这个问题第一次变得现实和可实验。

未来一两年,围绕它们会诞生非常多的产业级创新。我相信这将是视觉 AI 赛道的一个重要里程碑。

相关推荐
九年义务漏网鲨鱼1 小时前
蓝桥杯算法——记忆化搜索
算法·职场和发展·蓝桥杯
04aaaze1 小时前
C++(C转C++)
c语言·c++·算法
赋创小助手1 小时前
英特尔确认取消 8 通道 Diamond Rapids:服务器 CPU 战局再度升级
服务器·图像处理·人工智能·深度学习·计算机视觉·自然语言处理·自动驾驶
Swift社区1 小时前
LeetCode 429 - N 叉树的层序遍历
算法·leetcode·职场和发展
星释2 小时前
Rust 练习册 32:二分查找与算法实现艺术
开发语言·算法·rust
zl_vslam2 小时前
SLAM中的非线性优-3D图优化之四元数在Opencv-PNP中的应用(五)
人工智能·算法·计算机视觉
机器学习之心2 小时前
经典粒子群优化算法PSO-LSTM回归+SHAP分析+多输出+新数据预测!Matlab代码实现
算法·lstm·pso-lstm·shap分析
1***Q7842 小时前
Docker计算机视觉应用
计算机视觉·docker·容器
小青龙emmm3 小时前
2025级C语言第四次周测题解
c语言·开发语言·算法