SAM 真的开始「分割一切」,从图像到声音,Meta 开源 SAM Audio

继 SAM(Segment Anything Model) 与 SAM 3D 之后,Meta 正式将 Segment Anything 系列扩展到了音频领域。

最新发布的 SAM Audio,是一款统一的音频分割模型。它支持通过文本、视觉线索以及时间跨度提示,从复杂的音频混合中分离出任意目标声音。这一能力使音频分割第一次具备了类似 SAM 在图像领域中的「通用性」。

Meta的Segment Anything系列正在构建一个多模态分割帝国。从图像的SAM到3D的SAM 3D,再到现在的SAM Audio,Meta正在实现"分割一切"的完整愿景。

与此同时,Meta 还同步开放了核心模型 Perception Encoder Audiovisual(PE-AV),并发布了完整的评测体系,包括 SAM Audio-Bench 与 SAM Audio Judge。

Meta 已将SAM Audio 整合进 Segment Anything Playground,这是一个全新的平台,任何人都可以在其中体验其最新模型。

地址:aidemos.meta.com/segment-any...

SAM Audio 想解决什么问题?

当 Meta 发布 SAM Audio 时,很多人的第一反应是:"是不是又一个音频分离模型?"但如果只是把混合音频切成几条干净音轨,其实并不需要一个叫「Segment Anything」的新成员。

SAM Audio 并不是传统意义上的音频切分工具。它真正想解决的问题,是:如何让人以"自然的方式",在复杂真实世界中,指挥 AI 去理解并分离声音。这也是它与以往音频分离模型最根本的不同。

在传统音频工程或 AI 模型中,"分离"往往意味着:人声 / 伴奏二选一,固定类别的音效提取,在干净、可控的数据集上运行。这些方法在技术上并不简单,但它们默认了一个前提:用户必须适应模型,而不是模型适应用户。

SAM Audio 反过来提出了一个问题:如果人能用语言、指向、时间感知来理解声音,模型为什么不能?因此,SAM Audio 并不是简单地「把音频切断」,而是试图构建一个可被自然提示驱动的通用音频分割系统。

它的目标更接近:

  • 在复杂环境中定位「你想要的那个声音」
  • 并在不依赖专业音频知识的情况下完成操作

三种提示方式,对应三种"人类直觉"

在现实世界中,人们从来不是只靠「听」来理解声音的。我们会结合:

  • 语言描述("刚才那个狗叫声")
  • 视觉线索("画面里拿着麦克风的人")
  • 时间感知("从 1 分钟开始一直到结尾")

SAM Audio 正是围绕这种人类感知方式,设计了三类提示机制:

  • 文本提示: 用自然语言定义目标声音
  • 视觉提示: 通过点击画面中的声源来指示
  • 时间跨度提示 (Span Prompt) 标记声音出现的区间

其中,时间跨度提示并不是简单的时间裁剪,而是一次性作用于整段音频分离逻辑,特别适合长音频和持续性噪声。

这使得音频分割第一次不再是「调参数的工程问题」,而是「给提示的交互问题」。

PE-AV 的意义:不是"看视频",而是"理解声源"

SAM Audio 的性能核心来自 Perception Encoder Audiovisual(PE-AV) 。如果没有 PE-AV(Perception Encoder Audiovisual),SAM Audio 只能是一个性能不错的音频模型。

PE-AV可以理解为SAM Audio的"耳朵",让它具备了真实世界感知能力。PE-AV 构建于 Meta 今年早些时候开源的 Perception Encoder 之上,并进一步扩展到视听联合建模。它通过在精确的时间点上对齐视频帧与音频,提供了语义丰富的特征表示。

这种时间对齐机制至关重要------它将"所见"与"所闻"精确匹配,使模型能够理解画面中的说话者何时开口,乐器何时被演奏,甚至推断画面外发生的声音事件。

技术层面,PE-AV集成了多个先进组件:使用PyTorchVideo进行高效视频处理,利用FAISS进行大规模语义搜索,并采用对比学习框架。

模型在超过1亿个视频上通过大规模多模态对比学习进行训练,确保了广泛的覆盖范围和强大的泛化能力。

这种设计使模型能够在真实视频场景中,准确分离可见声源(如讲话者、乐器),并结合上下文推断画面外的声音事件。

模型架构与数据策略

在模型层面,SAM Audio 采用了基于流匹配扩散 Transformer 的生成式框架。

模型接收:一段混合音频、一个或多个多模态提示,并生成:目标音轨、剩余音轨

为支撑这一架构,Meta 构建了一套完整的数据引擎,用于解决高质量音频分离数据难以规模化的问题。该引擎包括:

  • 自动音频混合流程
  • 多模态提示生成
  • 稳健的伪标签机制

训练数据同时覆盖语音、音乐和通用声音事件,包含真实与合成场景,从而提升模型在现实环境中的鲁棒性。

完整评估体系

与模型一同发布的,还有两项关键评测工具。

SAM Audio-Bench: 首个真实环境的音频分离基准测试集,覆盖语音、音乐和通用音效三大领域,支持文本、视觉和时间跨度三种提示类型的评估。

与传统使用合成音频的数据集不同,SAM Audio-Bench使用来自各种高质量来源的真实音频和视频,每个10秒样本都配有多模态提示,更加贴近实际应用场景。

SAM Audio Judge: 首个用于音频分离的自动评估模型,采用无参考评估方式,从人类感知角度评价音频分离质量。

传统指标依赖于原始音轨的对比,而SAM Audio Judge定义了九个感知维度,包括召回率、精确度、保真度和整体质量,能更好地反映实际聆听体验。

性能领先

实验结果显示,SAM Audio 在多项任务上超过此前的通用模型,并在多个领域接近或达到专用模型水平。

其推理速度快于实时(RTF ≈ 0.7),可在 5 亿至 30 亿参数规模下高效运行。

但SAM Audio仍有局限:目前不支持音频本身作为提示,无提示的完整音频分离也不在其能力范围内。此外,分离高度相似的音频事件仍然具有挑战性,比如从合唱中分离单个歌手或从管弦乐中分离单一乐器。

音频感知AI

"音频工具的民主化是迈向更易用、更具创意和包容性AI的一步。"Meta在官方声明中表示。随着SAM Audio的发布,AI不仅能够理解图像中的物体、重建3D场景,现在还能精准识别和分离复杂音频环境中的各种声音元素。

SAM Audio 并不是一个"万能音频工具",但它明确展示了一种趋势:

音频分割正在从"工程问题",走向"感知与交互问题"。从专业音频工程师到普通视频创作者,从无障碍技术开发者到日常用户,SAM Audio预示着声音编辑和处理将变得更加智能和普及。

Meta已将SAM Audio和PE-AV开源,并整合进Segment Anything Playground平台。从今天起,任何人都可以上传自己的音频或视频文件,体验这一突破性模型的能力。

当模型能够理解文本、视觉和时间线索,音频处理的门槛将被显著降低。这不仅对创作者和研究者有价值,也为无障碍技术、辅助听觉系统等应用打开了新的可能。

相关推荐
xie_pin_an2 小时前
C 语言排序算法全解析:从原理到实战,附性能对比
c语言·算法·排序算法
三斗米2 小时前
从思维链到思维树:一步步解锁大语言模型的推理能力
算法
五月底_2 小时前
GRPO参数详解
人工智能·深度学习·nlp·rl·grpo
前端小L2 小时前
贪心算法专题(二):波动中的智慧——只取极值「摆动序列」
数据结构·算法·贪心算法
aini_lovee2 小时前
基于Jousselme距离改进D-S证据理论matlab实现
开发语言·算法·matlab
白兰地空瓶2 小时前
你以为树只是画图?不——它是算法面试的“隐形主角”
前端·javascript·算法
hopsky2 小时前
经典Transformer的PyTorch实现
pytorch·深度学习·transformer
roman_日积跬步-终至千里3 小时前
【计算机视觉(19)】语义理解-CNN应用_目标检测_语义分割
目标检测·计算机视觉·cnn
好易学·数据结构3 小时前
可视化图解算法74:最小花费爬楼梯
数据结构·算法·leetcode·动态规划·力扣