Meta SAM Audio：多模态音频分割的新纪元

Meta 近期发布了 SAM Audio 模型。作为首个统一的多模态音频分割模型，SAM Audio 允许用户通过文本描述、视觉点击或时间片段标记这三种自然方式，从复杂的音频混合中精准分离出特定声音。无需专业音频设备，也不必掌握复杂的频谱分析技巧，用户只需像与人交流一样自然地指示模型，就能获得高质量的音频分离结果。这一突破不仅简化了音频处理流程，更重新定义了人与声音交互的方式，为创意媒体制作、无障碍技术和日常音频编辑带来了革命性变化。

一、SAM Audio：多模态音频分割的统一框架

音频分割一直是 AI 领域的难题，传统方法往往需要专业人员在频谱图上手动标记或使用特定工具进行分离。这些工具通常针对单一用途设计，如分离人声与背景音乐、去除特定噪音等，用户需要掌握多种不同工具才能完成复杂任务。

SAM Audio 的突破性在于首次将文本、视觉和时间维度的提示方式统一应用于音频分割任务。用户可以通过三种直观方式与模型交互：

文本提示：输入 "狗吠" 或 "人声演唱" 等自然语言描述，模型即可提取对应声音
视觉提示：在视频中点击发声物体（如说话的人或演奏的乐器），模型会分离该物体产生的音频
时间片段提示：标记目标声音出现的时间区间（如 "3 分 12 秒到 3 分 18 秒"），模型能处理整段录音中的同类声音

这种统一的多模态交互方式模拟了人类自然理解声音的方式，使音频分割变得前所未有的简单和直观。例如，在一段乐队演出的视频中，只需点击吉他手，就能立即分离出吉他的演奏声；在户外录音中，输入 "交通噪音" 即可过滤掉背景的嘈杂声。

Meta 将这一技术称为 "分割一切" 音频模型，因为它能够处理几乎所有类型的音频分割任务，无论是音乐、语音还是通用声音。SAM Audio 的成功源于其创新的感知编码器视听（PE-AV）架构，这一架构将计算机视觉能力扩展到了音频领域，实现了跨模态的声音定位与分离。

分离后的效果：

二、核心技术架构：PE-AV 与流匹配扩散 Transformer

SAM Audio 的核心技术架构由两个关键组件构成：感知编码器视听（PE-AV）和基于流匹配扩散 Transformer 的生成式建模框架。

PE-AV 编码器是模型的 "耳朵"，负责提取视频与音频的特征并进行时序对齐。它构建于 Meta 2025 年 4 月发布的开源感知编码器模型之上，通过逐帧提取视频特征并与音频表示对齐，实现了视听信息的深度融合。这种时间对齐机制是实现高精度多模态音频分离的基础，使模型能够准确识别画面中发声物体并分离其音频。

PE-AV 采用大规模多模态对比学习方法，基于超过 1 亿条视频进行训练，使用 PyTorchVideo 处理视频数据，FAISS 实现语义搜索，并引入了对比学习框架提升多模态表示能力。这种设计使模型能够理解复杂的视听关联，即使在视觉信息有限的情况下也能推断画面外的声音事件。

生成式建模框架则构成了模型的 "大脑"，采用流匹配扩散 Transformer 架构。与传统扩散模型相比，流匹配扩散技术通过优化数据流分布而非噪声分数，提升了音频生成的时域连续性。这一架构接收混合音频和提示信息，将它们编码为共享表示，并生成目标音轨与剩余音轨。

为了训练这一模型，Meta 构建了一套完整的数据引擎，融合了先进的音频混合技术、自动化多模态提示生成方法和伪标签 pipeline。这一数据引擎生成了涵盖真实与合成混合音频的多样化数据集，内容横跨语音、音乐和各类通用声音事件。先进的音频数据合成策略进一步提升了模型的鲁棒性，确保其在各种复杂环境中都能保持稳定可靠的表现。

三、实际应用场景与价值

SAM Audio 的发布标志着音频处理正式进入 "可交互、可编辑、可理解" 的新时代。这一技术不仅简化了音频处理流程，更提供了前所未有的创作自由度。

在创意媒体制作领域，SAM Audio 为视频编辑师、音乐制作人和内容创作者带来了革命性变化。想象一下，一位视频编辑者正在处理一段现场演出的录像，现在只需点击画面中的鼓手，就能立即分离出鼓的音轨，无需复杂的频谱分析或专业设备。同样，音乐制作人可以从一段混音中提取特定乐器，进行单独调整和重新混音，大大提升了创作效率。

更令人兴奋的是，SAM Audio 的实时处理速度（RTF≈0.7）意味着处理速度比实时快约 43%，即使在处理 5 亿至 30 亿参数规模的模型时也能保持高效。这对于需要快速迭代的创意工作流程至关重要，使创作者能够在不牺牲质量的情况下大幅提升工作效率。

在无障碍技术方面，Meta 已与美国最大的助听器制造商 Starkey 建立合作关系，探索将 SAM Audio 集成到助听设备中。这一合作有望将助听器的降噪性能提升 40%，使设备能够根据用户需求实时分离对话声与背景噪音。例如，在嘈杂的餐厅环境中，助听器可以优先增强对话者的声音，同时降低背景噪音，显著改善听障人士的交流体验。

汽车行业也看到了 SAM Audio 的应用潜力。在行车记录仪录音中，时间跨度提示功能可以精准定位并消除持续干扰（如狗叫声），而不影响其他部分的音质。这不仅优化了驾驶体验，还可能增强安全相关功能，如更清晰的语音助手交互或紧急事件录音分析。

四、开源生态与未来发展方向

Meta 将 SAM Audio 作为开源项目发布，这意味着开发者可以自由访问和修改模型，构建自己的 "视听联觉" AI 应用。开源内容包括 SAM Audio 模型、PE-AV 编码器、SAM Audio-Bench 基准测试和 SAM Audio Judge 评估模型，代码托管于 GitHub。

SAM Audio-Bench 是首个真实环境下的音频分离基准测试，覆盖语音、音乐和通用音效三大领域，支持文本、视觉和时间片段提示等多种测试场景。它采用真实与合成混合数据集，为音频分离系统的测试树立了新标准。

SAM Audio Judge 则是首个用于音频分离的自动评估模型，基于 9 个感知维度（如召回率、精确度、忠实度）设计，结合五分制人工评分与 Transformer 模型，实现了无需参考音轨的客观评估。这一创新使在原始音轨不可用的情况下，也能可靠评估分离效果。

Meta 还推出了 Segment Anything Playground 平台，允许用户直接上传内容测试 SAM Audio 的能力，无需复杂的开发环境或专业知识。这一平台降低了技术使用门槛，使更多创作者和开发者能够体验和应用这一前沿技术。

未来，Meta 计划进一步优化 PE-AV 的跨模态对齐能力，并探索支持音频本身作为提示的可能性。目前，模型在分离高度相似的音频事件（如管弦乐中的单一乐器）方面仍存在挑战，但 Meta 表示将在后续版本中解决这一问题。

五、技术挑战与局限性

尽管 SAM Audio 取得了显著进展，它仍面临一些技术挑战和局限性。最明显的局限是不支持以音频本身作为提示 ，这意味着用户不能通过提供一段声音样本来指示模型分离同类声音。此外，在没有任何提示的情况下进行完整音频分离也不在其能力范围内，用户必须至少提供一种提示方式。

在分离高度相似的音频事件方面，如从合唱中分离出单一歌手或从交响乐中分离出某一种乐器，模型的表现仍有提升空间。这是因为这些场景中目标声音与背景声音的频谱特征高度重叠，需要更精细的分离机制。Meta 承认这一局限性，并表示将在后续研究中解决。

安全性是另一个值得关注的问题。由于 SAM Audio 能够基于提示隔离特定声音，可能存在被滥用的风险，如从公共录音中提取特定对话。Meta 对此回应较为模糊，仅强调 "使用必须符合相关法律法规"。未来，Meta 可能需要发布更明确的安全指南，以应对潜在的伦理和法律挑战。

六、开发者如何参与与贡献

对于开发者而言，参与 SAM Audio 开源项目有多种途径：

可以通过 GitHub 仓库（facebookresearch/sam-audio）克隆项目并安装依赖。仓库提供了预训练模型、API 接口和示例笔记本，开发者可以基于这些资源进行实验和应用开发。
用户可以通过 Segment Anything Playground 平台上传内容测试模型，无需技术背景即可体验 SAM Audio 的能力。这一平台为普通用户和开发者提供了直观的交互方式，降低了技术使用门槛。

对于更高级的开发者，可以参与以下贡献：

提交新数据集：帮助扩展模型的训练数据，提升其在不同场景下的表现。
优化算法：改进模型架构或训练流程，解决现有局限性。
构建插件：将 SAM Audio 集成到现有音频编辑软件中，如 Adobe Audition 或 Ableton Live，扩展其应用场景。

Meta 还发布了针对视觉提示优化的模型变体（如 SAM-Audio-Visual），开发者可以通过这些变体探索更精细的跨模态音频分离。同时，SAM Audio-Bench 和 SAM Audio Judge 为模型评估提供了标准化框架，开发者可以基于这些工具测试和比较不同模型的性能。

七、结语：音频 AI 的未来

SAM Audio 的发布不仅是 Meta 在多模态 AI 领域的重要里程碑，更是音频处理技术的一次革命。通过统一的多模态提示框架，SAM Audio 使音频分割变得前所未有的简单和直观，为创意媒体制作、无障碍技术和日常音频编辑带来了全新可能。

正如 Meta 所言，"这种音频工具的普及推广，是迈向更易用、更具创造力、更加包容的 AI 的一步"。具备音频感知能力的 AI 未来才刚刚开始，我们期待看到更多创新应用涌现。

从视频一键提取某个声音，到实时分离对话与背景噪音，SAM Audio 正在重新定义我们与声音交互的方式。这一技术不仅简化了音频处理流程，更开启了多模态 AI 感官体验的新篇章。随着开源社区的持续贡献和技术的不断演进，SAM Audio 有望在未来几年内成为音频处理领域的标准工具，为创作者、开发者和普通用户带来更加智能、高效和包容的音频体验。

SAM Audio的项目地址

项目官网：https://ai.meta.com/samaudio/

Github仓库：https://github.com/facebookresearch/sam-audio