【音频处理】从 AirPods 主动降噪到音频 Source Separation：同一个问题的两种工程解法

地铁上，你戴着 AirPods Pro 打开降噪，车厢轰鸣瞬间消失。与此同时，在某个音频实验室里，工程师正把一段嘈杂的录音拆成人声和背景声两条轨道。这两件事看起来毫无关系------但它们回答的是同一个问题。

一、背景：一副耳机引发的信号处理问题

1.1 你真的理解降噪在做什么吗？

AirPods Pro 的降噪体验太自然了，自然到大多数人从未想过背后发生了什么。

但仔细想一下就会觉得不对劲：它凭什么知道哪些声音该消掉、哪些该保留？ 它并不知道你在听什么歌，也不理解播客主持人在说什么，但就是能精准地只压制环境噪声。这背后，是一个非常经典的信号处理问题。

1.2 另一个看似无关的场景

在音频工程的另一个角落，有人在做一件不同的事：拿到一段混合音频，用模型把人声和背景声 拆成两条独立轨道。这叫 Source Separation（声源分离）。

降噪耳机和声源分离，一个是消费电子，一个是音频算法。但把核心逻辑抽象出来，你会发现它们在回答同一个问题：在一段混合信号中，如何定义并处理"非目标成分"？

1.3 为什么值得深入理解

这不只是一个有趣的类比。理解这层关系，能帮你：

建立统一的信号处理直觉：降噪、分离、增强，是同一框架的不同实例化
做出更好的工程决策：什么场景降噪就够，什么场景必须显式分离
看清技术演进方向：为什么现代音频系统越来越倾向"先分离、再处理"

二、基础知识：降噪与分离，到底在做什么

2.1 主动降噪（ANC）：我不管世界长什么样，我只要安静

ANC（Active Noise Cancellation）的工程定义比你想的更精确：实时估计环境中的"非目标声音"，生成一段反相声波进行抵消。

注意几个关键词：实时、估计、反相抵消 。它不理解内容，不区分语义，甚至不知道你在听什么。它只关心一件事：当前有哪些声音不该出现在你的耳朵里？

2.2 声源分离（Source Separation）：先把世界拆开，再做决定

Source Separation 走的是另一条路，做得更"重"，但也更彻底：

输入：一段混合音频（人声 + 环境声）
输出：多条独立轨道------voice（语音）和 background（背景声）

关键区别在于：降噪是 做减法 ------我不要什么就去掉什么；分离是 做解构------先搞清楚世界由什么构成，再决定怎么处理每一部分。

2.3 一句话区分

ANC 只关心"我不想听什么"，Source Separation 关心"世界由什么构成"。

三、技术原理：同一个公式，两种解法

3.1 统一信号模型

不管是降噪还是分离，面对的原始信号都可以用同一个模型描述：
x(t)=svoice(t)+sbackground(t) x(t) = s_{\text{voice}}(t) + s_{\text{background}}(t) x(t)=svoice(t)+sbackground(t)

其中 x(t)x(t)x(t) 是麦克风采集到的混合信号，svoice(t)s_{\text{voice}}(t)svoice(t) 是目标语音，sbackground(t)s_{\text{background}}(t)sbackground(t) 是环境噪声。

降噪和分离，都是在对这个公式做文章------只是做法截然不同。

3.2 AirPods ANC 的解法：隐式估计 + 实时抵消

ANC 不会显式输出 voice 或 background，但它在实时估计 s^background(t)\hat{s}{\text{background}}(t)s^background(t)，然后直接做减法：
s^voice(t)=x(t)−s^background(t) \hat{s}{\text{voice}}(t) = x(t) - \hat{s}_{\text{background}}(t) s^voice(t)=x(t)−s^background(t)

公式很简洁，但 它具体是怎么估计的？

(1) 结构说明

以 AirPods 4 降噪版为例，拆解发现它搭载了 3 颗 MEMS 麦克风，其中两颗专门服务于 ANC，构成了一个 "外采 + 内校"的双回路架构：

麦克风	位置	作用
前馈麦克风（G205）	耳机柄外侧上方	拾取外界环境噪声，提供降噪的"原始输入"
内向式麦克风（S341）	出音嘴内侧	监测耳内实际声场，校验降噪效果
通话麦克风（S341）	耳机柄底部	拾取人声，仅用于通话，不参与降噪

两颗降噪麦克风配合 H2 芯片，形成一个闭环：

前馈麦克风 在外侧采集环境噪声 s^background(t)\hat{s}_{\text{background}}(t)s^background(t)，送给 H2 芯片
H2 芯片实时计算反相波，叠加到扬声器输出上
内向式麦克风在耳内检测抵消效果，将残余误差反馈给芯片，实时修正

这就是"外采 + 内校"------前馈负责"估计"，内向式负责"纠错"。有趣的是，AirPods 4 标准版和降噪版的核心硬件差异，就是那颗外侧的前馈麦克风。少了它，整个闭环就断了。一颗麦克风的有无，决定了产品能力的质变。

(2) 核心挑战

从工程约束看，ANC 的核心挑战不在算法复杂度，而在 "快"和"准"的平衡：

延迟必须极低：处理链路在微秒到毫秒级，反相波稍有延迟就对不齐，降噪立刻失效
硬件深度绑定：麦克风位置、扬声器特性、耳道密封性都直接影响效果
不追求完美分离：听感上"安静了"就够，不需要输出干净的独立轨道

ANC 是用硬件闭环换来的极致低延迟降噪，代价是放弃了信号的可解释性。

3.3 Source Separation 的解法：显式建模 + 结构化输出

Source Separation 则走了一条完全不同的路。它显式估计每一个分量：
s^voice(t)ands^background(t) \hat{s}{\text{voice}}(t) \quad \text{and} \quad \hat{s}{\text{background}}(t) s^voice(t)ands^background(t)

然后根据下游任务灵活使用：

保留人声 → 用于 ASR（语音识别）、字幕生成
抑制背景声 → 用于语音增强、通话降噪
再利用背景声 → 用于音频编辑、场景分析、环境音重建

ANC 输出的是一个"结果"，Source Separation 输出的是一套"素材"。 前者只能听，后者可以被系统性地分析、加工和复用。

3.4 全景对比

维度	AirPods ANC	Source Separation
是否实时	是（ms 级）	否 / 准实时
是否显式分轨	否	是
是否关心语义	否	是
background 是否有价值	否（直接丢弃）	是（可分析、可复用）
核心约束	延迟、硬件、功耗	精度、可解释性
工程目标	听感优化	信号结构化

四、实践视角：什么时候该用哪种方案

4.1 先纠正一个常见误解

很多人下意识认为 "分离 = 更高级的降噪"，但这是不准确的。

降噪和分离不是高低级关系，而是 同一问题在不同约束下的解法。ANC 在毫秒级延迟、毫瓦级功耗的约束下做到了极致，这是 Source Separation 短期内无法替代的。反过来，Source Separation 提供的信号结构化能力，也是 ANC 架构根本不追求的。

选哪个，取决于工程约束和下游需求，而不是"谁更先进"。

4.2 "先分离"正在成为音频系统的标准范式

但如果你的目标不只是"让人听得舒服"，而是需要对音频信号做进一步的处理和分析，那情况就不一样了：

ASR 鲁棒性提升：嘈杂环境下的语音识别，先分离再识别的效果显著优于端到端降噪
多说话人分析：会议记录、庭审转写，必须先知道"谁在说"才能分别转写
可控音频生成：播客后期、影视混音，需要独立操作每一条音轨

这些场景下，显式分离几乎是不可绕开的前置步骤 。道理很简单：只有被建模的信号，才能被系统性利用。 AirPods 不需要理解声音的结构，但音频系统工程需要。

4.3 主流工具与模型

如果你想动手尝试 Source Separation，目前生态已经相当成熟：

工具 / 模型	特点	适用场景
Demucs (Meta)	基于深度学习，支持音乐多轨分离（人声、鼓、贝斯、其他）	音乐制作、歌声提取
Spleeter (Deezer)	轻量快速，预训练模型开箱即用	快速原型、简单分离需求
SepFormer	Transformer 架构，在标准基准上性能领先	学术研究、高精度场景
Conv-TasNet	时域卷积方案，延迟较低	准实时分离、嵌入式部署探索

其中 Demucs 和 Spleeter 对新手最友好，几行命令就能跑起来。SepFormer 和 Conv-TasNet 更适合有一定基础、需要深度定制的场景。

五、总结：同源不同路

5.1 记住这四点

同一个核心问题：ANC 和 Source Separation 共享同一个本质------在混合信号中定义并处理"非目标成分"
不同的工程路径：ANC 用硬件闭环换极致低延迟，走隐式路线；Source Separation 用模型换信号结构化，走显式路线
不是高低级关系：选择取决于场景约束，而非"谁更先进"
趋势是"先分离"：当下游任务越来越复杂，显式分离正在成为音频处理的标准前置步骤

5.2 速查对比表

	ANC	Source Separation
一句话描述	让你听不到噪声	让系统"看到"每一路声音
核心操作	估计噪声 → 反相抵消	建模信号 → 分轨输出
硬件实现	前馈 + 内向式麦克风闭环	通用计算平台（GPU / CPU）
输出	一路"安静"的音频	多路独立轨道
关键约束	延迟、硬件、功耗	精度、泛化性
典型产品	AirPods、Sony WH 系列	Demucs、Spleeter、会议转写系统

5.3 一个值得关注的方向

随着端侧算力的提升（如 Apple 的 Neural Engine），ANC 和 Source Separation 的边界正在模糊。

AirPods Pro 2 的"自适应通透模式"已经在做一件有意思的事：降噪的同时，选择性保留人声------比如旁边有人跟你说话时自动放进来。这已经不是简单的"抵消噪声"了，它需要在某种程度上"理解"声音的类别。

当硬件约束不再是瓶颈，隐式方案和显式方案最终会走向融合。 未来的降噪耳机，也许就是一个跑在耳朵旁边的实时声源分离引擎。

下次戴上降噪耳机的时候，也许你会多想一秒：此刻，一颗小小的 H2 芯片正在做一件和音频实验室里同样本质的事---在混合的世界中，找到你不想听的那部分，然后让它消失。