论文地址：语义听觉:用双耳可听器编程声学场景

论文代码：https://semantichearing.cs.washington.edu/

引用格式：Veluri B, Itani M, Chan J, et al. Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables[C]//Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. 2023: 1-15.

摘要

想象一下，你可以在公园里听到鸟儿的啁啾，而不会听到其他徒步者的闲聊，或者可以在繁忙的街道上屏蔽交通噪音，但仍能听到紧急警报声和汽车喇叭声。我们引入语义听觉，这是一种可听到设备的新功能，使它们能够实时地关注或忽略来自现实世界环境的特定声音，同时也保留空间线索。为实现这一目标，本文做出了两个技术贡献:1)提出了第一个神经网络，可以在干扰声音和背景噪声存在的情况下实现双耳目标声音提取，2)设计了一种训练方法，使系统可以泛化到现实世界的使用。结果表明，该系统可以在20种声音类别下运行，基于transformer的网络在连接的智能手机上的运行时间为6.56 ms。在以前未见过的室内和室外场景中对参与者进行的野外评估表明，所提出的概念验证系统可以提取目标声音并进行泛化，以保留其双耳输出中的空间线索。

关键字：空间计算，双耳目标声音提取，可听计算，噪声抵消，注意力，因果神经网络

1 介绍

在过去的十年中，我们见证了耳机、耳塞等可听设备数量的增加，全球有数百万人在使用它们[50]。在这里，我们介绍一种可听设备的新功能，我们称之为"语义听力"。

设想一个场景，一个用户在海滩上戴着耳聋的设备，希望在屏蔽附近任何人类语音的同时，倾听海洋的平静声音。同样，在繁忙的街道上行走时，用户可能希望减少除紧急警报器外的所有声音;或者在睡觉时，他们可能想听闹钟或婴儿的声音，但不想听街上的噪音。在另一种情况下，用户可能在飞机上，希望听到人类的讲话和广播，但不想听到婴儿的哭声。或者在徒步旅行时，用户可能想听鸟儿的啁啾声，但不是来自其他徒步者的闲聊(见图1中的示例)。这些以及其他潜在的使用案例需要降噪耳机来消除所有声音，然后需要一种机制来将所需的声音引入耳机。后者是我们工作的重点，它需要通过语义将个人传入的声音与用户输入相关联来实时编程输出的声学场景，以确定哪些声音允许进入可听设备，哪些声音要屏蔽。

图1: 语义听力应用。a)戴着双耳耳机的用户可以在屏蔽吸尘器噪音的同时关注语音，b)屏蔽街道噪音并专注于鸟鸣，c)屏蔽建筑噪音但听到汽车鸣笛，d)正在冥想的用户可以使用耳机屏蔽外面的交通噪音但听到闹钟的声音。

图2：语义听觉架构。双耳输入的声音被有线降噪耳机捕捉并发送到手机上，我们在我们的声音提取网络上运行

这提取了捕获目标声音(例如，警笛和猫的声音)并抑制噪音和干扰声音(例如，真空和交通噪音)的双耳输出。这种双耳输出是实时回放的

动物经过数百万年的进化，已经专注于目标声音和相关方向[32]。然而，通过耳机等入耳式设备实现这种能力具有挑战性，原因有三个。

实时要求 。我们的设计输出的声音应该与用户的视觉感官同步。这需要实时处理，满足严格的延迟要求。对医疗助听器和增强音频的研究表明，我们要求延迟小于20-50 ms[24,59]。这需要使用10毫秒或更少的音频块识别目标声音，将它们与干扰声音分离，然后播放它们，所有这些都在智能手机等计算能力受限的设备上。
双耳处理。声音以不同的延迟和衰减到达双耳[64]。两耳之间的物理分离和来自佩戴者头部的反射/衍射(即与头部相关的传递函数)，为空间感知提供线索。为了保存这些线索，我们需要双耳输出来保存或恢复跨两耳的目标声音的这种空间信息。
现实世界的泛化。虽然在合成数据上训练和测试神经网络在音频机器学习研究中很常见，但设计一个能泛化到现实世界可听应用的双耳目标声音提取网络是具有挑战性的。

这是因为在模拟中很难完全捕捉真实世界混响和头部相关传递函数(HRTF)的复杂性。然而，我们需要将其泛化到不同用户在未见过的声学环境中进行野外使用。

本文解决了上述挑战，并使用可听设备演示了语义听力(我们对"语义听觉"这个名字的启发是定向听觉，它是从特定方向听到声音的能力[10，16，67]。同样，语义听觉是指听到某些语义描述（如声音类）所指定的声音的能力)。为了实现我们的目标，我们做出了两个关键的技术贡献。

我们设计了第一个能够实现双耳目标声音提取的神经网络。我们的网络将来自两耳处麦克风的两个音频信号作为双耳输入，并输出两个音频信号作为双耳输出 ，同时保留了目标声音在声学场景中的方向性。为了做到这一点，我们从我们最近的用于目标声音提取的单通道(不是双耳)transformer模型开始[66]，该模型既没有现实世界的评估，也没有实时的智能手机操作。首先，我们优化了网络以实现智能手机上的实时操作。然后，我们设计了一个联合处理双耳输入信号的网络，使其能够保留关于目标声音的空间信息并输出双耳音频(见§3.2)。这种联合处理在双耳目标声音提取方面更有效，并且比单独处理双耳输入信号的计算成本低一半。
我们还设计了一种训练方法，以确保我们的双耳网络可以推广到现实世界的情况，如混响、多路径和HRTF。在完全自然的环境中获得训练数据可能是困难的，因为我们可能捕获混合物，但是缺乏获得监督学习所需的真实声音的途径。此外，训练一个可以用可听设备推广到野外使用的网络需要训练数据在大量用户中捕获回响、多径和头部相关的传递函数。为了实现这一点，我们使用多个数据集来合成我们的训练数据。首先，我们使用了一个HRTF数据集，其中包括来自41个用户在非混响环境中的测量 。我们将房间脉冲响应与来自20个不同音频类别的数千个示例进行卷积，以生成我们的混合物和真实的双耳音频。然而，这并没有捕捉到现实环境中的混响和多径。因此，我们用从三个不同的数据集合成的训练数据来增强这些合成的混合物，这些数据集提供了在真实房间中捕获的双耳房间脉冲响应。这有助于我们的网络泛化到训练数据集中没有的用户和现实世界环境。

为了证明概念，我们用商用有线双耳耳机增强了现有的降噪耳机，该耳机可以访问两个麦克风的数据。我们在连接的智能手机上实现我们的神经网络，并用20种不同的声音类别对其进行训练，包括警笛声、婴儿啼哭声、语音、吸尘器、闹钟和鸟叫声。我们的结果如下。

在干扰声音和城市背景噪声存在的情况下，我们实现了20种目标声音的平均信号改善7.17 dB 。我们的实时网络在iPhone 11上处理10毫秒的双耳音频时运行时间为6.56毫秒。
使用我们的硬件在各种室内和室外场景中对参与者进行的野外评估表明，我们的系统可以提取目标声音(图3)并泛化到以前未见过的参与者和环境，而不需要使用我们的可听硬件收集任何训练数据。
在一项空间听觉研究中，我们在以前未见过的房间中播放来自不同方向的声音，参与者能够预测我们系统输出的目标声音的方向，第50和90百分位误差分别为22.5◦和45◦。对于无噪音的干净声音，这些误差是相似的。
在一项有22名参与者的用户研究中，他们花了超过330分钟对来自真实室内和室外环境的双耳数据进行评级，我们的系统对目标声音取得了比双耳输入更高的平均意见分数和干扰消除。

图3: 用我们的语义听觉系统获得的真实世界的双耳输入和输出录音

贡献。我们引入了语义听觉的概念，我们可以基于语义声音描述来编程双耳声学场景。我们的工作做出了五个关键贡献。

1. 提出了第一个实现双耳目标声音分离的神经网络，并证明了我们的网络可以在智能手机上实时运行，
1. 设计了一种训练方法，将我们的系统泛化到未见过的现实世界环境和用户，
1. 用现成的硬件实现了概念验证，并表明我们的系统在现实世界环境中实现了上述目标，
1. 强调了我们当前系统的失败之处和未来研究的机会
1. 通过公开我们的双耳模型和数据集，我们希望启动社区未来的研究，进一步在实际的可听应用中发展语义听力的概念。

2 背景及相关工作

在过去的十年中，降噪耳机和耳塞经历了显著的改进，现在可以更有效地衰减环境中的所有声音。事实上，在我们的实验中，我们给戴着索尼WH-1000XM4耳机的人类受试者播放白噪声，显示了这些现代系统令人印象深刻的衰减能力(图4)。我们认为这是一个机会，为我们提供了一个声学上的全新记录，可以从环境中引入目标双耳声音。据我们所知，之前的工作都没有探索可听设备的语义听力能力。在本节的其余部分，我们将介绍可听系统、音频信号处理和机器学习以及交互工具方面的相关工作。

图4: 索尼WH-1000XM4耳机的降噪效果------打开和不打开主动降噪------使用耳机耳罩的入耳式麦克风进行测量

降噪是相对于耳杯外的麦克风录音测量的。低频(< 100hz)下的伪大值是由于入耳式麦克风采集了佩戴者的血液脉搏

主动噪声消除和声学透明(acoustic transparency)。主动噪声抵消是一个得到充分研究的问题，其中外向麦克风用于捕获声音[58]。然后传输一个抗噪声信号来抵消所有外部声音和噪声，这比语义听力有更严格的延迟要求。传统的降噪系统需要笨重的耳机。然而近年来，像AirPods Pro这样的轻量级入耳式耳塞系统在许多实际场景中都可以实现合理的降噪[1]。语义听力利用降噪耳机来消除所有声音，然后利用本文中的机制来实时编程声学场景。

入耳设备的声学透明模式试图通过将适当的信号传输到耳道[31]来模仿开耳系统的声音响应。就像主动噪声消除一样，这与声音类别无关。苹果airpods上的自适应透明度设计可以自动降低大声声音的振幅[3]。虽然相关，但这并不允许用户挑选和选择要听的声音类别。

语音系统 。之前的系统主要专注于改善入耳式设备(如Airpods)、电话(如微软团队)和语音的语音相关任务的性能助手(如谷歌Home)。这包括语音增强[14,41]、目标语音提取[17,22]和语音分离[37,60]。通常情况下，这些系统将所有非语音声音统称为噪声。相比之下，语义听觉要求在干扰声音存在的情况下，实时理解各种自然和人工声音的语义，并根据用户的输入，决定允许哪些声音，阻止哪些声音。语音是我们系统中许多其他声音类中的一种。

目标声音提取的神经网络。目标声音提取是将一个或有限数量的目标声音从混合声音中分离出来的任务。与语音系统相比，这是音频机器学习社区中一个未被充分探索的问题。然而，最近的工作提出了可以实现目标声音提取的神经网络，其中有关目标声音的线索可以通过音频[15,21]、图像[19,69]、文本[33,35]、拟声词[46]或one-hot向量[45]提供。所有这些模型都是为音频片段的精细处理而设计的，其中神经网络可以访问整个音频fle(≥1 s)，因此不能支持我们的实时可听用例。

最相关的工作是我们最近对Waveformer[66]的研究，它引入了一种用于目标声音提取的神经网络架构。Waveformer在台式计算机上实时运行。我们的工作在两个重要维度上与[66]不同。首先，Waveformer是一个单通道模型，在一个麦克风上工作。相比之下，我们的目标用例需要跨双耳进行双耳处理。正如我们在§4.4中所示，在两个麦克风上独立运行之前的模型计算成本很高，无法满足智能手机上的实时性要求。其次，该领域的所有之前工作都是在合成数据集上进行评估的，并没有在现实世界的场景中在硬件上进行演示。相比之下，本文提出了第一个可以在智能手机上实时运行的双耳目标声音提取系统。我们设计了一种训练方法，使我们的系统能够泛化到未见过的室内和室外真实环境。

可听应用程序 。最近的工作将入耳式传感器用于健康应用[11-13]和活动跟踪[39,52]。之前的工作还探索了入耳设备的各种交互方式，如超声波传感[68]和面部交互[70]。与我们的工作最接近的是Clearbuds[14]，它专注于使用两个无线耳塞的同步音频信号来增强佩戴者的语音。之前的这项工作专注于语音增强，与我们的系统互为补充。此外，由于[14]的目标应用程序是电话，它使用44.8 ms的look-ahead，并具有109 ms的延迟。

基于音频的工具 。之前的工作探索了使用声音来为可穿戴设备和智能家居应用程序执行活动识别[28,29,34,36,43,63,71]。这些系统在大约1s的音频块上运行，因为目标用例不具有入耳音频应用的O(10 ms)延迟要求。之前的工作还设计了用于音频编辑的交互工具[49,55]。我们的工作是互补的，因为它专注于具有更严格延迟要求的入耳音频应用和语义听力。

3 语义听力

我们首先描述我们的系统需求，然后介绍我们用于智能手机上实时双耳目标声音提取的网络架构。接下来，我们介绍了我们的训练方法------将我们的设计推广到现实世界的使用。

3.1 系统需求

我们设计的目标是对具有不可察觉的延迟的声学环境进行编程，以便留下感兴趣的目标声音，但所有其他干扰声音都被抑制。考虑到严格的延迟限制，我们不能在云端执行必要的计算，而必须使用计算受限的设备(如智能手机)进行实时操作。此外，模型生成的目标声音必须来自与现实世界目标声音相同的空间方向。因此，我们的设计必须满足两个关键要求: 1)实时低延迟操作，以及2)双耳真实世界泛化。

实时低延迟操作。图5显示了双耳声学处理系统中影响端到端延迟的不同组件。第一步是将声音信号输入到双耳麦克风的两个记忆缓冲器中。然后将来自每个块中的两个麦克风的声学数据输入到我们的神经网络中，该神经网络输出一个块长度的双耳目标声音数据。然后通过耳机上的两个扬声器播放这个双耳输出。

图5: 系统需求。在双耳目标声音提取中，影响延迟的不同组件

为了确保通过耳机播放的音频与用户的视觉感官同步，我们需要这个端到端的延迟小于20-50 ms[24, 59, 67]。为了实现这一点，我们需要减少缓冲时长、向前看时长和处理时间。这是一个具有挑战性的问题，原因有很多。1)较小的缓冲持续时间，比如10 ms，意味着该算法只有10 ms的当前数据块，不仅可以理解声学场景的语义，还可以将目标声音与其他干扰声音分开。虽然我们可以使用在当前块之前到达的声学信号，但我们的许多目标声音(例如敲门声)不是连续的。从操作系统的角度来看，进一步减少缓冲区大小(比如2 ms)可能具有挑战性，因为它可能增加系统调用的数量。2)虽然一个大的looka-head可以为神经网络提取目标声音提供更多的上下文，但满足我们的端到端延迟要求将我们在可用lookahead方面的余地减少到几毫秒。3)实时操作需要在块本身的持续时间内处理每个声学块。这意味着处理一个10 ms的buffer需要少于10 ms的时间[67]。这可能具有挑战性，因为神经网络并不以轻量级计算而闻名。此外，由于我们无法将数据发送到云端，处理必须在计算受限的设备(如智能手机)上进行。除了上述所有限制，操作系统也有I/O延迟，对于iOS上的音频来说，I/O延迟约为4毫秒，具体取决于缓冲区大小[2]。

双耳现实世界泛化。在现实生活中，目标声音由于来自墙壁和环境中其他物体的反射而经历混响和多径传播 。更进一步，人的头部和躯干会反射和阻挡声音。因此，目标声音以不同的振幅和延迟到达两耳。两耳接收到的声音的差异为人类提供了空间意识。因此，在我们的设计中，保持这些差异并通过耳机的两个扬声器以不同的振幅和延迟播放目标声音至关重要。这是具有挑战性的，因为目标声音和干扰声音可能位于不同的位置，并从与头部相关的传递函数中体验到不同的回响和反射。此外，在现实世界的环境中，多径效应和混响都很难预测，更不用说头部相关的传递函数会在不同佩戴者之间发生变化。

3.2 双耳目标声音提取网络

我们首先解释我们的双耳目标声音提取神经网络的高层框架。然后我们解释这个网络的因果关系和流适应。最后，我们提供了网络架构的详细描述。

3.2.1 高层框架 。将 $s\\in R\^{2\*T}$ 视为提供给目标声音提取网络的输入双耳信号。由于时域模型也已被证明能够学习类似于STFT特征[38]的表示，因此我们的网络在时域双耳信号上运行 。如图6a所示，通过使用核大小 $\\ge$ L，步长等于 $L$ 的一维卷积层，信号首先被映射到潜空间中的表示 $x\\in R\^{D\*(T/L)}$ 。 $D$ 和 $L$ 是模型的可调超参数。 $D$ 是模型的维度，对参数计数有显著影响，进而对计算和记忆复杂性有显著影响。L确定可以用该模型处理的最小音频块的持续时间。隐空间表示 $x$ ，然后传递给掩码生成器，M，它估计一个元素级mask：

公式1：m=\\mathcal{M}(x, q) \\mid m \\in R\^{D \\times(T / L)} ; q \\in\\{0,1\\}\^{N_c} \\text {, }

其中 $N_c$ 为模型训练的声音类的总数。目标声音对应的表示是通过输入表示(x)和掩码(m)的元素相乘得到的，如下所示:

公式2：y=x \\odot m \\mid y \\in R\^{D \\times(T / L)}

然后，通过对y应用1D转置卷积，步幅为L，获得输出音频信号 $\\hat{s}\\in R\^{2\*T}$ 。

相比于专门为语音提出的更复杂的双耳提取框架，其中每个通道都是单独和并行处理的[23,25]，我们的设计联合处理两个通道以提高计算效率。在我们的实验中，我们表明，我们更简单的框架在目标声音提取精度方面与之前的并行处理框架具有竞争力，即使运行时成本降低了50%。

3.2.2 流式推理和因果关系 。对于设备上的实时操作，模型必须在接收到输入音频后立即输出与目标声音相对应的音频，即在§3.1详细的延迟要求内。由于音频是从设备缓冲区馈送给模型的，缓冲区大小决定了模型在每个时间步上接收的音频块的持续时间。假设缓冲区大小可以被步幅大小L整除，则音频块大小可以表示为步幅数K，即大小为K的音频块的缓冲区大小等于KL个样本。这种实时设置意味着模型只能访问当前和以前的块，而不能访问将来的块。这要求模型与缓冲区大小的时间分辨率(即KL音频样本)是因果关系。因此，在上面描述的高级框架中，输入卷积、掩码估计块、元素乘法和输出转置卷积必须在每个时间步对一个音频块进行操作。

在§3.2.1中描述的双耳目标声音提取框架可以适应如下块流式推理。考虑与第k块对应的输入音频信号为 $s_k\\in R\^{2\*KL}$ 。输入1D卷积将这个音频块映射到它的潜在空间表示 $x_k\\in R\^{D\*K}$ 。然后使用掩码估计块根据当前块以及有限个之前的块来估计目标声音对应的掩码:

公式3：m_k=\\mathcal{M}\\left(x_k, q, x_{k-1}, x_{k-2}, \\ldots\\right) \\mid m_k \\in R\^{D \\times K}

前面的块充当神经网络的音频上下文，称为模型的感受野。1-1.5s的感受野被证明会导致良好的性能[38]。目标声音对应的当前分块的输出表示 $y_k\\in R\^{D\*K}$ 则可以得到如下:

公式4：y_k=x_k\\odot m_k

然后通过应用1D转置卷积，将得到的输出表示转换为输出信号 $\\hat{s}_k\\in R\^{2xKL}$ 。

3.2.3 掩码估计网络。文献中已经提出了几种用于掩码估计的架构，如convt - tasnet[38]、U-Net[30]、SepFormer[60]、ReSepFormer[61]和Waveformer[66]。Waveformer是最近提出的一种高效的流架构，实现了基于块的处理，这使得它适合我们的任务。在这项工作中，我们提出了一个改进版本的Waveformer，以进一步提高效率而不损失任何性能。掩码估计网络是一个编码器-解码器神经网络架构，其中编码器是纯卷积的，解码器是一个变压器解码器。

与Waveformer不同的是，在这项工作中，我们对编码器和解码器使用相同的维度。这允许我们使用标准的transformer解码器[65]，而不是在Waveformer中使用的修改过的。与模型的其余部分相比，Waveformer为解码器块提供了更小的维度。不同维度之间的过渡是通过使用投影层(核大小等于1的一维卷积层)实现的。

然而，这会破坏剩余路径，结果可能会影响梯度跟踪，这在Waveformer中使用绕过解码器的长剩余连接来减轻。然而，对于我们的双耳应用程序，我们发现不同维度并不一定提供保证投影层和长残差连接复杂性的收益。

编码器。公式3中的掩码估计涉及除当前块之外的许多先前块的处理，以获得与当前块相对应的掩码。对每个迭代的整个感受野的重复处理对于实时设备上的应用程序来说可能会变得难以处理。为了减轻这种低效率，在实现大接受域的同时，我们的掩码估计网络实现了一个Wavenet[47]风格的扩展因果卷积来处理输入和之前的块。在这项工作中，为了有效的设备上推理，我们实现了Fast Wavenet[48]中提出的动态规划算法。如图6b所示，通过重用之前迭代中计算的中间结果，实现了更高的效率。编码器函数 $\\varepsilon$ 处理输入块 $x_k$ ，编码器上下文 $\\xi_k$ 生成输入块的编码表示：

公式5：e_k, \\xi_{k+1}=\\mathcal{E}\\left(x_k, \\xi_k\\right) \\mid e_k \\in R\^{D \\times K}

上下文 $\\xi_k$ 的大小取决于编码器的超参数。在我们的实现中，编码器由一堆10个扩张的因果卷积层组成。所有层的核大小都等于3，膨胀因子从1开始在每层之后逐渐翻倍，导致膨胀因子 $\\{2\^0,2\^1,...,2\^9\\}$ 。由于内核大小等于3，每个扩展卷积层所需的上下文是该层扩展因子的两倍。只要在每次迭代之后保存此上下文，并在下一个迭代中填充输入块，那么与前一个块对应的中间结果就不必重新计算。因此上下文的大小 $\\xi_k$ 等于 $2\\sum_{o=0}\^92\^i=2046$ 。

解码器。首先使用线性层将查询向量q嵌入到嵌入空间中以生成嵌入 $l \\in R\^D$ 的标签。与目标声音 $m_k$ 对应的掩码是使用变压器解码器层[65]来估计的，这里表示为 $d$ 。编码的表示首先通过元素乘法来约束标签嵌入 $l$ 。编码表示和条件编码表示首先在时间维度上与来自前一个时间步长的表示进行连接，然后再与变压器解码器层 $d$ 进行处理。来自前一个时间步长的编码表示 $e_{k-1}$ 充当解码器上下文。掩码估计可以写成:

m_k=\\mathcal{D}\\left(\\left\\{l \\cdot e_{k-1}, l \\cdot e_k\\right\\},\\left\\{e_{k-1}, e_k\\right\\},\\right)

其中{}表示时间维度上的连接。如图6c所示，transformer解码器D首先使用第一个多头注意力块计算条件编码表示 $\\{l\*e_{k-1},l\*e_k\\}$ 的自注意力结果，然后使用第二个多头注意力块计算自注意力结果与非条件编码表示 $\\{e_{k-1},e_k\\}$ 之间的交叉注意力。前馈块与残差连接一起生成对应于目标声音的最终掩模。

图6：双耳目标声音提取网络架构。a)我们的高层双耳提取框架。掩码估计网络是一个基于双耳信号潜空间表示的编码器-解码器架构，以基于查询向量为目标声音提取掩码。B)和c)显示了掩码估计网络中使用的编码器和解码器架构。编码器处理之前的输入上下文，不考虑标签嵌入。解码器首先用标签嵌入条件所编码的表示，然后使用条件表示生成与目标声音对应的掩码。

3.3 真实世界泛化的训练

我们首先描述了我们的音频类数据集策划，然后介绍了我们的训练方法，以泛化到现实世界的场景。

3.3.1选择音频类。我们的主要目标是创建一个系统，有效地处理在现实世界中遇到的目标声音。通过专注于实际应用，我们确定了一组可管理的目标声音类别来提取。然而，在现实中，我们会遇到范围广泛的背景声音，其中许多并不属于我们的目标声音类别。为了整理我们的声音类数据集，我们遵循AudioSet本体[20]，它提供了各种声音类之间关系的全面和结构化表示。该本体将声音类安排为图中的节点，并将其分组为7个主要声音类别。每个声音类节点都有一个唯一的AudioSet ID，并且可以包含一个或多个代表更具体声音类的子节点。例如，"双手"声音类有两个子节点，即"掰手指"和"拍手"。在本节的其余部分，我们将描述如何选择我们的目标声音类以及干扰类。

•目标声音类别。我们首先考虑系统可能运行的各种室内和室外场景，如海滩、公园、街道、客厅、ofces和咖啡馆。基于这些场景，我们识别了在这些位置普遍存在的潜在声源，如人类语音、狗、猫、鸟类、海浪和音乐。然后，我们编译与这些选定的目标声音相关联的声音类列表，并将这些类中的每个映射到AudioSet本体中的标签。我们最终选择了20个声音类别，我们认为人类听众可以以相当高的精度区分它们。

•其他声音类别。在现实世界中，干扰声音和噪声往往不属于我们的20个目标声音类别。为了创建一个能够概括这些声音干扰的神经网络，我们需要在数据集中有一组不同的干扰声音类别(注意，目标声音类别也可能相互干扰。)，这带来了几个挑战。首先，这些声音可能来自非常多的来源，使其不可能详尽地列举所有的来源。其次，由于我们想要将它们用作干扰信号，我们必须确保这些声音类别不与我们的目标类别集合重叠。为了克服这些限制，我们使用AudioSet分层结构和我们的20个目标类的集合来生成一个包含141个其他声音类的大型集合。具体地说，根据AudioSet层次结构，我们可以将此集合定义为既不是更具体也不是任何目标(或已知)类的更一般实例的节点。换句话说，通过将AudioSet本体视为一个有向无环图，其边从每个声音类节点指向其子节点，我们将未知声音类定义为与所有目标声音类节点断开的AudioSet节点集。

3.3.2音频数据集策划。给定目标和其他声音类别的集合，我们接下来获得每个声音类别的带标签的音频录音。挑战在于，我们不能像之前的单通道工作[66]那样只依赖单一的通用音频标记数据集，这是因为这样的数据集不包含所有20个目标声音类别的音频样本，而可能包含来自其他声音类别的音频样本数量有限。因此，我们结合了来自四个不同数据集的音频样本: FSD50K[18](通用)，ESC-50[51](环境声音)，MUSDB18[53](音乐和人声)和DISCO[44]数据集的噪声(噪音)。由于每个数据集使用不同的类名，我们通过将每个数据集中的每个类映射到AudioSet本体中语义上最接近的标签(如果有的话)，将类标签标准化为AudioSet标签。对于FSD50K和MUSDB18，我们执行了额外的数据集特定的预处理程序。具体来说，因为我们的目标是创建来自多个方向的单个声源的双耳混合，我们排除了来自FSD50K的音频样本，这些样本已经是多个不同声源的混合。对于MUSDB18，我们将音频提取并拆分为人声流和器乐流，并分别为它们分配AudioSet标签"Singing"和"Melody"。

我们将产生的音频样本划分为15秒的片段，并丢弃所有无声的片段。我们将每个数据集分成互斥的训练集、测试集和验证集，然后将它们组合成我们的fnal数据集。对于FSD50K和MUSDB18，我们对来自开发分裂(90-10分裂)的训练和验证音频文件以及来自评估分裂的测试样本进行采样。对于ESC-50数据集，我们使用前三倍用于训练，第四倍用于验证，第五倍用于测试。对于DISCO噪声数据集，每个声音类的音频样本在与其他数据集结合之前被分成训练集、测试集和验证集(60-33-7)。最终组合数据集由20个目标类组成，分布如表1所示，以及141个其他声音类。

表1: 为我们潜在的目标类别从每个数据集为训练/测试/验证收集的原始音频类内的数量。我们使用这些用于训练、测试和验证生成的混合总数分别为100k、10k和1k

3.3.3 双耳数据合成。上面的过程描述了我们如何从各种音频数据集中采样单通道声音类。然而，我们的目标是创建双耳混合(1)代表不同听众群体感知的空间声音，(2)捕捉真实世界混响环境的特质。为此，我们使用已有的43个人类头部相关传递函数(HRTF)测量数据集(CIPIC[8])来解决第一个挑战。我们还用测量的(SBSBRIR [57]， RRBRIR[26])和模拟的(CATT RIR[27])混响双耳房间脉冲响应(BRIRs)的三个数据集来增强这一点，以解决第二个要求。我们将房间和听众之间的每个数据集划分为训练、测试和验证集(70-20-10)。我们确保没有BRIR受试者或房间在不同的集合中抽样。对于训练期间的每个样本，我们随机选择一个数据集，并从其训练集中采样单个房间和参与者。然后，为了创建一个有K个源的双耳混合，我们从这个房间和数据集中这个参与者的所有可用的源方向中，独立地为每个K个源选择一个源方向。请注意，由于声源方向是独立选择的，因此两个不同的声源最终可能位于佩戴者的同一方向。

然后我们得到一组2K房间脉冲响应 $h_{1,L},h_{1,R},h_{2,L},...,h_{K,R} \\in R\^N$ ，其中N是房间脉冲响应的长度。因此，对于输入音频信号长度为T个样本的训练样本，用 $x_1,x_2,...,x_n\\in R\^T$ 表示，我们可以将左右耳接收到的声音 $s_L$ 和 $s_R$ 分别计算为， $s_L=\\sum_{k=1}\^Kx_k\*h_{k,L}$ 和 $s_R=\\sum_{k=1}\^Kx_k\*h_{k,R}$ 。这里的*表示卷积运算。合成的双耳音频混合在44.1 kHz采样。如果我们的HRTF数据集中的房间脉冲响应具有不同的采样率，我们在卷积之前和之后重新采样信号。

3.3.4 训练程序。在训练过程中，我们使用Scaper工具包[56]在上动态合成双耳混合物。为了训练和验证，我们的双耳混合由两个随机选择的目标类别组成，每个类别相对于背景声音的信噪比为5-15，以及1-2个其他类别，每个类别相对于背景声音的信噪比为0-5。我们还在我们的混合物中使用了来自TAU城市声学场景2019数据集[42]的背景声音。每个混合物长度为6秒。目标类和其他背景类的声音时长在3 - 5秒之间，而背景城市声音则会在整个混合过程中持续。除了混合之外，我们还对每个选定的目标声源 $y_L=x_t\*h_{t,l}$ 和 $y_R=x_t\*h_{t,R}$ 分别在左通道和右通道合成ground truth y_L和y_R。

然后训练网络以产生一对左右通道目标声音估计 $\\hat{y}_L$ 和 $\\hat{y}_R$ 。为了保留空间线索，如耳间时差(ITD)和耳间电平差(ILD)，我们使用样本敏感和尺度敏感的信噪比(SNR)损失函数，分别独立应用，然后对左右信噪比进行平均，得到损失函数：

\\begin{gathered} S N R(\\hat{x}, x)=10 \\log \\left(\\frac{\\\|x\\\|\^2}{\\\|x-\\hat{x}\\\|\^2}\\right) \\\\ L=-\\left(\\frac{1}{2} S N R\\left(\\hat{y_L}, y_L\\right)+\\frac{1}{2} S N R\\left(\\hat{y_R}, y_R\\right)\\right) . \\end{gathered}

最后，我们训练了80个epoch的transformer模型，初始学习率为5e-4。在完成40个epoch后，如果超过5个epoch的验证SNR没有改善，我们将学习率减半。我们在这里强调，训练数据不包括使用我们的双耳硬件的任何测量，我们在本文中报告的结果评估了对我们的硬件、未见过的用户和环境的泛化。

4 结果

我们首先描述了我们的真实世界评估的设置，然后介绍了我们的双耳网络基准。

硬件原型。我们的硬件设置包括一对SonicPresence SP15C双耳麦克风，连接到捕捉高质量的录音。我们使用iPhone 12处理录制的数据，并通过JBL Live 650BTNC和NUBWO游戏耳机等降噪耳机输出音频。我们使用lightning-to-aux适配器将耳机通过电线连接到iPhone上。我们还使用USB集线器将麦克风和耳机连接到智能手机上。

参与者。我们在野外和空间线索评估中招募了9个个体(3个女性，6个男性)。我们还邀请了22名参与者(6名女性，16名男性)参加我们的在线听力研究。

4.1 野外评价

为了在现实场景中评估所提出的系统，我们进行了野外实验来评估我们系统的有效性。

野外场景。5个人(3名女性和2名男性)戴着我们的硬件，在现实世界中收集声音。这些实验是在典型的应用程序设置中进行的: ofces、客厅、街道、屋顶、公园和洗手间。由于一些声音类相对不太常见，我们的野外实验有一个最常见的类的子集出现在我们的录音中: 闹钟，汽车喇叭，敲门声，语音，电脑打字，锤子，鸟叫和音乐。声源的位置和运动是不受控制的，反映了现实世界的场景，其中声源是可以移动的。此外，在所有的实验中，参与者都拥有完全的自由移动他们的头部，导致相对于麦克风的声源位置随时间变化(图7)。因此，我们的野外评估既捕获了移动佩戴者，也捕获了现实世界场景中自然出现的移动声源(例如，移动的汽车或飞行的鸟类)。

图7: 在我们的野外评估中，目标声音是存在城市环境噪声下的鸟类啁啾声的参与者。参与者可以自由地移动头部，目标声源也可以是移动的

评价过程。与我们的模拟训练数据不同，我们没有干净的、样本对齐的ground True信号来客观地比较我们系统的双耳输出。因此，我们进行了一项听力研究，以计算关于声音提取准确性的平均意见得分(MOS)。这个指标对于评估我们的算法对终端用户的感知质量至关重要，尽管它在之前的非语音声音提取研究中经常被忽略。我们邀请了22名参与者(6名女性，16名男性，平均年龄34.6岁)参加在线听力研究。该研究由16个部分组成。在每个部分，参与者评估3或4个5.0-8.5秒的音频样本的质量。每个部分播放的音频样本都是经过以下三种方式处理的野生录音，针对相同的目标标签: (1)原始录音，(2)我们的128维双耳网络的输出，(3)我们的256维双耳网络的输出。对于涉及语音作为目标声音的评估子集，我们还包括一个额外的第四个音频样本，该样本是通过提取干扰类(例如敲门声)，然后从输入录音中减去它来估计目标语音。

我们进行了一个预筛选过程，以确保参与者使用合适的双耳耳机。这包括播放两个白噪音样本，一个只来自左声道，一个只来自右声道。参与者被要求确认他们只听到了来自正确的渠道。我们的参与者中有11人使用耳机，在我们的在线用户研究中有11人使用耳塞。

我们基于干扰抑制和总体平均意见评分(MOS)来测量声音提取质量，因为它们通常包含在语音增强质量评估中:

(1) 噪声抑制: 背景声音的干扰程度/可察觉程度?1 -非常干扰，2 -有点干扰，3 -明显，但不干扰，4 -稍微明显，5 -不明显

(2) 总体MOS: 如果目标是专注于<TARGET>声音，你的总体体验如何?1 -差，2 -差，3 -尚可，4 -好，5 -优秀

结果。在图8中，我们展示了用户对我们的系统针对不同目标声音标签的干扰声音抑制和整体质量提升的评价结果。结果表明，该系统具有显著降低不需要的背景声音的能力，如128维模型的总体噪声抑制分数从2.01(对应于2 -有点干扰)增加到3.61(在3 -可注意，但不干扰和4 -轻微可注意之间)，256维模型增加到3.84(略差于4 -轻微可注意)。我们在整体MOS改进方面也观察到类似的趋势，从输入信号的2.63分别改善到128维和256维模型处理后的3.54和3.80。图3d和图9还表明，我们的网络保留了目标声音的时序，并且可以静音目标声音持续时间之外的噪声。

图8: 实际数据收集中发生的各种类别的(a)平均意见评分(MOS)和(b)噪声抑制的野外评估结果

图9: 真实世界录音的定性结果

结果还在每个类别的水平上提供了有趣的见解。一般来说，128通道模型在几乎所有类别中只比256通道模型稍差，除了"计算机打字"类别，两个模型之间的总体MOS差距几乎为0.84 MOS点。这可能是由于在运行的发电机附近拍摄的特别嘈杂的录音，128通道模型产生了微弱的、令人不快的伪影，这是256通道模型所没有观察到的。然而，两个模型在"锤子"类中表现都很差，目标锤子的声音是在干扰音乐存在的情况下录制的。虽然网络正确地静音了不包含锤子声音的时间片段，但当有锤子声音时，音乐中有明显的残留，听众发现这是干扰。这项研究的另一项重要发现是通过去除干扰信号而获得的显著改善目标为语音时的输入录音。通过从录制的信号中去除敲门声等短长度的声音，而不是直接提取语音(见图10)，我们能够将整体MOS提高0.91分。最后，值得注意的是，这些在野外的结果是从仅在合成数据上训练的模型中获得的，没有对从我们的硬件收集的数据或为参与者进行任何训练。

图10: 在这里提取语音作为目标会导致短暂的信号过度衰减(在b中突出显示)，因为网络试图删除敲门声和背景声音。

然而，如果我们提取然后减去敲门声，背景噪声仍然是隐约存在的，得到的信号听起来不那么刺耳。

4.2 评估用户感知的空间线索

本文提出在fve普通的混响房间中进行的实验，以评估我们的设计保存或恢复用户感知的空间线索的能力。与野外评估一样，我们的训练数据既没有来自我们的硬件的样本，也没有来自经过测试的真实世界环境的样本。

数据收集。我们从已知方向收集了目标声音的真实音频录音。为了实现这一目标，fve参与者(3名男性，2名女性)被安装了双耳麦克风，并坐在位于一个巨大的、打印的半圆形量角器中心的旋转椅子上，量角器的尺寸为70 ×36英寸，如图11所示。量角器按常规22.5◦间隔(共9条线)排列，以进行精确的旋转测量。Sony SRS-XB10扬声器放置在量角器90◦线的固定三脚架上，以发出不同的声音信号。为了控制声音信号相对于听者的到达角度，参与者被要求旋转椅子，并与量角器的一条线对齐。数据收集分9个阶段进行。在每个阶段，用户被旋转到不同的角度。第一个阶段从参与者面对180◦线开始。完成每个阶段后，参与者顺时针旋转22.5◦到下一个标记的角度。在每个阶段，扬声器播放4个5秒的音频样本: (1)白噪声，(2-3)两个属于目标声音类的测试样本，(4)一个属于干扰其他声音类的测试样本。在数据收集的所有阶段中，所选择的音频样本正好包括来自9个不同的干扰其他声音类别的9个测试样本和来自6个不同的目标声音类别的6个测试样本。值得注意的是，来自目标类别的每个测试样本都被记录为3个不同的相对角度。

评价过程。由于我们的目标是开发一个能够准确保留人类听众感知到的空间线索的系统，因此我们设计了一个用户研究来计算我们系统输出的目标双耳声音的感知到达角。为此，基于收集到的音频记录，我们首先通过从目标类别中采样两个音频片段和从干扰其他类别中采样1-2个片段来创建声音混合物。使用Scaper生成这些混合物。我们选择背景的参考响度为-50 LUFS，将目标类声音的信噪比设置为15-25 dB，将干扰其他类声音的信噪比设置为0-10 dB。我们通过选择一个目标类别，并通过我们的网络运行混合声音来处理每个混合声音。

我们通过一对双耳耳机将单个干净目标声音的录音不受干扰地播放，以及网络从创建的混合物中估计这些目标声音的输出样本，播放给同一组参与者。由于感知到的空间线索在很大程度上依赖于人体测量特征，所以播放给给定参与者的所有声音信号都来自于在数据收集步骤中从同一参与者获得的双耳数据。在听每个样本之前，参与者被告知他们应该定位的目标类别。听完后，他们被要求预测声源的方向。为了防止参与者将每个输出样本与其对应的单独录制的目标声音相关联，这些样本按随机顺序播放。为了帮助参与者建立一个方向参考，我们在评估开始时按照递增的顺序播放每个角度的白噪声样本。此外，在两个特定源角度之间存在不确定性的情况下，允许参与者重新收听为这些角度录制的白噪声样本。每名用户的研究持续约20分钟。

结果。我们比较了地面真值源方向和用户感知到的到达方向之间的误差，这些方向包括干净的无干扰目标声音记录，以及由我们的系统生成的双耳目标声音信号的混合信号输入。我们的发现，如图11所示，显示平均角度误差略有增加，从18◦到23.25◦。另外，我们观察到，内插的第50和第90百分位误差也分别从5◦增加到9◦和从38◦增加到42◦略有增加。这表明，我们的模型在其输出中保留了目标声音的空间线索，并且对用户如何感知源方向的影响可以忽略不计。

图11: 空间线索评估。(左)评估设置，(右)听了孤立的干净目标声音以及网络输出双耳目标声音后，ground True源方向和用户感知源方向之间误差的CDF

虚线是插值的cdf，用于计算插值的中位数和第90百分位误差

4.3 与消噪耳机集成

到目前为止，我们将语义听力和主动消噪视为两个独立运行的系统。然而，在实践中，端到端系统还需要一些额外的考虑。首先，许多主动噪声消除系统依靠耳罩内的记录信号自适应地静音噪声信号，实现自适应噪声消除。因此，我们回放用于执行语义听力的音频可能会影响噪声消除算法。其次，主动噪声消除系统并不完善，它们可能仍然会让一些声音通过。为了解决这些问题，我们在用户使用我们的端到端系统时实时记录数据。用户戴着一副带有主动降噪功能的索尼WH-1000XM4耳机。除了用于捕捉外部声音进行处理的外部麦克风外，他们还在耳罩内佩戴双耳麦克风，将主动降噪和语义听觉系统产生的声音记录在一起，即用户听到的声音。当附近的吸尘器打开时，用户会选择听敲门声。仅就这个实验而言，我们在一台装有英特尔酷睿i5 CPU的笔记本电脑上，对从外部麦克风录制的音频运行我们的语义听觉算法。处理后的音频通过耳机播放。

图12(a)-(c)给出了三种双耳信号的声谱图: 记录在外部麦克风的信号，通过耳机播放的信号，以及记录在耳罩内部的信号。我们证明，虽然内层耳罩录制的声音稍显嘈杂，但我们清楚地看到，该系统可以抑制不需要的声音(吸尘器)，同时保留目标声音(敲门声)。这证明了这样一个系统可以与主动降噪系统共存的可行性。我们注意到，为了减少残余噪声，语义听力子系统可能必须集成来自降噪耳机的残余音频，以使回放信号也适应残余噪声。然而，这具有更严格的延迟要求，因此我们将其留给未来的工作。

图12: 双耳录音的声谱图显示了我们使用穿戴式头戴式设备进行的端到端实验的结果。在这里，我们在附近有主动吸尘器的环境中提取敲门声

4.4 对神经网络进行基准测试

由人类评估者进行的野外评估最接近真实世界的使用。然而，由于缺乏地面真实信号，以及由于在获得较小性能差距的统计显著性所需的大量测试数据方面面临挑战，因此很难客观地比较不同的模型。为了解决这些实际限制，本文还在一个广泛的混响双耳测试集上评估了所提出的模型，该测试集包括10000对混合和地面真值对。我们按照§3.3中的方法合成了基准数据集以模拟现实世界的情况。

为了评估我们的双耳提取模型的性能，如表2所示，我们比较了以下三种双耳目标声音提取框架。

•Dual-ch。这是我们在§3.2.1中提出的用于高效双耳目标声音提取的双通道架构。在这个框架中，双耳信号在进行掩模估计之前被转换为组合潜空间表示。由于左右两个通道被组合成一个共同的表示，因此使用掩码估计网络的单个实例来估计目标声音对应的掩码。我们用�= 128和�= 256来考虑我们的掩码估计架构。

•Parallel。这是[25]中提出的双耳框架，它实现了左右通道的并行处理，以及通道之间的一些交叉通信。[25]中的双耳框架最初是为双耳语音分离而提出的。我们在我们的掩码估计网络D = 128和卷积- tasnet[38]中实现了这个框架。我们包括卷积网络，因为它是最广泛使用的信号增强模型体系结构之一。我们选择了一种与我们的模型运行时相似的convt - tasnet配置，并使用我们的训练数据集训练了这两个模型。

•Single-ch。除了上述两种双耳提取框架，我们还与单通道提取基线进行了性能评估和比较。由于我们考虑的目标声音提取模型是样本对齐的，因此用单声道输入和输出训练的模型可以独立应用于左右通道。与平行的情况类似，这也涉及到掩模估计网络的两个实例。然而，相比之下，应用于左右通道的模型参数是相同的，通道之间没有交叉通信。我们实现了模型的最佳配置(D= 256)，因此这是一个强大的基线。

对于每个模型，我们在信号质量、空间线索的准确性和设备上的运行时间要求方面比较性能。我们使用与混合信号相比，输出的尺度不变信噪比[54]改进(SI-SNRi)来测量信号质量，并根据接地真值计算。SI-SNRi结果在整个测试集的左、右通道上取平均值。在[25]之后，使用输出双耳信号与ground-truth双耳信号之间的双耳时间差(ITDs)和双耳水平差(ILDs)来测量空间线索准确性，记为ΔITD和ΔILD。我们使用互相关计算ITD，将它们限制在±1 ms内，就像在[40]中所做的那样。模型运行时间是在iPhone 11上测量的，通过将它们转换为ONNX格式[9]，然后使用iOS的ONNX运行时执行它们。运行时间是在计算一个10毫秒的输出块时测量的，平均超过100次运行。因此，部署时的运行时间必须小于10 ms，这正是我们的D= 128的双通道模型所满足的。

在我们的实验中，我们观察到当只使用信噪比损失进行训练时，因果Conv-TasNet收敛到产生恒定零信号的局部最小值。这一现象也在文献[66]中被观察到，该文献建议以90%信噪比+ 10% SI-SNR损失的方式训练Conv-TasNet。造成这种情况的可能原因是，与最初设计的语音数据集不同，声音数据集具有大量的沉默，导致Conv-TasNet优化过程收敛到产生零信号。另一方面，在双耳情况下使用90% SNR + 10% SI-SNR的损失，导致其中一个通道相对于另一个通道输出非常低的幅度信号，因为SI-SNR对信号增益不敏感。我们证实了这个信号在频谱上是有意义的，尽管它的大小是错误的。因此，只有SI-SNRi和ΔITD结果对Conv-TasNet模型有意义。ΔILD计算结果是无穷大，所以我们在表中省略了它。

在表2中，我们观察到双通道框架与并行和单通道框架在SI-SNRi方面具有竞争力，而在ΔILD方面表现优于并行和单通道框架。关于ΔITD，它导致了非常边际的增长。这些结果直观上是有意义的，因为双通道框架对左右通道都有一个样本对齐的共同表示。因此，它可以保持左右通道的相对振幅。另一方面，平行和单通道框架有独立的分支，独立处理不同的通道，有利于保持样本与各自通道的对齐。这种现象在单通道框架中更为明显，其中SI-SNRi和ΔITD很有前途，但ΔILD很差，因为左右通道处理之间没有交叉通信。最后，我们注意到，我们的双通道框架只需要它们的并行或单通道对应程序所需的50%多一点的运行时间，这使它成为我们语义听觉系统的一个很好的实用选择。最后，我们注意到我们的双通道框架使用240 MFLOPS，而vanilla Waveformer在两个麦克风上使用357 MFLOPS。

表2: 不同双耳目标声音提取框架和掩膜估计架构在使用§3.3中描述的方法生成的20个目标类的大型测试数据集上的性能和效率比较。

对于我们的因果模型，感受野仅是过去的音频。因此，它对算法延迟没有影响。我们模型的算法延迟是块大小KL和输入卷积的前瞻L的总和，其中L是输入卷积的步幅(第3.2.2节)。表2使用stride L= 32个样本，K= 13，得到的块大小为KL= 416个样本，forward L= 32个样本。。这分别相当于9.4 ms和0.7 ms。表3展示了我们的双耳模型在不同块大小下的性能，以了解算法延迟对性能的影响。结果显示，我们的模型以低至1.4 ms的算法延迟实现了合理的性能。因此，通过ASIC实现，如助听器中的实现，我们可以设想超低延迟的语义听力系统。

表3: 算法延迟对性能的影响。端到端延迟为20 ms的拟议系统

在我们的野外评估中，用户自由地移动他们的头并遇到移动源(例如。塞壬)。在人类测试人员的评估过程中，该模型也表现得非常稳健，没有故障。该模型适应相对运动很快，因为它输出小块(<10ms)，同时更新其内部状态。该模型还可以利用轨迹中L和R通道之间有更好的水位差的空间位置。除了这种定性的评价，表4还提供了听者和声源之间不同数量的相对角运动的性能的定量比较。对于这个比较，我们使用了D=256维的dual-ch模型。我们使用Steam Audio SDK[7]模拟运动，它模拟给定SimpleFreeFieldHRIR格式[6]的HRTF文件的双耳运动。我们在回声环境和混响环境中进行了不同角速度的对照实验，声源以给定的角速度从弧线上的随机位置移动。我们使用CIPIC [8] HRTF数据集进行暗声模拟，使用RRBRIR [26] BRIR数据集进行混响模拟，因为它们以SimpleFreeFieldHRIR格式提供了im脉冲响应。我们通过在每一帧使用双线性插值与插值脉冲响应进行卷积，在1024个样本的帧中合成双耳音频。由于ILD和ITD现在是时变的，我们以250 ms的块计算ΔILD和ΔITD，丢弃任何在两个通道上干净信号静音的块，并对剩余块取平均值。我们观察到，在存在运动的情况下，SI-SNRi和ΔILD略好，因为模型能够更好地利用不同相对角度位置的L和R之间的电平差，同时在消声情况下实现较低的ΔITD，在混响情况下实现略高的ΔITD。

表4: 听者和声源之间存在相对角度运动时的性能比较。本次评估使用的是D=256的Dual-ch模型

4.5 概念验证的用户界面

最后，一个很自然的问题是: 用户如何在类之间进行选择?为了回答这个问题，我们制作了一个带有三种不同声音选择用户界面的iOS应用原型: 语音、文本和声音的拨动开关网格(图13)，并评估了它们的准确性、速度和易用性。

图13: 智能手机上目标声音选择的用户界面设计。

每种设计都使用了不同的输入法来捕捉用户的意图: (从左到右)语音、文本和拨动开关

前两个接口使用ChatGPT API将自然语言转换为系统的类输入

对于语音和文本界面，我们的目标是研究是否可以使用电话[4]的ChatGPT API将自然语言(我想听救护车的声音)转换为我们系统的已知声音类输入(警报器+)。为此，我们使用提示符初始化了Chat-GPT: 下面是一个声音类列表: [' alarm_clock '， ' baby_cry '，[...]我会给你提供一个句子，涉及保留或删除这些声音类中的一个。我希望你从列表中输出与句子中的声音(语义上)最匹配的声音类。如果没有足够接近的类，则输出` na `。请不要输出任何其他字符。如果你找到一个接近的类，并且句子涉及到从这个标签中保留声音，在输出后添加一个"+"，否则，添加"-"。例如，如果我说"mute cat"，你应该说"cat-"。如果我说"mute cow"，你应该说"na"。

10名参与者被展示了以下形式的10个场景: 你婴儿的哭声打破了沉默。你的手机播放了一段旋律。可以听到风声的沙沙声。我们让参与者选择一个要添加或删除的单一声音事件，并通过三个用户界面(ui)向应用程序传达他们的意图。为了评估每个界面的准确性，我们将通过每个UI选择的声音事件与我们对用户所说的最佳解释进行了比较。语音和文本协议率为92%，拨动开关协议率为93%。对于语音和文本，分歧是由于ChatGPT的混淆(例如，厕所太大声映射到toilet_ush +)，或者当ChatGPT将数据集中未选择的声音映射到数据集中类似的声音时(例如，风和喷泉的声音映射到海洋)。对于拨动开关，当无法找到所需的声音类时，会发生不一致。

语音传递意图的平均时间最短(5.5±1.0s)，其次是切换(6.3±3.3s)，文本传递意图的平均时间最长(8.3±3.7s)。语音偏好评分(1=非常不可能，5=非常可能)最高(4.0±1.1)，然后是文本(2.9±1.2)，切换最低(2.7±1.4)。这些发现表明，从用户界面的角度来看，Speech将是一个实用的界面选择，并且随着支持的类数量的增加，它将比切换界面具有更好的可伸缩性。一位参与者指出，他们在公共环境中使用系统时更喜欢文本界面，即使输入他们的意图需要更长的时间。

5 局限性和讨论

如表1所示，我们在跨类别的示例数量上存在不平衡。例如，"语音"类有494个训练样本，而"汽车喇叭"只有60个训练样本。在所有类别中收集更多的示例可以潜在地提高性能。最后，有些类别可能天生就比较难分离。例如，音乐和人类语言有许多共同的特征，包括声音和和声。因此，尽管有大量的训练样本，但我们的模型仍然很难在背景音乐也有人声的情况下执行分离佩戴者周围人的语音等任务。同样，将音乐与其他类别(如闹钟声或鸟鸣声)分开也是具有挑战性的。此外，我们的训练方法没有利用任何现实世界的数据与我们的硬件。然而，我们的真实世界测试结果证明了对我们的可听硬件以及未见过的真实世界环境的泛化能力。然而，仍然有可能在现实世界的场景中以及用实际的硬件收集训练数据，可以帮助提高系统性能。

另一个限制是我们在评估中使用的可听硬件的外形因素，我们在评估中除了使用降噪耳机外，还使用了双耳耳机。如果我们使用单一设备进行录音和回放，外形因素可以简化。目前，有一些商业降噪耳机可以为用户提供麦克风数据的访问，比如Sennheiser AMBEO智能耳机，这是我们在评估后发现的。我们的系统实现在这样的设备上，导线会更少，并且会在一个点上直接连接到智能手机，而不需要额外的一对双耳耳机。

双耳目标声音提取还可以用来减去目标声音，并将剩余的声音播放到耳朵里。图10显示了通过减去目标声音(例如，计算机打字或锤子)来专注于人类语音的结果。当用户知道他们感到讨厌的特定类型的环境噪音时(例如，在ofce房间里的电脑打字)，这可能是有益的，因为这种方法将只删除指定的噪音，从而允许用户专注于环境中的语音和其他声音。

为了进行概念验证演示，我们已经在连接的智能手机上实现了我们的神经网络。虽然连接到智能手机的有线头戴设备是实际应用的重要用例，可以从我们的实现中受益，但将我们的系统扩展到无线头戴设备需要将计算与头戴设备硬件本身集成。考虑到目前正在为可穿戴设备[5]设计的超低功耗多核嵌入式gpu，这可能是可行的。此外，随着用于语音和自然语言处理的片上深度学习的定制硅的最新进展[62]，用于语义听力的商业可听设备很可能会使用这种定制硅来降低可穿戴设备的功耗和端到端延迟。

6 结论

本文朝着利用声音的语义描述在双耳可听设备上实现声学场景的实时编程迈出了重要的第一步。其核心是两个关键的

技术贡献: 1)第一个双耳目标声音提取神经网络。我们的网络可以实时运行，使用10 ms或更少的音频块，同时保留空间信息，以及2)一种训练方法，允许我们的系统泛化到未见过的现实世界环境。对参与者进行的野外实验表明，我们的概念验证的软硬件系统可以保留目标声音的方向，并将这些声音实时地从背景噪声和环境中的其他声音中分离出来。

论文阅读：2023_Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables

摘要