谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术

声学室模拟允许在AR眼镜上以最少的真实数据进行训练，用于开发鲁棒的语音识别声音分离模型。

随着增强现实（AR）技术的强大和广泛应用，它能应用到各种日常情境中。我们对AR技术的潜能感到兴奋，并持续不断地开发和测试新技术与体验。其中一个研究方向是探索语音模型对人际交流潜力的改变。例如，在我们之前进行的可穿戴字幕工作中，通过全天候语音转录来增强交流已经证明了其在聋哑人群体和听损人群等多个用户研究中的价值，也可以用于跨语言交流。这种增强尤其在群体对话或嘈杂环境中非常有用，在这些环境下，人们可能会遇到难以区分他人说话内容的困扰。因此，在可穿戴设备中准确地分离声音并进行语音识别是提供可靠且有价值用户体验所必需的关键要素。

在现实环境中，无论是在群体对话（左侧）还是周围存在多个说话者的嘈杂环境（右侧），语音字幕生成都面临着极大挑战

开发音频信号处理的深度学习解决方案需要访问大规模高质量数据集。对于训练声音分离模型而言，通过在实际设备上录制音频可以捕获到特定声学特性，然而考虑到需要在具有代表性的真实环境中使用实际设备，这一记录过程既耗时又困难。相比之下，利用模拟数据（例如房间模拟器）能够快速且低成本地进行操作，但可能无法准确捕捉到设备的良好声学特性。

在IEEE ICASSP 2024上发表的研究"基于模拟器的数据增强对增强现实眼镜语音识别性能的影响"证明了通过混合训练集，即由少量真实录音和大量模拟数据组成的配备麦克风头戴显示器原型，在提高模型性能方面具有显著效果。这种混合方法不仅可以捕获实际硬件声学特性（无法在模拟数据中获取），还可以便捷快速地生成适用于不同房间大小和配置声学场景的大量模拟数据，而使用实际设备记录这些数据则非常耗时。此外，该研究还对原型麦克风的方向性进行建模，以增加模拟结果的真实感，并进一步减少所需真实数据量。

室内声音传播机制

声波从A点到B点的传播模型如下：

其中，x(t)代表点A的时域声音信号，y(t)代表点B的声音信号。数学上通过脉冲响应(IR) h(t)来描述声波在经过A和B之间介质传播时的变化情况。

以下是一个在中度混响室内录制的红外信号示例。IR由三个主要部分组成：初始延迟、主峰和尾翼。初始延迟反映了声波从A点传播到B点所需时间延迟；主峰表示直接路径（即视距）上从A到B的声波传播；尾翼则由于墙壁、地板和天花板等处发生反射（也称为混响），导致较长距离和较晚到达以及振幅降低。

使用头戴式麦克风拍摄房间红外(IR)的示例。其中，(a)声波从扬声器传播到麦克风存在初始延迟，(b)主峰表示直接传播（即视距传播），(c)尾部代表来自房间的声音反射。

混合数据集

为了捕捉原型在一系列代表性环境中的独特声学特性，我们开发了一个混合数据集管道。通过使用头-躯干模拟器（HATS）在实际设备上记录房间脉冲响应（RIRs），我们能够获取真实数据。我们利用9个扬声器和一个嘴巴模拟器提供10个声源，并借助电动转台控制声源与原型之间的角度，从而记录每个房间720个RIRs（360°/ 5°增量× 10个声源）。这些扬声器分别放置在样机周围不同距离（1.0 - 4.2米）和高度（1.3 - 1.8米）的位置。所记录的RIR数据集被划分为训练集和评估集。对于模拟数据集，我们使用房间模拟器生成了8000个具有不同RT60混响时间（0.2-1.5秒）、房间体积（长/宽:2-6米，高度:2-6米）和扬声器位置（高度:1.3-2.1米，与原型距离:0.2-4米）的IRs。所有这些模拟RIR仅用于训练。

数据收集装置。麦克风原型安装在一个旋转平台上，周围有9个扬声器，另外还有一个10口模拟扬声器。在使用和不使用头部和躯干模拟器的情况下进行了720次RIR记录。

在训练过程中，我们使用了公共数据集（LibriTTS和FSD50K）以及记录和模拟的RIRs对语音和噪声样本进行了空间化处理，并将它们混合在一起。通过能够访问单独的预混合空间化源，我们可以获得用于监督训练的真实数据。根据所使用的训练集（记录的、模拟的或两者兼有）组合不同基于CNN的Conv-TasNet模型，并比较它们之间的性能。所有模型都保持相同的架构和超参数。

声学建模

在声学建模过程中，我们假设麦克风的指向性可以增强模拟的冲击响应（IRs）的真实感，因为麦克风指向性是录制IRs时关键的声学特征。因此，我们将模拟的RIRs扩展为具有麦克风指向性，并通过计算直达混响比（DRR）来衡量直达径（视线）音频与其混响部分之间功率上的差异。正如我们所假设的那样，我们得出了以下结论（见下文），即通过使模拟IRs更接近于录制IRs行为，并提高模拟数据集质量，从而进一步提升整体模型性能，而无需进行昂贵且耗时的录制过程。值得注意的是随着模拟IRs与录制IRs越来越接近，在混合数据集中以更多比例使用模拟IRs相对于记录IRs变得可行。因此，在不影响模型性能情况下，这种额外声学建模方法还可以进一步减少所需记录数据量。

结果

为了评估模型的性能，我们在预处理步骤上遵循与训练中相同的流程。不同之处在于，我们使用录制的IRs作为评估集，并排除了训练数据中的语音和噪声音频。推理后，分离出来的输出音频被传递到一个现成的自动语音识别（ASR）引擎进行计算单词错误率（WER）。我们使用未经修改过且与Pixel Recorder APP中使用的引擎相同的ASR引擎，在每个模型上重复执行相同推理过程以便与下面总结结果进行比较。

研究结果显示，使用混合数据集训练的模型相较于仅从记录数据集或模拟数据集训练的模型表现更优。混合模型S[4000]+M[720]（包含4000个模拟和720个测量）与M[1440]（包含1440个测量）具有类似性能，由于训练数据中已经包含了4000个模拟IRs，因此只需一半数量的记录- 1440→720 -。同时，S[4000]+M[720]也优于在S[8000]（包含8000个模拟）上进行训练的模型，这说明小子集中所提取出来的记录IRs数量减少了所需的模拟IRs数量（8000→4000 ）。

不同的数据增强方法与实测和模拟IRs进行比较。M表示测量，S表示模拟；括号中的内容分别代表IRs数量、D代表模拟中的麦克风指向性，G代表对被测房间使用匹配几何的模拟。WER的降低是相对于基线（没有声音分离）而言WER得到了改进。

结论

尽管可穿戴设备上的语音识别具有挑战性，特别是在噪声和混响条件下，但结论显示其具有解锁许多关键应用的潜力。本文量化了使用房间模拟器来训练作为语音识别前端的声音分离模型的有效性。通过(a)大幅增加可用模拟IRs数量、(b)利用麦克风指向性以及(c)与少量测量IRs合并，证明了模拟IRs对提高语音识别至关重要。

仿真技术成为开发可穿戴语音识别系统强有力的工具。我们得出一个重要结论：逼真的声学建模可以显著减少所需真实世界数据量，并且即使使用模拟数据来补充有限真实世界数据也能带来巨大性能提升。

这项研究为强大的语音驱动AR体验开辟了新途径，并为无数应用程序中增强通信铺平了道路。