关键词识别神经网络

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI

关键词识别 (KWS) 是人机界面的主要组成部分。 KWS 的目标是在低误报 (FA) 率下最大化检测精度，同时最小化占用空间大小、延迟和复杂性。为了实现这些目标，我们研究了卷积循环神经网络 (CRNN)。受到大规模最先进语音识别系统的启发，我们结合了卷积层和循环层的优势来利用局部结构和远程上下文。我们分析了架构参数的影响，并提出了提高性能的训练策略。我们的 CRNN 模型仅使用约 230k 参数，即可产生可接受的低延迟，并在 0.5 FA/小时、5 dB 信噪比下实现 97.71% 的准确度。

受人类彼此交互最常见方式的推动，对话式人机界面在众多应用中变得越来越流行。高性能语音到文本转换和文本到语音转换构成了此类接口的两个重要方面，因为大多数计算算法都是针对文本输入和输出而开发的。会话界面的另一个重要方面是关键字识别（KWS）M也称为唤醒词检测，以根据用户提供的语音输入实现不同计算状态之间的转换。 KWS 系统旨在从连续的音频流中检测特定的关键字。由于它们的输出决定了设备的不同状态，因此极高的检测精度和极低的误报 (FA) 率对于实现令人满意的用户体验至关重要。典型应用存在于受到背景音频、混响失真以及嵌入 KWS 的设备的扬声器产生的声音干扰的环境中。 KWS 系统应该在这种广泛的情况下表现出强大的性能。此外，计算复杂性和模型大小是 KWS 系统的重要关注点，因为它们通常嵌入内存和计算资源有限的消费设备中，例如智能手机或智能家居传感器。

已经有数百万台设备配备了嵌入式 KWS 系统。 KWS 的传统方法基于带有序列搜索算法的隐马尔可夫模型。随着深度学习的进步和可用数据量的增加，最先进的 KWS 已被深度学习所取代基于学习的方法由于其卓越的性能。基于深度学习的 KWS 系统通常使用深度神经网络 (DNN) 与压缩技术或多风格训练方法相结合。 DNN 的潜在缺点是它们忽略输入的结构和上下文，并且音频输入在时域或频域中可能具有很强的依赖性。为了通过共享权重利用此类局部连接模式，人们对 KWS 探索了卷积神经网络 (CNN) 。 CNN 的一个潜在缺点是，如果没有宽过滤器或大深度，它们无法对整个帧的上下文进行建模。与前面提到的具有交叉熵 (CE) 损失的 DNN 和 CNN 模型不同，循环神经网络 (RNN) 还研究了具有联结时间分类 (CTC) 损失的 KWS 。然而，考虑到此类系统的应用目标雄心勃勃，无法在低 FA 率下获得高精度。与 DNN 类似，RNN 的潜在局限性是建模是根据输入特征完成的，而不需要学习连续时间和频率步骤之间的结构。最近，提出了一种具有 CTC 损失的卷积循环神经网络（CRNN）架构。然而，尽管模型尺寸很大，与 RNN 类似，但无法在低 FA 率下获得高精度。在本文中，我们专注于开发一个生产质量的 KWS 系统，使用带有 CE 损失的 CRNN，用于小足迹模型，应用于单个关键字。我们的目标是结合 CNN 和 RNN 的优势，并在训练过程中应用额外的策略来提高整体性能，同时保持较小的占用空间。

受到成功的大规模语音识别系统 [12-14] 的启发，我们专注于规范的 CRNN 架构。为了使这些架构适应小规模 KWS，模型大小需要缩小两到三个数量级。我们将分析缩小模型尺寸时不同参数对性能的影响。图 1 显示了带有相应参数的 CRNN 架构。原始时域输入被转换为每通道能量归一化 (PCEN) 梅尔谱图 [8]，以实现简洁的表示和高效的训练。（我们尝试过的其他输入表示结果更糟大小相当的模型架构的性能。）二维 PCEN 特征作为卷积层的输入，卷积层在时间和频率维度上采用二维滤波。卷积层的输出被馈送到双向循环层，其中可能包括门循环单元（GRU）[15]或长短期记忆（LSTM）单元[16]并处理整个帧。循环层的输出被赋予全连接（FC）层。最后，对两个神经元应用 softmax解码，以获得相应的标量分数。我们在所有层中使用修正线性单元作为激活函数。

在语音识别中，具有循环层的大规模架构通常使用 CTC 损失的变体来解码最可能的输出标签。除了由于目标的条件独立性假设导致的建模限制之外， CTC 损失具有很高的计算复杂性，并且通常只有当模型容量足够大以有效地从大型数据集中学习时才能产生良好的性能。由于我们专注于小足迹架构，因此选择在训练期间优化的损失函数作为估计和目标二进制标签的 CE 损失，指示帧是否对应于关键字。我们使用算法 1 中所示的启发式算法获得关键字的开始和结束时间。在切割关键字以覆盖边缘情况时添加额外的短填充。获得的比对精度明显超出了人类感知的时间尺度。

我们为关键字"TalkType"（可以发音为单个单词或两个单词）开发 KWS 系统。我们选择 T = 1.5 秒的帧长度，该长度足以捕获"TalkType"的合理发音。使用 16 kHz 的采样率，每帧包含 24k 个原始时域样本。获得了 10 ms 步幅和 40 个通道的相应 PCEN mel 频谱图，产生 40 × 151 的输入维度。整个数据集由从 5k 多个说话者收集的约 16k 个不同样本组成。数据集按照 6-1-1 的比例分为训练集、开发集和测试集。通过应用加性噪声来增强训练样本，其功率由从 [-5,15] dB 间隔采样的信噪比 (SNR) 确定。加性噪声是从具有代表性的背景噪声和语音的数据集中采样的，总长度超过300小时。为了提供针对对准误差的鲁棒性，还通过引入随机定时抖动来增强训练样本。我们使用ADAMoptimization算法进行训练[17]，批量大小为64。学习率最初选择为 0.001，后来降至0.0003。我们的评估考虑了一个流场景，这样对持续时间为 T 的重叠帧执行推理。帧之间的偏移选择为 100 ms（理想情况下应比频谱图步幅长得多，并且比推理延迟短得多 - 有关更多详细信息，请参阅第 3.2 节））。我们关注的指标是每小时的错误拒绝率 (FRR) 和错误警报 (FA)，通常将后者固定在所需值，例如 1 FA/小时 [7]。噪声被添加到开发和测试集中，其大小取决于 SNR 值。我们注意到，收集的样本已经有噪声，因此如果精确定义为承载信息的信号与噪声的功率比，则实际 SNR 会较低。与我们对训练集的增强类似，负样本和噪声数据集是从代表性背景噪声中采样的，并且演讲。

实验结果如下