第四章神经网络声码器

初代神经声码器WaveNet

WaveNet 是DeepMind 提出的一种深度学习声码器，2016 年 9 月的一篇论文中进行了概述[1]，旨在能够直接从原始音频数据生成语音。WaveNet 最初是为了改进传统的文本到语音（TTS）系统的语音质量提出的，其采用卷积神经网络生成音频波形，实现了比传统方法更自然的声音。WaveNet 的主要挑战在于需求巨大的计算资源，这使得它在实际应用中受到了限制。

为了解决 WaveNet 高计算成本的问题，后续研究推出了更加高效的模型，如 Parallel WaveNet、WaveRNN [2]和 WaveGrad[3]。

2018 年谷歌提出了针对实时语音合成优化的神经声码器模型WaveRNN， WaveRNN 的主要目的是在保留 WaveNet 模型高音质特性的同时，显著降低其计算复杂度，以适应实时处理的需求。

WaveRNN 推广使用单一循环神经网络（RNN），与 WaveNet 的多层卷积网络相比，WaveRNN 使用 LSTM 或 GRU 单元来捕捉长期依赖关系，这种简化的神经网络架构来减少计算需求，并有效地生成连续音频样本，这在计算和内存使用上都比 WaveNet 更高效。

WaveRNN 引入了一个技术，将网络分成两个较小的部分，分别负责处理高位和低位的随机变量。这种分拆大大减少了模型的参数数量和复杂度。

这里的WaveNet、WaveRNN以及LPCNet都是传统的自回归神经声码器，通过预测每个样本并且每次生成一个样本来生成音频，这种生成方式依赖于前一个样本的输出。这个过程是顺序的，因此速度相对较慢。

后续的创新，如 MelGAN、HiFi-GAN 和 WaveGlow，避免了对自回归的需求，能够在不考虑前一个样本输出的情况下并行生成多个音频样本，从而大大提高了合成速度。

MelGAN 通过一系列的上采样和卷积处理，能够将短时间的频谱特征映射扩展为较长时间的音频波形，即同时生成多个音频样本，而不是像自回归模型那样一个接一个地生成。这种设计极大地提高了声音生成的效率和流畅性，使其能够适用于需要快速响应的实时音频生成场景。

GAN-Based Vocoder（2019-）

早期神经网络声码器主要任务还是克服早期模型中存在的效率和质量问题，2019年起，基于生成对抗网络（GAN）的结构提出，MelGAN 和 Parallel WaveGAN 是使用生成对抗网络 (GAN) 的声码器，它们可提供更快的生成速度和良好的音质，适用于实时应用。

GAN网络通过训练一个能够蒙骗判别器的生成器，从而不断提高输出音频的真实感。其架构包括生成器和判别器，生成器 - 用来生成音频波形。 判别器 - 判断生成的音频波形和真实音频波形的区别，以提供反馈给生成器。

对抗训练的引入旨在进一步提升声音的自然度和真实感，2020年提出的HiFi-GAN 和 2024年提出的EVA-GAN、BigVGAN是代表作。

2020年提出的HiFi-GAN 同样采用了 GAN 技术，但针对提供高保真度的音频（特别是语音）输出进行了优化。它能够在低资源消耗的同时，生成质量极高的音频。

HiFi-GAN 的目的是通过这种对抗过程产生更加自然的语音效果，解决了传统神经声码器在某些语音合成细节处理上不足的问题。

EVA-GAN 还是在相同的对抗网络模型基础上进一步发展，目标是提升声音自然度的同时，优化训练过程和生成效率。

BigVGAN的结构如下：

这是英伟达开源的模型，效果目前来说是开源可以拿到的非常优秀的基于GAN的开源模型。

https://github.com/NVIDIA/BigVGAN

基于扩散模型的声码器（2020-）

DiffWave 是一种基于扩散模型的声音生成方法，它通过逐渐降低噪声来生成最终的音频波形。WaveGrad 的迭代策略借鉴了扩散模型的原理，以优化音质和生成效率。

WaveGrad 是谷歌团队在 2020 年提出的，它属于波形生成模型，一种基于梯度的声音生成模型，但与与传统的基于样本的自回归模型不同（如source-filter模型），使用了随机梯度下降的方法直接从高斯噪声中生成高质量的语音。WaveGrad 的目标是通过减少迭代次数来优化生成效率，同时尽量减少对音质的影响。

WaveGrad模型以一段白噪声开始，通过多步迭代优化逐步细化至目标音频，在条件梯度下降过程中使用样本的梯度信息，WaveGrad 能够有效地生成高质量音频。这种方法减少了传统自回归技术所需的复杂度和计算时间。这一技术借鉴了扩散概率模型（Diffusion model）的思想，WaveGrad 通过逐步减少噪声来生成清晰的音频。每一步迭代都朝着清晰度更高的方向推进。

WaveGrad 通过对初始噪声信号施加条件梯度，直接调整噪声以生成最终音频，这个过程主要是非线性和迭代的。而Diffusion 模型【可以参考博客】则通过一个更为明确的"去噪"过程，将数据从一个高噪声状态逐步转变为低噪声状态。这个过程更类似于从杂音中恢复信号的逆过程。

2021之后

2021之后发展路线上在模型层面出现经典结构相结合，如将变分自编码和GAN结合，Diffusion和Transformer相结合，在任务实现形态上，

VITS (2021) Variational Inference with adversarial learning for end-to-end Text-to-Speech

VITS 是一种端到端的文本到语音模型，结合了变分自编码器和生成对抗网络。它不但提高了语音合成的效率和质量，还支持更复杂的声音特性，如不同的语音风格和情绪。

后续发展趋势

多模态

情感、风格

上下文感知模型的引入是为了使语音模型能更好地理解和处理含义复杂或上下文依赖的语句。这类模型通过引入额外的上下文信息，如语者的语音风格、情感态度等，来提高语音合成的自然度和适应性。

这类模型的引入主要是解决传统声码器在处理复杂语句时可能缺乏语境适应能力的问题，这在交互式应用如聊天机器人或虚拟助手中尤为重要。

参考文献

1\] https://arxiv.org/pdf/1609.03499 \[2\] arXiv:1802.08435v2 \[cs.SD\] 25 Jun 2018

第四章 神经网络声码器