零样本多扬声器 TTS 系统概述：热门问答

这篇文章最初发表在 NVIDIA 技术博客上。

Speech AI Summit 是一个年度会议，汇集了人工智能和语音技术领域的专家，讨论最新的行业趋势和进步。这个会议的录音讲话，由 Coqui.ai 主持，总结了 2022 年峰会的零点击多说话者 TTS 系统的概述。

用秒音频合成语音

近年来，文本到语音（ TTS ）系统凭借深度学习方法取得了显著进步。这些进步推动了旨在仅用几秒钟的语音将语音合成目标说话者的语音的研究。这种方法称为零样本多扬声器 TTSCoqui . ai 会议探讨了这种方法背后的时间表和最先进的技术。

以下是会议的一些要点：

YourTTS 在英语方面取得了最先进的性能，并证明了使用单扬声器数据集在目标语言中执行零样本多扬声器 TTS 的可行性。这为以低资源语言（如土著语言）开发这些系统开辟了可能性。想要了解更多信息，请访问 YourTTS：走向零尝试多扬声器 TTS 和零尝试语音转换，让每个人都可以使用。
扬声器验证系统的进步可以提高零样本多扬声器 TTS 系统的性能。
零样本多扬声器 TTS 可用于生成新的人工语音。这是通过对新的扬声器嵌入进行采样来实现的。新的扬声器嵌入可以是完全随机的向量或不同扬声器嵌入之间的插值。例如，您可以在不进行版权保护的情况下生成声音。

零样本多扬声器 TTS 系统的热门问答

你能创造全新的声音吗？考虑过一分钟的微调对零样本有好处吗？培训 TTS 模型的硬件要求是什么？ Edresson Casanova 深入探讨了开发零样本多扬声器 TTS 系统的首要问题。

如何衡量文本到语音的质量？

一般来说，TTS 系统的质量和自然度可以通过平均意见得分（MOS）来衡量。使用这个指标，人类评估者听音频并给出一到五分的分数，一分表示质量差，五分表示质量好。

在零样本多扬声器 TTS 系统中，还必须使用相似性 MOS 来测量扬声器相似性。此外，还可以使用扬声器编码器来计算扬声器编码器余弦相似性（SECS），以提取两个音频样本的扬声器嵌入，并计算这些嵌入之间的余弦相似性。

研究人员最近发表了论文，探索使用人工神经网络来预测 MOS 。目前，这些系统的通用性还不够好，尤其是对于新的记录条件，例如不同的麦克风或噪声环境。

语音到文本系统可以用来测量文本到语音系统的质量吗？

语音转文本（STT）系统可用于检查 TTS 模型的发音是否正确，但在文献中使用不多。STT 模型的评估仅涵盖语音，而不涵盖语音本身的质量方面。

与一分钟微调相比，零样本的好处是什么？

零样本可以很好地工作，但并不总是如此。在一些录音中，条件和声音与训练中看到的太不一样了，从而导致零样本可能会失败，并产生与目标说话人的声音不同的声音。在这种情况下，可以使用一分钟的微调。这篇 YourTTS 论文显示，该模型可以很好地学习语音，即使是对于模型具有糟糕的零样本的语音。

扬声器编码器的体系结构有多重要？你建议单独训练扬声器编码器还是与声谱图生成器一起训练？

扬声器编码器是决定零样本多扬声器 TTS 模型最终质量的重要部件之一。如果没有良好的扬声器嵌入，该模型就无法克隆新的声音。 YourTS 模型上使用的扬声器编码器在数千个扬声器上分别进行了预训练，并在训练过程中保持冻结。

一些论文，如Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length Embedding，表明将类似扬声器编码器的模块与 TTS 模型一起训练可以产生良好的结果。根据我的经验，这取决于训练中有多少演讲者。如果没有足够的扬声器多样性，该模型很容易过拟合，并且不能很好地处理训练中没有出现的扬声器或录音条件。

是否可以插入扬声器编码器表示，以创建未知声音作为已知声音的混合？

这是可能的。它还可以通过随机嵌入扬声器来生成新的人工语音。尽管 YourTTS colab demos 不涵盖此内容，但 SC-GlowTTS colab demo 展示了如何生成全新人工语音的示例。

模型是基于音素还是基于字符进行训练？

YourTS 是基于角色的。然而，例如， Sc-GlowTTS 是基于音素的。在 YourTS 上，我们决定使用字符而不是音素来训练它，因为该模型的目标是用于通常没有良好音素化器的低资源语言。

训练领先的文本到语音模型需要多少数据中心计算？

YourTS 使用了一个NVIDIA V100 32GB GPU，批量大小为 64。但是，也可以使用较少 VRAM 的 GPU，以较小的批量对其进行训练。我从未尝试过 VRAM 较少的 GPU，但我知道一些 Coqui TTS 贡献者已经使用具有 11GB VRAM 的 GPU 对 YourTS 模型进行了微调。

在计算说话人嵌入时，从嵌入提取中排除某些片段（如无声、清音或塞音）有帮助吗？

尽管说话人编码器应该学会如何忽略沉默，只关注语音，但在数据集预处理步骤中，我们消除了开始和结束的长时间沉默，以避免模型训练过程中出现问题。然后，我们消除了长时间的沉默。然而，我们不删除清音或塞音音位段。

表达性语言可以实现零样本文本到语音转换吗？

这是可以实现的。在 Coqui.ai，我们已经开发出一种模型，可以实现零样本多扬声器 TTS，并在五种不同的情感中生成富有表现力的语音。此模型可通过 Coqui Studio 获得。

零样本多扬声器 TTS 系统概述：热门问答

用秒音频合成语音

零样本多扬声器 TTS 系统的热门问答

更多资源