零样本多扬声器 TTS 系统概述:热门问答

这篇文章最初发表在 NVIDIA 技术博客上。

Speech AI Summit 是一个年度会议,汇集了人工智能和语音技术领域的专家,讨论最新的行业趋势和进步。这个会议的录音讲话,由 Coqui.ai 主持,总结了 2022 年峰会的零点击多说话者 TTS 系统的概述

用秒音频合成语音

近年来,文本到语音( TTS )系统凭借深度学习方法取得了显著进步。这些进步推动了旨在仅用几秒钟的语音将语音合成目标说话者的语音的研究。这种方法称为零样本多扬声器 TTSCoqui . ai 会议探讨了这种方法背后的时间表和最先进的技术。

以下是会议的一些要点:

  • YourTTS 在英语方面取得了最先进的性能,并证明了使用单扬声器数据集在目标语言中执行零样本多扬声器 TTS 的可行性。这为以低资源语言(如土著语言)开发这些系统开辟了可能性。想要了解更多信息,请访问 YourTTS:走向零尝试多扬声器 TTS 和零尝试语音转换,让每个人都可以使用
  • 扬声器验证系统的进步可以提高零样本多扬声器 TTS 系统的性能。
  • 零样本多扬声器 TTS 可用于生成新的人工语音。这是通过对新的扬声器嵌入进行采样来实现的。新的扬声器嵌入可以是完全随机的向量或不同扬声器嵌入之间的插值。例如,您可以在不进行版权保护的情况下生成声音。

零样本多扬声器 TTS 系统的热门问答

你能创造全新的声音吗?考虑过一分钟的微调对零样本有好处吗?培训 TTS 模型的硬件要求是什么? Edresson Casanova 深入探讨了开发零样本多扬声器 TTS 系统的首要问题。

如何衡量文本到语音的质量?

一般来说,TTS 系统的质量和自然度可以通过平均意见得分(MOS)来衡量。使用这个指标,人类评估者听音频并给出一到五分的分数,一分表示质量差,五分表示质量好。

在零样本多扬声器 TTS 系统中,还必须使用 相似性 MOS 来测量扬声器相似性。此外,还可以使用扬声器编码器来计算 扬声器编码器余弦相似性(SECS),以提取两个音频样本的扬声器嵌入,并计算这些嵌入之间的余弦相似性。

研究人员最近发表了论文,探索使用人工神经网络来预测 MOS 。目前,这些系统的通用性还不够好,尤其是对于新的记录条件,例如不同的麦克风或噪声环境。

语音到文本系统可以用来测量文本到语音系统的质量吗?

语音转文本(STT)系统可用于检查 TTS 模型的发音是否正确,但在文献中使用不多。STT 模型的评估仅涵盖语音,而不涵盖语音本身的质量方面。

与一分钟微调相比,零样本的好处是什么?

零样本可以很好地工作,但并不总是如此。在一些录音中,条件和声音与训练中看到的太不一样了,从而导致零样本可能会失败,并产生与目标说话人的声音不同的声音。在这种情况下,可以使用一分钟的微调。这篇 YourTTS 论文显示,该模型可以很好地学习语音,即使是对于模型具有糟糕的零样本的语音。

扬声器编码器的体系结构有多重要?你建议单独训练扬声器编码器还是与声谱图生成器一起训练?

扬声器编码器是决定零样本多扬声器 TTS 模型最终质量的重要部件之一。如果没有良好的扬声器嵌入,该模型就无法克隆新的声音。 YourTS 模型上使用的扬声器编码器在数千个扬声器上分别进行了预训练,并在训练过程中保持冻结。

一些论文,如Attentron: Few-Shot Text-to-Speech Utilizing Attention-Based Variable-Length Embedding,表明将类似扬声器编码器的模块与 TTS 模型一起训练可以产生良好的结果。根据我的经验,这取决于训练中有多少演讲者。如果没有足够的扬声器多样性,该模型很容易过拟合,并且不能很好地处理训练中没有出现的扬声器或录音条件。

是否可以插入扬声器编码器表示,以创建未知声音作为已知声音的混合?

这是可能的。它还可以通过随机嵌入扬声器来生成新的人工语音。尽管 YourTTS colab demos 不涵盖此内容,但 SC-GlowTTS colab demo 展示了如何生成全新人工语音的示例。

模型是基于音素还是基于字符进行训练?

YourTS 是基于角色的。然而,例如, Sc-GlowTTS 是基于音素的。在 YourTS 上,我们决定使用字符而不是音素来训练它,因为该模型的目标是用于通常没有良好音素化器的低资源语言。

训练领先的文本到语音模型需要多少数据中心计算?

YourTS 使用了一个NVIDIA V100 32GB GPU,批量大小为 64。但是,也可以使用较少 VRAM 的 GPU,以较小的批量对其进行训练。我从未尝试过 VRAM 较少的 GPU,但我知道一些 Coqui TTS 贡献者已经使用具有 11GB VRAM 的 GPU 对 YourTS 模型进行了微调。

在计算说话人嵌入时,从嵌入提取中排除某些片段(如无声、清音或塞音)有帮助吗?

尽管说话人编码器应该学会如何忽略沉默,只关注语音,但在数据集预处理步骤中,我们消除了开始和结束的长时间沉默,以避免模型训练过程中出现问题。然后,我们消除了长时间的沉默。然而,我们不删除清音或塞音音位段。

表达性语言可以实现零样本文本到语音转换吗?

这是可以实现的。在 Coqui.ai,我们已经开发出一种模型,可以实现零样本多扬声器 TTS,并在五种不同的情感中生成富有表现力的语音。此模型可通过 Coqui Studio 获得。

更多资源

从微调模型到生成自定义语音,语音 AI 技术帮助组织在全球范围内处理复杂的对话。查看以下资源,了解您的组织如何将语音人工智能集成到核心业务中。

阅读原文

相关推荐
OpenCSG5 天前
Cosmos3:NVIDIA 把世界模型做成了“理解、生成、模拟、行动”的统一入口
人工智能·大模型·nvidia·opencsg
OpenBayes贝式计算6 天前
端侧同尺寸 SOTA:OpenBMB 发布 1B 参数模型 MiniCPM5-1B;集成多级平行语料与多语言词典:SMOL 翻译数据集开源
计算机视觉·google·nvidia
OpenBayes贝式计算6 天前
教程上新丨英伟达开源 LocateAnything,3B 模型可实现图像 + 视频的目标指向 / 开放词汇目标检测/指代表达定位 / OCR 文本定位等功能
计算机视觉·agent·nvidia
视***间7 天前
算力筑基,智领人形机器人新时代 —— 英伟达 × 宇树科技携手推进具身智能,视程空间基于 NVIDIA 全栈算力产品助力机器人产业落地
人工智能·机器人·nvidia·机器狗·gpt-oss·视程空间·宇树机器人
wangruofeng9 天前
NVIDIA RTX Spark 背后,联发科也坐上了主桌
aigc·nvidia
AI科技大本营9 天前
MediaTek 与NVIDIA 合作推出 NVIDIA RTX Spark,驱动下一代 Windows PC 体验
nvidia·mediatek
阿里云大数据AI技术11 天前
基于阿里云 DataWorks Data Agent 进行大模型热度分析
人工智能·agent·nvidia
Together_CZ15 天前
Windows 下 CUDA / cuDNN / PyTorch GPU 训练环境搭建完整指南:虚拟环境与系统级环境两种方案
virtualenv·nvidia·cuda·cudnn·rtx 5060
元让_vincent15 天前
论文Review SLAM cuVSLAM | NVIDIA 2025 | CUDA加速的视觉里程计与建图系统
nvidia·视觉slam·gpu加速
AI小小怪17 天前
保姆级教程:Ubuntu 22.04 安装 NVIDIA GPU 驱动 + CUDA 12.6(RTX 3080 显卡)
linux·nvidia·cuda