为全球语言用户解锁语音 AI 技术：热门问答

这篇文章最初发表在 NVIDIA 技术博客上。

语音技术正在无处不在地发展。但许多人正被一个以英语为中心、存在人口统计学偏见的算法世界抛在后面。Mozilla Common Voice（MCV）和NVIDIA正在合作，通过开发一个公共众包多语言语音语料库和开源预训练模型来改变这一现状，该语料库目前是世界上同类语料库中最大的。现在比以往任何时候都更容易开发自动语音识别（ASR）技术，以满足多种语言的使用者。

这篇文章总结了来自于2022年由EM Lewis Jong主演的 Speech AI Summit 和 Mozilla Common Voice 以及NVIDIA 的 Caroline de Brito Gottlieb 在 Unlocking Speech AI Technology for Global Language Users 中提出的录音讲话。

是否存在多语言 NVIDIA NeMo 开源模型？

**Caroline de Brito Gottlieb：**要制作语音 AI，我们首先需要了解世界是如何使用语言的。由于单语言是世界范围内的一种反常现象，因此 NVIDIA 的研究人员专注于为多语言环境创造最先进的人工智能。

NVIDIA 通过 NeMo 发布了其首款多语言和代码切换/代码混合语音识别模型，它可以将音频样本转录成英语、拉丁语/北美西班牙语，以及同一句子中使用的英语和西班牙语，这种现象被称为代码切换或代码混合。NVIDIA 将很快在 NeMo 上为印度语提供多语言模型。

代码的切换或混合在多语言社区和讲多种方言或同一语言变体的社区中非常常见。这对现有的语音人工智能解决方案提出了独特的挑战。然而，开源 NeMo 模型是迈向人工智能的重要一步，它准确地反映和支持了全球社区在现实世界中如何实际使用语音。

数据集是否扩展到"语言"之外，包括特定领域的词汇？例如，金融和医疗数据集可能有所不同

**EM Lewis-Jong：**MCV 语料库中表示的领域一直由社区驱动，通过平台创建数据集。这意味着不同的语言在其数据集中有不同的领域------有些可能主要涉及新闻和媒体，而另一些可能包含更多的教育文本。如果您想要增强 Common Voice 数据集中特定领域的覆盖率，可以通过 GitHub 或者 Sentence Collector 工具。欢迎所有领域的贡献。

MCV 正在积极重建和扩展句子收集器工具，使其更容易接收大量文本，并对其进行适当标记。预计 2023 年 4 月将出现这些变化。此外，该团队一直在与 NVIDIA 和其他数据合作伙伴密切合作，以确保元数据模式尽可能具有互操作性。对普通语音语料库进行领域标记是其中的一个重要部分。

**Caroline de Brito Gottlieb：**解释特定领域的语言是一个关键的挑战，尤其是在跨行业应用人工智能解决方案时。因此，NVIDIA Riva提供了多种技术，如单词增强和词汇扩展，以及定制 ASR 模型，以提高特定词语的识别率。

我们的团队主要将领域视为词汇和术语。考虑到 GPU 、 FTP 等专业术语和首字母缩略词的不同级别，仅此一项就构成了巨大的挑战。但同样重要的是，除了收集单个单词之外，还要收集特定领域的数据，以捕捉语法或结构差异；例如，否定在临床实践指南中的表达方式。设计和管理特定领域的数据集是 Common Voice 和 NVIDIA 之间的一个活跃合作领域，我们很高兴看到针对英语以外语言的特定领域 ASR 取得进展。

如何区分不同地区的西班牙语、英语、葡萄牙语和其他语言的不同版本？

**EM Lewis-Jong：**从历史上看， MCV 没有一个很好的系统来区分不同版本的语言。社区可以选择创建一个全新的数据集（按语言组织），也可以使用重音字段。 2021 年， MCV 进行了一次深入的研究，发现了以下内容：

**社区对变体的认识有限：**没有太多背景的新社区并不总是确定如何对自己进行分类。一旦他们决定是成为一个新的语言数据集还是保持口音，就很难改变主意。
**数据集碎片：**多样化的社区，比如那些有大量散居人口的社区，可能会觉得他们需要完全分裂，建立一种全新的语言。这会对数据集进行分割，并混淆贡献者。
**身份和经验：**一些语言社区和贡献者使用重音标签，但可能会感到被边缘化和被削弱。谈论语言就是谈论权力，有些人希望有能力以尊重和代表他们的方式识别他们的语言，而不是"口音"。
**语言和拼写多样性：**一些社区认为没有适合他们的安排，因为他们的口语有多种书写系统。目前， MCV 假设口语和书面语之间的关系为 1 : 1 。

由于这些原因，该团队在平台上启用了一个名为 Variant 的新类别。这是为了帮助社区系统地区分语言，特别是支持拥有不同语言使用者的大型语言。

在可能的情况下，MCV使用BCP-47 codes来标记。BCP-47是一个灵活的系统，可以让社区提取关键信息，如地区、方言和正字法。

例如，斯瓦希里语社区可能希望区分刚果斯瓦希里和奇姆维尼语。从历史上看，在该平台上，这将被定义为"口音"差异，尽管变体具有不同的词汇和语法，并且不容易相互理解。换句话说，演讲者可能很难理解彼此。

社区现在可以自由选择是否以及如何使用变体标签。 MCV 正在分阶段将其推广到语言社区。该团队围绕语言、变体和口音制定了新的定义，作为社区的有用指南。这些定义将随着 MCV 社区的发展而演变。更多信息，请查看如何使 Common Voice 更具语言包容性。

成功部署用例的一些例子是什么？

**EM Lewis-Jong：**MCV 被世界上大多数最大科技公司的研究人员、工程师和数据科学家以及学术界、初创公司和民间社会使用。它每年被下载数十万次。

团队非常兴奋的一些最近的用例包括：Kinyarwanda Mbaza chatbot，为新冠肺炎提供指南；泰语语言健康跟踪，为视障人士提供可穿戴设备；像ChamaChat这样的Kiswahili语言金融规划应用，以及像LivHealth这样的肯尼亚农民农业健康指导。

**Caroline de Brito Gottlieb：**NeMo -- 使用 MCV 等数据集也得到了广泛部署。Tarteel AI是一家专注于人工智能、信仰的初创公司，专注于宗教和教育技术。 Tarteel 团队利用NVIDIA Riva和 NeMo AI 工具，通过在阿拉伯语数据上微调英语 ASR 模型，在阿拉伯语转录上实现 4% 的最先进的单词错误率（ WER ）。这使 Tarteel 开发了世界上第一个古兰经阿拉伯语 ASR ，提供了技术支持世界各地 18 亿穆斯林社区通过实时反馈改进他们的古兰经背诵。

2023 年 1 月，Riva 发布了一个开箱即用的针对阿拉伯语的 ASR 模型，可以无缝定制特定的方言、口音和域。另一个使用案例，即新加坡英语（或 Singlish），可参见为本地新加坡语音轻松定制语音 AI。

Mozilla 如何收集一种语言的通用语音数据集的多样性属性，如年龄和性别？

**EM Lewis-Jong：**MCV 使用户能够自我识别他们的剪辑，并将其与相关信息相关联：变体（如果你的语言有）、口音（一个重要的多样性属性）、性别和年龄。今年， MCV 将扩大一些人口类别的选择，特别是性别，以更具包容性。

这些信息将与您的剪辑相关联，然后在数据集发布之前安全可靠地化名。你可以在通常的贡献流中告诉 MCV 你的语言特征；但是，对于敏感的人口统计属性，您必须创建一个帐户。

微调特定语言时，最好使用哪种类型的 ASR 模型？

Caroline de Brito Gottlieb： NeMo 是一个带有预训练模型的工具包，使您能够根据自己的语言和特定用例进行微调。最先进的预训练 NeMo 模型可在NGC，用于 GPU 优化软件的 NVIDIA 集线器，以及HuggingFace.查看广泛的tutorials这一切都可以继续下去Google Colab，以及一整套example scripts支持多 GPU /多节点训练。

除了 NeMo ASR 中已提供的语言外，社区成员还通过微调 NeMo 基础模型，获得了新语言、方言、变体和重音的最新结果。大部分工作都使用了 NVIDIA 预训练的英语 ASR 模型，但我鼓励您尝试对 NeMo 模型进行微调，以获得与您正在研究的语言（Glottolog）最相关的语言。

我的母语约鲁巴语没有出现在 MCV 上。如何将它与不同的方言一起包含进来？

**EM Lewis-Jong：**任何人都可以向 MCV 添加新语言。请联系我们以添加您的语言。

这个过程分为两个阶段：翻译网站和收集句子。

翻译该网站涉及一个名为Pontoon的翻译工具。蓬顿支持多种语言，但如果没有您的语言，您可以请求添加您的语言。然后，为了使该语言可用于公共语音项目，请求在GitHub上添加新语言。了解有关网站翻译的更多细节以及如何使用Pontoon。

收集句子可以通过添加少量句子，或者使用GitHub进行批量导入。句子需要满足CC0（或公共领域）的要求，或者你可以自己编写。了解更多关于句子收集和使用句子收集器的信息，请参阅有关句子收集的更多信息。

数据扩充是否考虑到了对更多多样性的需求？

**Caroline de Brito Gottlieb：**语音人工智能模型需要对各种环境因素和上下文变化保持稳健，尤其是当团队扩展到更多的语言、社区，从而扩展到上下文时。然而，真实的数据并不总是能够代表这种多样性。

数据增强是通过模拟语音数据特征来增强数据集大小和多样性的强大工具。当应用于训练数据时，由此产生的扩展或多样化的数据集可以帮助模型更好地推广到新的场景和看不见的数据。

当数据扩充技术应用于用于测试的数据集时，它可以帮助理解模型在扩展的各种语音数据上下文中的性能。 NeMo 提供多种数据增强技术，如噪声扰动、语音扰动和时间拉伸，可用于训练和测试数据。

MCV 中的数据集是否支持不同的口音，例如说德语带法国口音？

**EM Lewis-Jong：**每个演讲者都有自己独特的口音，欢迎所有人。截至 2021 年 12 月，你可以轻松地在个人主页上添加多种口音。

重音不受他人选择的限制。你可以根据自己的条件规定你的口音，让贡献者更容易以自然的方式快速识别他们的演讲。

例如，如果你是一名来自德国的法语使用者，在科特迪瓦学习法语，你可以在提交的法语剪辑中添加"德语"和"科特迪瓦"等口音。

总结

为了创建一个更健康的人工智能生态系统，社区需要有意义地参与数据创建过程。此外，开源语音数据集和 ASR 模型使每个人都能进行创新。

如果你想为多语言语音语料库做出贡献，请查看NVIDIA NeMo和Mozilla Common Voice，参与其中。

阅读原文