本文是LLM系列的文章，针对《SeamlessM4T---Massively Multilingual & Multimodal Machine Translation》的翻译。

SeamlessM4T：大规模语言多模态机器翻译

摘要
[1 引言](#1 引言)
[2 多模态翻译的社会技术维度](#2 多模态翻译的社会技术维度)
- 2.1
- 2.2
- 2.3
[3 SeamlessAlign：自动创建语音对齐数据](#3 SeamlessAlign：自动创建语音对齐数据)
[4 SeamlessM4T模型](#4 SeamlessM4T模型)
[5 自动和人工评估](#5 自动和人工评估)
[6 负责任的AI](#6 负责任的AI)
[7 社会影响与结论](#7 社会影响与结论)
- [7.1 增强世界准备度](#7.1 增强世界准备度)
- [7.2 未来工作](#7.2 未来工作)

摘要

如何创建Babel Fish，一个可以帮助个人在任何两种语言之间翻译语音的工具？虽然最近在基于文本的模型方面的突破已经将机器翻译的覆盖范围推到了200多种语言之外，但统一的语音到语音翻译模型尚未取得类似的进展。更具体地说，传统的语音到语音翻译系统依赖于由多个子系统组成的级联系统来逐步执行翻译，这使得可扩展和高性能的统一语音翻译系统遥不可及。为了解决这些差距，我们推出了SeamlessM4T------大规模多语言和多模态机器翻译------一个单一的模型，支持多达100种语言的语音到语音翻译、语音到文本翻译、文本到语音翻译和自动语音识别。为了构建这一点，我们使用了100万小时的开放式语音音频数据来学习w2v-BERT 2.0的自监督语音表示。随后，我们创建了一个多模态的自动对齐语音翻译语料库，名为SeamlessAlign。经过过滤并结合人工标记和伪标记数据（总计406000小时），我们开发了第一个能够将语音和文本从英语翻译成英语的多语言系统。在Fleurs上，SeamlessM4T为翻译成多种目标语言设定了一个新的标准，在直接语音到文本翻译方面比以前的最先进技术提高了20%的BLEU。与强级联模型相比，SeamlessM4T在语音到文本中提高了1.3个BLEU点，在语音到语音中提高了2.6个ASR-BLEU点。在CVSS上，与用于语音转换的两级级联模型相比，Seamless M4T Large的性能增强了58%。对语音到文本翻译输出的初步人类评估显示出同样令人印象深刻的结果；对于英语翻译，24种评估语言的XSTS分数始终高于4（满分5）。对于英语方向，我们发现在24种语言中有7种语言比WhisperLarge-v2的基线有了显著改进。为了进一步评估我们的系统，我们开发了Blaser 2.0，在质量估计方面，与前代系统相比，它能够以类似的精度对语音和文本进行评估。经过稳健性测试，与当前最先进的模型相比，我们的系统在语音到文本任务中对背景噪声和说话者变化的处理效果更好（平均分别提高了38%和49%）。至关重要的是，我们评估了Seamless M4T的性别偏见，并增加了毒性以评估翻译安全性。与最先进的相比，我们报告翻译输出中的附加毒性降低了63%。最后，这项工作中的所有贡献------包括模型、推理代码、由我们改进的建模工具包Fairseq2支持的微调配方，以及重新创建SeamlessAlign未经过滤的47万小时的元数据------都是开源的，可以通过https://github.com/facebookresearch/seamless_communication访问.

1 引言

2 多模态翻译的社会技术维度

2.1

2.2

2.3

3 SeamlessAlign：自动创建语音对齐数据

4 SeamlessM4T模型

5 自动和人工评估

6 负责任的AI

7 社会影响与结论

人类交流是多感官的------我们接受来自几种模式的感官输入，以动态的方式处理信息。在多语言环境中，基于文本的机器翻译的进步产生了帮助个人用熟练程度较低的语言进行交流和学习的工具。也就是说，虽然NLLB等基础模型将T2TT推向了200种语言之外，但直接语音翻译尚未取得类似的进展。为了弥补这一差距，我们创建了一个大规模的多语言和多模态机器翻译系统，为下一代语音翻译技术铺平了道路。

使用新的数据和建模方法将S2ST、S2TT、T2TT和ASR组合在一个模型中，我们的主要贡献如下。首先，我们建立了一个与我们的语言覆盖范围相一致的新LID模型，并在新构思的SONAR（一个多语言和多模式句子嵌入空间）的帮助下进行语音挖掘，以创建一个超过47万小时的自动对齐语音翻译语料库。通过融合四个构建块，（1）Seamless M4T NLLB，一个大规模多语言T2TT模型，（2）w2v BERT 2.0，一个在未标记语音音频数据上预训练的语音表示学习模型，（3）T2U，一个文本到单元序列到序列模型，和（4）HiFi GAN，一个用于从单元合成语音的多语言声码器，我们建立了一个统一的模型，涵盖了从100种语言到英语（100 eng）的S2ST，从英语到35种语言（eng-35），以及100 eng和eng-95语言的S2TT。值得注意的是，与之前在S2ST上的工作相比，SeamlessM4T能够执行从英语到35个方向的翻译，S2ST主要提供英语翻译，而不是英语翻译。在S2TT方面，SeamlessM4T在S2TT翻译方面比以前的最先进技术提高了20%的BLEU。对S2TT输出的初步人类评估显示了同样令人印象深刻的结果；对于英语翻译，24种评估语言的XSTS分数始终高于4（满分5）。对于英语方向，我们看到24种语言中有7种语言的Whisper-Large-v2的基线有了显著改进。然后，我们评估了我们的模型的稳健性，发现Seamless M4T在背景噪声和扬声器变化方面比更具稳健性。通过还包括增加毒性水平和性别偏见的结果，我们希望激励未来针对缓解努力的工作。

为了促进可访问性，我们开源了我们工作的所有贡献，包括两种规模的模型，以确保即使是计算资源有限的研究人员也能使用我们的工作。在下一节中，我们通过关注Seamless M4T的下游可能性来讨论其潜在的社会影响。

7.1 增强世界准备度

我们生活的世界从未像现在这样相互关联------互联网、移动设备、通信平台和社交媒体的全球扩散使个人接触到比以往任何时候都更多的多语言内容。当前的社会秩序对一个人的"世界准备度"提出了要求，这是衡量一个人在多语言世界中的能力的指标。世界准备度最初是在语言学习的背景下发展起来的，它强调了能够用母语以外的语言进行交流的重要性，这既有工具原因（即就业或上学），也有文化原因（即成为全球公民）。也就是说，尽管我们认为语言习得应该仍然是提高一个人对世界的准备程度的关键机制，但我们承认，这样做需要许多人可能不具备的精神和物质资源。

SeamlessM4T支持的下游应用程序可以通过简化各种环境下的多语言交换，实现按需访问，以满足世界需求。正如T2TT在衔接多语言文本理解方面所取得的成就一样，Seamless M4T也可能对语音产生同样的效果。研究表明，与母语相反，在母语中，言语比阅读或写作更自然地习得，当涉及到外语时，这种趋势发生了逆转。换言之，在外语环境中，演讲通常被认为比阅读或写作更具挑战性。Seamless M4T支持的应用程序可以作为一种协同试点机制，支持用户进行多语言对话，并增强他们对语音密集交互的信心。随着基于语音的界面（即音频助手、语音备忘录、实时转录等）和听觉内容（即播客、有声读物、短视频等）越来越多地出现在人们的生活中，SeamlessM4T支持的下游应用程序可以提供更丰富多样的多语言体验，并且比基于文本的应用程序更自然、更动态。

从包容性的角度来看，Seamless M4T对多模态的关注可能会在增强那些有无障碍需求的人和那些语言包含多个写作系统的人的世界准备能力方面产生有意义的影响（如第2节所述）。对于许多缺乏阅读或写作技能，或无法依赖视力的人（即盲人或视力障碍者）来说，语音辅助技术对于他们如何沟通和保持联系至关重要。翻译语音的能力不仅使这些群体能够更全面地获得母语之外的信息，而且能够以更适合他们交际需求的方式进行翻译。此外，认识到某些语言可能存在脚本差异，SeamlessM4T提供了可供性，有助于规避多脚本难题。对于没有标准化书写系统的语言，对语音识别和翻译的投资可能有助于防止危害。我们希望我们的努力能够为这一重要运动作出贡献。

7.2 未来工作

与大多数技术一样，收益的分配因用户人口统计和社会状况而异。虽然我们证明Seamless M4T可以通过降低跨语言交流的障碍来增强世界准备能力，但一些用户在使用我们的工作时可能会比其他用户遇到更多困难。例如，与许多其他语音技术一样，Seamless M4T的ASR性能可能因性别、种族、口音或语言而异。此外，我们的系统在翻译俚语或专有语时的表现名词在高资源语言和低资源语言之间也可能不一致。

S2ST面临的另一个挑战是，与书面语言相比，语音取决于即时接收和反馈。换句话说，说话者在确定输出质量或在现场对话中进行"编辑"的能力有限。如果没有能力在反译或母语人士的帮助下进行计划和修订，S2ST在涉及误译或毒性时可能会带来更高程度的互动风险。我们敦促使用SeamlessM4T微调或构建产品的研究人员和开发人员批判性地思考可以帮助用户规避这些潜在障碍的设计功能。与此相关的是，我们认为SeamlessM4T驱动的应用程序最好被视为一种辅助翻译的增强设备，而不是一种取代语言学习或可靠的人类口译员需求的工具。这一提醒在涉及法律或医疗决策的高风险情况下尤其重要。

最后，语音不是口语文本，它包括一套韵律（即节奏、重音和语调）和情感成分，值得进一步研究。为了创建感觉有机和自然的S2ST系统，应将更多的研究转向保持表现力的输出生成。此外，Babel Fish的完美实现需要对低延迟语音翻译的研究进行更深入的投资。开发能够进行流式传输的系统（即，在输入句子呈现时逐步翻译输入句子）可能会增加此类系统在行业或教育环境中的采用。我们希望Seamless M4T为这两个研究领域开辟新的可能性。

SeamlessM4T—Massively Multilingual & Multimodal Machine Translation