语音合成之一TTS技术发展史综述

TTS技术发展史综述

引言
TTS技术的起源与早期探索
基于规则的TTS系统：原理与发展
共振峰合成技术：作用与影响
拼接合成技术：发展与应用
统计参数语音合成：以隐马尔可夫模型（HMM）为例
深度学习驱动的TTS：神经网络的突破
- 代表性模型：WaveNet与Transformer
- 端到端TTS系统
- MeloTTS：技术深入、关键特性与创新
- [Coqui TTS：技术深入、关键特性与创新](#Coqui TTS：技术深入、关键特性与创新)
- 大型语言模型在文本到语音技术中的集成
- - LLaSA：架构、LLM利用与性能
  - CoVoice2：架构、LLM利用与关键特性
  - [Spark TTS：架构、LLM利用与效率](#Spark TTS：架构、LLM利用与效率)
通用模型vs单音色模型
TTS技术的未来展望与潜在方向

引言

文本转语音（Text-to-Speech，TTS）技术是一种将书面文本自动转换为人类语音的技术。它是一门交叉学科，融合了语言学、声学、计算机科学和电子工程等多个领域的知识。TTS技术通过计算机合成逼真的语音，使得用户能够通过听觉获取信息，极大地扩展了人机交互的方式。从早期的机械发声装置到如今高度智能化的语音合成系统，TTS技术已经渗透到我们日常生活的方方面面，例如智能语音助手（亚马逊Alexa、豆包、苹果Siri等）、屏幕阅读器（为视力障碍人士和阅读障碍者）、教育软件、媒体与娱乐（播客、有声读物、视频/游戏角色配音）、车载导航、客服呼叫中心以及聊天机器人等。

本文旨在对TTS技术的发展历程进行全面的回顾，探讨其关键技术、应用领域以及未来的发展趋势。报告将按照时间顺序，从早期的机械合成尝试到现代基于深度学习的先进系统，详细阐述TTS技术的演变过程，并深入分析不同合成方法的原理和特点。

TTS技术的起源与早期探索

首次有记载的机械语音合成尝试出现在18世纪。1779年，俄国科学院的丹麦科学家克里斯蒂安·克拉岑斯坦（Christian Kratzenstein）制作了能够发出五个长元音（/aː/、/eː/、/iː/、/oː/和/uː/）的共鸣器模型，并在俄罗斯皇家科学院的竞赛中获奖。紧随其后，1791年，匈牙利科学家沃尔夫冈·冯·肯佩伦（Wolfgang von Kempelen）发明了一种"声学机械语音机"，该机器能够产生单个音素和一些音素组合。19世纪中期，查尔斯·惠特斯通（Charles Wheatstone）对肯佩伦的机器进行了改进，使其能够发出元音和大部分辅音。1846年，约瑟夫·法伯（Joseph Faber）制造了更为复杂的"欧福尼亚"（Euphonia），这台机械装置甚至能够合成语音和歌唱。

进入20世纪，随着电力技术的发展，电子语音合成器开始出现。1922年，斯图尔特（Stewart）制造了第一个全电子合成设备，虽然只能发出元音。20世纪30年代，贝尔实验室的霍默·达德利（Homer Dudley）致力于降低电话传输的带宽，在此过程中发明了声码器（VOCODER），一种键盘控制的语音分析和合成器。基于声码器的研究，达德利进一步开发了语音演示器（VODER），这是第一个电子语音合成器，于1939年在纽约世界博览会上展出。VODER通过键盘操作控制不同频率的带通滤波器，操作员需要经过长时间的训练才能流畅地合成语音。20世纪40年代末至50年代初，哈斯金斯实验室的富兰克林·S·库珀（Franklin S. Cooper）及其同事构建了模式回放器（Pattern Playback），该设备可以将语音声谱图转换回声音。

20世纪50年代末，最早的基于计算机的语音合成系统开始出现。1968年，日本电子技术综合研究所的梅田纪子（Noriko Umeda）等人开发了第一个通用的英语文本转语音系统。1961年，贝尔实验室的物理学家约翰·拉里·凯利（John Larry Kelly Jr.）及其同事路易斯·格斯特曼（Louis Gerstman）使用IBM 704计算机合成了语音，并用合成的声音演唱了歌曲《黛西·贝尔》（Daisy Bell）。线性预测编码（Linear Predictive Coding，LPC）作为一种语音编码形式，于1966年由名古屋大学的板仓文忠和日本电信电话公司的斋藤秀三开始研发。LPC技术后来成为早期语音合成器芯片的基础，例如1978年德州仪器公司在Speak & Spell玩具中使用的LPC语音芯片。

早期的机械和电子合成器虽然功能有限，但它们对于理解语音产生的物理和声学特性至关重要。这些设备作为物理模型，使得研究人员能够检验关于声带如何产生声音以及不同发音器官如何影响语音的理论。声码器的开发最初是为了进行带宽压缩和语音加密，但它为语音合成技术奠定了基础。达德利随后将声码器的原理应用于VODER的开发，专注于人工语音的生成。VODER在世界博览会上的展示极大地提高了公众对人工语音潜力的认识，激发了该领域进一步的研究。早期研究主要集中在模仿声音信号或语音产生的机制，而不是直接将文本转换为语音。直到20世纪60年代，才出现了第一个专门为文本转语音转换而设计的系统。这一转变标志着研究方向从理解语音产生转向创建人机交互的实际应用。

基于规则的TTS系统：原理与发展

基于规则的TTS系统通过预先定义的语言学规则和语音词典来生成语音。其核心过程包括文本分析、语音翻译和韵律建模。文本分析阶段负责对输入的文本进行标准化处理，例如处理缩写、数字等非标准词汇。语音翻译阶段则将标准化后的文本转换为音标序列，这个过程通常利用**语音词典和字音转换规则（grapheme-to-phoneme conversion）**来实现。韵律建模阶段确定合成语音的语调、重音和节奏等韵律特征。最后，系统根据音标序列和韵律信息，使用共振峰合成或拼接合成等方法生成实际的语音波形。语音规则在确定发音时起着关键作用，它们基于单词的拼写和上下文来指导发音。

基于规则的TTS系统具有一些显著的优势。由于依赖明确的规则，它们通常具有较高的语法准确性和可预测性。这类系统在控制语音特征、音高和语速方面也具有较高的灵活性。在某些实现中，基于规则的系统所需的内存较小，适用于嵌入式系统。此外，其决策过程具有透明性（可解释性），并且由于发音是规则驱动的，因此在理论上可以处理无限词汇。

然而，基于规则的系统也存在一些局限性。与后来的技术相比，其合成语音的自然度通常较低。系统难以处理发音规则的例外情况、专有名词和外来词。合成的语音听起来可能较为机械，缺乏人类语音的表达力和情感范围。为一种语言创建和维护一套全面的规则非常复杂。此外，这类系统学习新数据或适应未知情况的能力有限。

基于规则的系统的发展标志着TTS技术从早期模仿声音到融入语言知识的重要一步，显著提高了合成语音的清晰度。然而，这类系统在可预测性和自然度之间往往需要权衡。规则保证了发音的一致性，但在捕捉人类语音细微的变化和表达方面存在不足。异常词典的需求也凸显了自然语言固有的不规则性和复杂性。

共振峰合成技术：作用与影响

共振峰合成是基于语音产生的源-滤波器模型。该模型认为，语音的产生过程可以分为两个阶段：声源产生激励信号（如声带振动），然后该信号通过声道（滤波器）的共振作用形成最终的语音。声道在某些频率上会产生共振，这些共振频率被称为共振峰（formants）。共振峰合成器利用电子振荡器模拟声源，使用带通滤波器模拟共振峰，从而合成人工语音。通过控制基频、共振峰频率和幅度等参数，可以合成不同的语音，特别是元音。共振峰合成器可以分为并联式和串联式两种结构。

共振峰合成的优势在于其合成的语音通常具有较高的清晰度，即使在非常高的语速下也能保持可理解性。由于不需要存储大量的语音样本，共振峰合成器的程序体积通常较小，适用于内存和处理能力有限的嵌入式系统。此外，该技术可以完全控制输出语音的各个方面，从而能够实现各种韵律和语调。共振峰合成还具有生成数据库中不存在的新声音和单词的灵活性。

然而，共振峰合成的主要局限性在于其合成的语音通常听起来较为人工化和机械，与人类语音有明显的区别。设计能够准确指定自然语音所需的源和滤波器参数时序和动态值的规则非常困难。此外，实现自然发音的辅音也具有挑战性。

拼接合成技术：发展与应用

拼接合成是一种通过将预先录制的人类语音片段拼接起来生成语音的技术。该过程首先将文本分解为较小的语音单元（例如，音素、双音素、三音素、音节、词语或短语），然后从大型语音数据库（语料库）中检索相应的录音片段。为了最小化片段之间可能出现的听觉不连贯，平滑地拼接这些片段至关重要。

拼接合成的主要优势在于其能够产生非常自然的语音，因为它直接使用了真实人类的录音。通过从大型数据库中选择最佳的单元，单元选择合成可以生成高度自然的语音片段。

然而，拼接合成需要大量的录音语音数据库，这可能会占用大量的内存。如果数据库中没有所需的语音特征或情感变化，则在修改语音特征或生成具有不同情感的语音方面存在限制。如果不仔细处理，在片段的拼接点可能会出现声学故障或不连贯。系统的性能很大程度上取决于语音数据库的质量和覆盖范围。如果数据库中缺少所需的语音片段，合成可能会失败。

拼接合成广泛应用于各种商业TTS系统中，尤其是在对语音自然度要求较高的场合。例如，有声读物、配音、语音导航等应用都倾向于使用拼接合成来获得高质量、自然的语音。

统计参数语音合成：以隐马尔可夫模型（HMM）为例

统计参数语音合成利用统计模型，例如隐马尔可夫模型（Hidden Markov Models，HMM），来表示语言特征和语音声学参数之间的统计关系。这些模型通过在大型语音语料库上进行训练，学习不同语音单元的声学特征（例如，频谱参数、基频、时长）的概率分布。在合成过程中，系统首先使用训练好的统计模型从输入文本生成声学参数序列，然后使用声码器将这些参数转换为语音波形。

HMM是一种在TTS中广泛使用的统计模型，用于建模语音的序列特性以及语音单元与其声学实现之间的概率关系。HMM可以用于建模语音的各个方面，包括音素时长、音高轮廓和频谱特征。

与拼接合成方法相比，统计参数TTS通常能够产生更灵活的语音，更容易修改语音特征和说话风格。这类系统通常需要比单元选择合成更小的数据库。统计参数TTS也在不断发展，包括建模技术的进步以及使用HMM以外的其他统计模型。研究人员也在不断探索提高统计生成语音的自然度和表现力的方法。

统计建模的引入提供了一种通过直接从数据中学习语音特征来克服基于规则和拼接方法某些局限性的途径。与依赖显式规则或固定录音不同，统计模型可以捕获人类语音固有的可变性和概率性。与早期方法相比，统计参数TTS在自然度、灵活性和数据库大小之间提供了更好的平衡。虽然不一定能达到高质量单元选择的自然度，但它提供了更多的灵活性并且需要更少的数据。

深度学习驱动的TTS：神经网络的突破

自2010年代初以来，深度学习，特别是神经网络，对TTS技术产生了变革性的影响。深度学习模型能够学习语音数据中复杂的模式和关系，从而显著提高合成语音的自然度和表现力。

代表性模型：WaveNet与Transformer

谷歌DeepMind于2016年开发的WaveNet模型是一个突破性的进展，它使用深度神经网络直接建模原始音频信号的波形，实现了非常自然的语音。Transformer架构及其在TTS中的应用，例如Transformer-TTS和FastSpeech等模型，利用自注意力机制实现并行处理和更快的推理速度，同时保持了较高的语音质量。FastSpeech在速度和质量方面都优于Tacotron。

端到端TTS系统

端到端TTS模型，如Tacotron和Deep Voice，可以直接从文本输入生成语音，而无需复杂的手工特征或中间阶段（如音标转录）。端到端模型的优势在于其简洁性以及直接从数据中学习文本到语音映射的能力。神经声码器（neural vocoders），如WaveRNN和WaveGlow的进步，进一步提高了语音合成的质量和效率。

深度学习通过摒弃对手工规则或预录制片段的依赖，转向能够学习人类语音复杂细节的数据驱动模型，彻底改变了TTS。神经网络从大型数据集中学习复杂映射的能力，使得合成语音的质量和自然度实现了巨大的飞跃。WaveNet的直接波形建模方法展示了在TTS中实现接近人类水平自然度的潜力。Transformer架构最初在自然语言处理领域取得成功，后来被证明对TTS也非常有效，在并行处理和长距离依赖建模方面具有优势。端到端TTS系统简化了合成流程，并允许更直接地学习文本到语音的映射，减少了对中间语言表示的需求。

MeloTTS：技术深入、关键特性与创新

MeloTTS是由麻省理工学院（MIT）和MyShell.ai共同开发的高质量多语种文本到语音库。其技术基础是基于变分推理（Variational Inference）和对抗学习（Adversarial Learning）的端到端TTS模型VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）。在推理过程中，MeloTTS包含一个文本编码器、一个随机时长预测器和一个解码器。文本编码器接收音素、音调以及来自BERT模型的隐藏层作为输入，然后生成文本编码器的输出及其均值和对数方差。为了将输入文本与目标语音对齐，编码器的输出通过一个随机时长预测器进行处理，该预测器生成一个对齐矩阵。MeloTTS支持多种语言，包括英语、西班牙语、法语、中文（混合英语）、日语、韩语、德语、葡萄牙语和俄语。其速度非常快，能够在CPU上实现实时推理。值得注意的是，MeloTTS的早期版本并不包含语音克隆功能。MeloTTS提供了训练代码，用户可以根据自己的数据集进行模型训练。该项目以MIT许可证开源，促进了社区的开发和定制。此外，围绕MeloTTS还涌现了一些用户界面和工具，例如Pinocchio和Hugging Face Spaces 。

Coqui TTS：技术深入、关键特性与创新

Coqui TTS是一个基于深度学习的先进文本到语音生成工具包，最初由Mozilla的机器学习团队开发。Coqui TTS采用编码器-解码器架构，将文本输入转换为语音输出。它通过预训练模型支持超过1100种语言，并提供了训练新模型和微调现有模型的工具。Coqui TTS支持多说话人TTS ，尤其在语音克隆方面表现出色，其XTTS模型仅需一段很短的音频片段（例如3-6秒）即可实现高质量的语音克隆。XTTS还具备跨语言语音克隆和多语种语音生成的能力。Coqui TTS工具包中包含多种模型，如Tacotron、Tacotron2、Glow-TTS、VITS、YourTTS、Tortoise、Bark和XTTS 。它还支持低延迟的流式推理。Coqui发布的部分模型遵循Coqui公共模型许可证（CPML）。尽管其付费SaaS服务已关闭，但其开源库仍然在GitHub上可用。

大型语言模型在文本到语音技术中的集成

近年来，将大型语言模型（LLM）集成到TTS系统中成为一个重要的发展趋势。LLM强大的文本理解能力、上下文建模能力以及生成连贯文本的能力，为提升语音合成的质量、自然度和控制性带来了新的机遇。

LLaSA：架构、LLM利用与性能

LLaSA是一种完全与标准LLM架构对齐的TTS模型，它利用单一的Transformer架构和一个精心设计的语音标记器（X-codec2）。其架构的初始化基于LLaMA模型。LLaSA的关键创新之一是其语音标记器X-codec2，该组件可以将原始音频波形转换为离散的语音标记。X-codec2通过使用两个不同的编码器------语义编码器（基于预训练的Wav2Vec2-BERT模型）和声学编码器------来整合语音的语义和声学表示。

研究表明，增加训练时所用的计算资源（模型大小和数据大小）可以持续提高合成语音的自然度和韵律的准确性 。此外，通过在推理时使用语音理解模型作为验证器，可以进一步提升情感表达和音色一致性。LLaSA展现了强大的零样本TTS能力，并且其代码库和模型实现已开源。

CoVoice2：架构、LLM利用与关键特性

CoVoice2（CosyVoice 2.0）是另一个将LLM集成到TTS的例子，它专注于提高语音合成的准确性、稳定性和速度。CoVoice2支持多种语言，并具有超低延迟和双向流式传输支持。与1.0版本相比，CoVoice2在发音和零样本、跨语言语音合成的稳定性方面都有显著提升。**它还增强了韵律和音质，并支持更细粒度的情感控制和口音调整 **。CoVoice2提供了不同大小的模型（例如0.5B和300M），其未来的发展路线图包括重复感知采样（RAS）推理以提高LLM的稳定性，以及优化流式推理模式等。

Spark TTS：架构、LLM利用与效率

Spark TTS是一种高效的基于LLM的TTS模型，它完全基于Qwen2.5构建，并采用单流解耦语音标记方法（BiCodec）。其主要特点是简洁高效，可以直接从LLM预测的代码重建音频，无需额外的生成模型。Spark TTS具有高质量的零样本语音克隆能力，并支持中文和英文双语，包括跨语言语音克隆。用户可以通过调整性别、音高和语速等参数来控制语音生成。Spark TTS还提供了一个用于语音克隆和创建的Web用户界面。与Spark TTS一同发布的还有VoxBox数据集，这是一个大型的、带标注的开源语音数据集。实验结果表明，**Spark TTS在零样本语音克隆方面取得了最先进的性能 **。

特征	LLaSA	CoVoice2	Spark TTS
底层LLM架构	基于LLaMA的Transformer	未明确指出，但属于LLM驱动的TTS	基于Qwen2.5
关键技术创新	X-codec2语音标记器，训练和推理时计算资源的缩放	超低延迟，双向流式传输，改进的发音和稳定性	单流解耦语音标记 (BiCodec)，直接从LLM预测代码重建音频
多语种支持	训练数据包括多种语言	支持多种语言	支持中文和英文双语，包括跨语言语音克隆
语音克隆能力	强大的零样本TTS能力	零样本和跨语言语音合成具有良好的一致性	高质量的零样本语音克隆能力
效率/延迟	通过计算资源缩放优化	超低延迟，支持流式传输	效率高，直接从LLM预测代码重建音频
控制功能	通过推理时的验证器实现情感和音色控制	更细粒度的情感控制和口音调整	支持调整性别、音高和语速等参数
开源状态	推理和训练代码和模型已开源	提供预训练模型和fine-tune代码	提供代码和预训练模型，无fine-tune代码
主要优势	将TTS与LLM范式统一，注重计算资源缩放，零样本能力强	低延迟，流式传输，发音稳定，情感和口音控制	效率高，架构简洁，零样本语音克隆效果好，控制性强

通用模型vs单音色模型

目前的技术趋势和应用场景中，零样本（zero-shot）或少量样本（few-shot）模型的应用逐渐增多，但针对单个人的定制化模型仍然在特定场景中占据重要地位。

针对单个人的语料训练的模型，需要大量目标说话人的高质量语音数据（通常需要几小时甚至几十小时），训练一个专用模型，以高保真地复现其音色、发音习惯和情感表达。其应用场景多维虚拟偶像、虚拟助手（Siri、豆包等）、影视配音或者高精度有声书制作等，这类场景对质量和自然度要求高，对发音细节（如口音、情感）控制更精准。但是劣势在于数据收集和训练成本高并且无法快速扩展到新说话人。

Zero-Shot 或 Few-Shot 模型通过预训练大规模多说话人数据集，模型学习解耦语音的内容、音色和风格，仅需目标说话人的极短语音样本（甚至一句话），即可合成其声音。其适用于需要快速适配新说话人、数据稀缺需求灵活的场景，如个性化语音合成，影视、游戏中大量NPC角色语音合成等场景，目前其劣势在于相较于单人专用模型，在复杂语调和情感支持上海有一些差距。

Zero-Shot 模型（如 VALL-E、YourTTS、Meta Voicebox）进步显著，依托大规模预训练和语音表示学习（如HuBERT），逐步逼近专用模型的音质。

为了兼顾单人模型和Zero-Shot 或 Few-Shot 模型二者的优势，目前Zero-Shot 或 Few-Shot 模型模型一般支持多说话人音色，即在Zero-Shot 或 Few-Shot 模型基础上，通过少量数据微调（fine-tuning）提升目标说话人的表现，平衡效率与质量。

TTS技术的未来展望与潜在方向

进一步提高合成语音的自然度、韵律和表现力，使其更难以与人类语音区分
情感语音合成旨在使TTS系统能够在其语音输出中传达广泛的情感，从而使交互更具吸引力和真实感。
语音克隆技术的进步使得能够从少量语音样本中复制个人的声音，从而实现个性化的TTS应用。
支持多种语言的TTS系统正在不断发展，跨语言语音合成也展现出潜力。
为数据有限的语言开发高质量的TTS仍然面临挑战，但TTS在保护和复兴濒危语言方面具有巨大的潜力。
TTS有望与其他人工智能技术（如自然语言理解、对话管理和计算机视觉）更紧密地集成，以创建更复杂、更具上下文感知能力的对话代理。