语音合成技术发展简史：从拼接合成到神经网络 TTS

本文是「语音合成技术系列」第一篇，梳理语音合成技术从早期到现在的演进脉络。

前言

语音合成（Text-to-Speech，TTS）是让机器开口说话的技术。这件事听起来简单，实际上是一个横跨声学、语言学、信号处理和深度学习的复杂工程问题。

从上世纪五十年代第一台能发出声音的机器，到今天用几秒参考音频就能克隆任何人声音的系统，TTS 技术经历了漫长的演进。这篇文章按时间线梳理这段历史，重点放在每个阶段的核心思路和局限性。

一、早期探索：规则驱动（1950s--1980s）

1.1 从物理模拟开始

最早的语音合成尝试来自对人类发声机制的物理模拟。人类发音本质上是气流经过声带、口腔、鼻腔等共鸣腔的振动过程。早期研究者试图用电路来模拟这套物理系统。

1939 年，贝尔实验室的 Homer Dudley 发明了 Vocoder（声码器），能够分析和重新合成人声，这是语音合成领域最早的里程碑之一。

1.2 共振峰合成

1950--1980 年代，主流方案是共振峰合成（Formant Synthesis）。

人声的音色由共振峰决定------声道在特定频率上形成的共鸣峰值。共振峰合成的思路是：用数学模型模拟声道的共振特性，通过控制共振峰的频率和带宽来生成语音。

代表系统：

PAT（1958，英国）
MITalk（1970s，MIT）
DECtalk（1984，DEC）------ 著名物理学家霍金使用的正是基于这类技术的语音合成器

优点： 计算量小，可在低端硬件上运行，参数可精确控制。

缺点： 音质机械感强，听起来明显不像真人，参数调整需要大量语言学专家经验。

二、拼接合成：用真实录音拼出语音（1980s--2000s）

2.1 基本思路

共振峰合成的瓶颈在于音质------毕竟是数学模型模拟出来的，不是真实人声。研究者很快想到：既然模拟不够真实，为什么不直接用真实录音？

拼接合成（Concatenative Synthesis）的核心思路是：

让配音演员录制大量语音片段，覆盖各种音节、音素组合
建立一个庞大的语音片段数据库
合成时，从数据库中搜索并拼接合适的片段

2.2 单元选取合成

拼接合成发展到顶峰是单元选取合成 （Unit Selection Synthesis），代表系统是卡内基梅隆大学的 Festival 和贝尔实验室的系统。

核心改进是用搜索算法自动选取最合适的语音片段，同时优化两个目标：

目标代价：选出的片段和目标音素尽量匹配
拼接代价：相邻片段之间的过渡尽量自然

2.3 统计参数合成（HMM-TTS）

2000 年代，基于隐马尔可夫模型的统计参数合成 （HMM-TTS）成为主流，代表系统是日本名古屋工业大学开发的 HTS。

思路转变：不再存储和拼接真实录音片段，而是用统计模型学习语音的参数分布，合成时从模型中生成参数，再用声码器还原波形。

优点： 数据量需求大幅下降，可以灵活控制语速、音调、说话风格。

缺点： 音质比单元选取合成更差，过度平滑导致语音听起来模糊，缺乏自然度。

三、深度学习时代的开端（2016--2018）

3.1 WaveNet：一切改变的起点

2016 年，DeepMind 发布了 WaveNet，这是 TTS 领域的分水岭。

WaveNet 是一个自回归波形生成模型------直接在原始音频波形的层面建模，逐个采样点生成音频。它用因果卷积捕捉长距离依赖，生成的音频质量远超此前所有方案，听起来几乎和真人无异。

问题： 自回归意味着必须逐个采样点顺序生成，24kHz 的音频每秒有 24000 个采样点。WaveNet 原版推理极慢，完全无法实用。

此后研究者花了大量精力解决 WaveNet 的推理速度问题，衍生出 Parallel WaveNet、WaveRNN、WaveGlow 等方案。

3.2 Tacotron：端到端的第一步

2017 年，Google 发布 Tacotron ，2018 年发布 Tacotron 2。

Tacotron 的思路是端到端：输入文本，直接输出梅尔频谱图（Mel Spectrogram），再用神经声码器（如 WaveNet）转换为波形。

整个流程只需要文本和对应录音的配对数据，不再需要手工标注音素、声调等语言学特征。

Tacotron 2 + WaveNet 的组合在当时的音质评测中创下新高，接近人类水平。

局限： 推理速度仍然是问题，Tacotron 的注意力机制在长句子上容易失稳，偶尔会跳词或重复。

四、并行生成与工程落地（2019--2021）

4.1 FastSpeech：速度优先

Tacotron 系列的瓶颈是自回归------必须逐帧顺序生成梅尔频谱，无法并行。

2019 年，微软发布 FastSpeech ，2020 年发布 FastSpeech 2。

核心改进：非自回归并行生成。用显式的时长预测器（Duration Predictor）预测每个音素对应几帧频谱，然后一次性并行生成所有帧，推理速度提升数十倍。

代价是音质略低于 Tacotron，以及需要对齐标注数据（后来的改进版本解决了这个问题）。

FastSpeech 2 是工程落地最广泛的 TTS 架构之一，直到今天仍有大量生产系统在使用。

4.2 VITS：端到端的完善

2021 年，VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）将声学模型和声码器合并为一个端到端模型，同时引入变分推断和对抗训练。

VITS 在音质和推理速度之间取得了很好的平衡，成为此后大量开源 TTS 项目的基础架构。

五、扩散模型与零样本克隆（2022 至今）

5.1 扩散模型进入 TTS

2022 年前后，扩散模型（Diffusion Model）在图像生成领域大放异彩，随即被引入 TTS。

扩散模型的核心思路：在数据上逐步加噪，然后训练模型学习逆向去噪过程。相比 GAN，扩散模型训练更稳定，生成质量更高。

代表工作：

Grad-TTS（2021）
DiffSpeech（2022）
NaturalSpeech 2（2023，微软）

扩散模型带来了音质的显著提升，尤其是自然度和情感表达方面。

新的瓶颈： 扩散模型需要多步迭代去噪，推理速度比 FastSpeech 慢得多，成为新的工程挑战。

5.2 零样本语音克隆

这一阶段最重要的突破之一是零样本语音克隆（Zero-shot Voice Cloning）------只需要几秒参考音频，不需要任何微调，就能合成目标说话人的声音。

技术路径通常是：提取参考音频的说话人特征（speaker embedding），注入到 TTS 模型的生成过程中，引导输出向目标音色靠拢。

代表工作：

YourTTS（2022）
Vall-E（2023，微软）------ 用 3 秒音频实现高度相似的零样本克隆
Seed-TTS（2024，字节跳动）
CosyVoice 2（2024，阿里）

5.3 大语言模型与 TTS 的结合

2023 年起，部分研究开始将大语言模型（LLM）引入 TTS，把语音生成建模为语言模型的序列预测问题。

代表方向：

用 LLM 生成语音 token，再用声码器解码
将情感、风格、说话方式等信息通过自然语言指令控制

这个方向目前仍在快速发展中，情感可控性和跨语言能力是主要研究焦点。

六、各阶段对比总结

时代	代表技术	音质	推理速度	数据需求	克隆能力
规则驱动	共振峰合成	差	快	无	无
拼接合成	单元选取	中等	中等	大量录音	无
统计参数	HMM-TTS	较差	中等	中等	无
深度学习初期	Tacotron / WaveNet	好	慢	中等	无
并行生成	FastSpeech / VITS	好	快	中等	有限
扩散模型	NaturalSpeech / Seed-TTS	极好	慢	中等	零样本
LLM+TTS	Vall-E / CosyVoice	极好	中等	大	零样本

七、小结

语音合成技术的演进，本质上是在音质、推理速度、数据需求、可控性这几个维度上反复权衡的过程。

每一次技术突破都解决了前一代的核心瓶颈，同时带来新的挑战：

拼接合成解决了音质问题，但需要海量录音数据
深度学习解决了数据依赖，但带来了推理速度问题
并行生成解决了速度，但牺牲了部分音质
扩散模型再次提升音质，推理速度又成了新瓶颈
零样本克隆解决了说话人依赖，但计算成本更高

目前这个领域仍在快速发展，推理速度的优化、情感可控性的提升、多语言支持的完善，是当下最活跃的研究方向。

下一篇将介绍当前主流 TTS 架构的技术细节和对比：Tacotron、FastSpeech、VITS、扩散模型，各自的优缺点和适用场景。

系列文章导航

第一篇：语音合成技术发展简史（本文）
第二篇：主流 TTS 架构对比（即将发布）
第三篇：语音克隆是怎么实现的（即将发布）
第四篇：TTS 推理速度为什么这么慢（即将发布）
第五篇：本地部署 TTS 方案横向对比（即将发布）
第六篇：VoxFlash-TTS 部署实践（即将发布）