语音合成技术发展简史:从拼接合成到神经网络 TTS

本文是「语音合成技术系列」第一篇,梳理语音合成技术从早期到现在的演进脉络。


前言

语音合成(Text-to-Speech,TTS)是让机器开口说话的技术。这件事听起来简单,实际上是一个横跨声学、语言学、信号处理和深度学习的复杂工程问题。

从上世纪五十年代第一台能发出声音的机器,到今天用几秒参考音频就能克隆任何人声音的系统,TTS 技术经历了漫长的演进。这篇文章按时间线梳理这段历史,重点放在每个阶段的核心思路和局限性。


一、早期探索:规则驱动(1950s--1980s)

1.1 从物理模拟开始

最早的语音合成尝试来自对人类发声机制的物理模拟。人类发音本质上是气流经过声带、口腔、鼻腔等共鸣腔的振动过程。早期研究者试图用电路来模拟这套物理系统。

1939 年,贝尔实验室的 Homer Dudley 发明了 Vocoder(声码器),能够分析和重新合成人声,这是语音合成领域最早的里程碑之一。

1.2 共振峰合成

1950--1980 年代,主流方案是共振峰合成(Formant Synthesis)。

人声的音色由共振峰决定------声道在特定频率上形成的共鸣峰值。共振峰合成的思路是:用数学模型模拟声道的共振特性,通过控制共振峰的频率和带宽来生成语音。

代表系统:

  • PAT(1958,英国)
  • MITalk(1970s,MIT)
  • DECtalk(1984,DEC)------ 著名物理学家霍金使用的正是基于这类技术的语音合成器

优点: 计算量小,可在低端硬件上运行,参数可精确控制。

缺点: 音质机械感强,听起来明显不像真人,参数调整需要大量语言学专家经验。


二、拼接合成:用真实录音拼出语音(1980s--2000s)

2.1 基本思路

共振峰合成的瓶颈在于音质------毕竟是数学模型模拟出来的,不是真实人声。研究者很快想到:既然模拟不够真实,为什么不直接用真实录音?

拼接合成(Concatenative Synthesis)的核心思路是:

  1. 让配音演员录制大量语音片段,覆盖各种音节、音素组合
  2. 建立一个庞大的语音片段数据库
  3. 合成时,从数据库中搜索并拼接合适的片段

2.2 单元选取合成

拼接合成发展到顶峰是单元选取合成 (Unit Selection Synthesis),代表系统是卡内基梅隆大学的 Festival 和贝尔实验室的系统。

核心改进是用搜索算法自动选取最合适的语音片段,同时优化两个目标:

  • 目标代价:选出的片段和目标音素尽量匹配
  • 拼接代价:相邻片段之间的过渡尽量自然

2.3 统计参数合成(HMM-TTS)

2000 年代,基于隐马尔可夫模型的统计参数合成 (HMM-TTS)成为主流,代表系统是日本名古屋工业大学开发的 HTS

思路转变:不再存储和拼接真实录音片段,而是用统计模型学习语音的参数分布,合成时从模型中生成参数,再用声码器还原波形。

优点: 数据量需求大幅下降,可以灵活控制语速、音调、说话风格。

缺点: 音质比单元选取合成更差,过度平滑导致语音听起来模糊,缺乏自然度。


三、深度学习时代的开端(2016--2018)

3.1 WaveNet:一切改变的起点

2016 年,DeepMind 发布了 WaveNet,这是 TTS 领域的分水岭。

WaveNet 是一个自回归波形生成模型------直接在原始音频波形的层面建模,逐个采样点生成音频。它用因果卷积捕捉长距离依赖,生成的音频质量远超此前所有方案,听起来几乎和真人无异。

问题: 自回归意味着必须逐个采样点顺序生成,24kHz 的音频每秒有 24000 个采样点。WaveNet 原版推理极慢,完全无法实用。

此后研究者花了大量精力解决 WaveNet 的推理速度问题,衍生出 Parallel WaveNet、WaveRNN、WaveGlow 等方案。

3.2 Tacotron:端到端的第一步

2017 年,Google 发布 Tacotron ,2018 年发布 Tacotron 2

Tacotron 的思路是端到端:输入文本,直接输出梅尔频谱图(Mel Spectrogram),再用神经声码器(如 WaveNet)转换为波形。

整个流程只需要文本和对应录音的配对数据,不再需要手工标注音素、声调等语言学特征。

Tacotron 2 + WaveNet 的组合在当时的音质评测中创下新高,接近人类水平。

局限: 推理速度仍然是问题,Tacotron 的注意力机制在长句子上容易失稳,偶尔会跳词或重复。


四、并行生成与工程落地(2019--2021)

4.1 FastSpeech:速度优先

Tacotron 系列的瓶颈是自回归------必须逐帧顺序生成梅尔频谱,无法并行。

2019 年,微软发布 FastSpeech ,2020 年发布 FastSpeech 2

核心改进:非自回归并行生成。用显式的时长预测器(Duration Predictor)预测每个音素对应几帧频谱,然后一次性并行生成所有帧,推理速度提升数十倍。

代价是音质略低于 Tacotron,以及需要对齐标注数据(后来的改进版本解决了这个问题)。

FastSpeech 2 是工程落地最广泛的 TTS 架构之一,直到今天仍有大量生产系统在使用。

4.2 VITS:端到端的完善

2021 年,VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)将声学模型和声码器合并为一个端到端模型,同时引入变分推断和对抗训练。

VITS 在音质和推理速度之间取得了很好的平衡,成为此后大量开源 TTS 项目的基础架构。


五、扩散模型与零样本克隆(2022 至今)

5.1 扩散模型进入 TTS

2022 年前后,扩散模型(Diffusion Model)在图像生成领域大放异彩,随即被引入 TTS。

扩散模型的核心思路:在数据上逐步加噪,然后训练模型学习逆向去噪过程。相比 GAN,扩散模型训练更稳定,生成质量更高。

代表工作:

  • Grad-TTS(2021)
  • DiffSpeech(2022)
  • NaturalSpeech 2(2023,微软)

扩散模型带来了音质的显著提升,尤其是自然度和情感表达方面。

新的瓶颈: 扩散模型需要多步迭代去噪,推理速度比 FastSpeech 慢得多,成为新的工程挑战。

5.2 零样本语音克隆

这一阶段最重要的突破之一是零样本语音克隆(Zero-shot Voice Cloning)------只需要几秒参考音频,不需要任何微调,就能合成目标说话人的声音。

技术路径通常是:提取参考音频的说话人特征(speaker embedding),注入到 TTS 模型的生成过程中,引导输出向目标音色靠拢。

代表工作:

  • YourTTS(2022)
  • Vall-E(2023,微软)------ 用 3 秒音频实现高度相似的零样本克隆
  • Seed-TTS(2024,字节跳动)
  • CosyVoice 2(2024,阿里)

5.3 大语言模型与 TTS 的结合

2023 年起,部分研究开始将大语言模型(LLM)引入 TTS,把语音生成建模为语言模型的序列预测问题。

代表方向:

  • 用 LLM 生成语音 token,再用声码器解码
  • 将情感、风格、说话方式等信息通过自然语言指令控制

这个方向目前仍在快速发展中,情感可控性和跨语言能力是主要研究焦点。


六、各阶段对比总结

时代 代表技术 音质 推理速度 数据需求 克隆能力
规则驱动 共振峰合成
拼接合成 单元选取 中等 中等 大量录音
统计参数 HMM-TTS 较差 中等 中等
深度学习初期 Tacotron / WaveNet 中等
并行生成 FastSpeech / VITS 中等 有限
扩散模型 NaturalSpeech / Seed-TTS 极好 中等 零样本
LLM+TTS Vall-E / CosyVoice 极好 中等 零样本

七、小结

语音合成技术的演进,本质上是在音质、推理速度、数据需求、可控性这几个维度上反复权衡的过程。

每一次技术突破都解决了前一代的核心瓶颈,同时带来新的挑战:

  • 拼接合成解决了音质问题,但需要海量录音数据
  • 深度学习解决了数据依赖,但带来了推理速度问题
  • 并行生成解决了速度,但牺牲了部分音质
  • 扩散模型再次提升音质,推理速度又成了新瓶颈
  • 零样本克隆解决了说话人依赖,但计算成本更高

目前这个领域仍在快速发展,推理速度的优化、情感可控性的提升、多语言支持的完善,是当下最活跃的研究方向。

下一篇将介绍当前主流 TTS 架构的技术细节和对比:Tacotron、FastSpeech、VITS、扩散模型,各自的优缺点和适用场景。


系列文章导航

  • 第一篇:语音合成技术发展简史(本文)
  • 第二篇:主流 TTS 架构对比(即将发布)
  • 第三篇:语音克隆是怎么实现的(即将发布)
  • 第四篇:TTS 推理速度为什么这么慢(即将发布)
  • 第五篇:本地部署 TTS 方案横向对比(即将发布)
  • 第六篇:VoxFlash-TTS 部署实践(即将发布)
相关推荐
AI分享猿1 小时前
MonkeyCode:当企业级AI编程遇到规范驱动开发
人工智能·ai编程·企业级开发·monkeycode
꧁꫞꯭零꯭点꯭꫞꧂1 小时前
LangChain 提示词模板与链式调用笔记
人工智能·笔记·langchain
xingyuzhisuan1 小时前
从零精通GPU服务器模型部署:标准化流程与性能调优实战
运维·服务器·人工智能
一起聊电气1 小时前
告别盲目制冷!AI空调自控,让建筑自主呼吸、按需耗能
人工智能
java1234_小锋1 小时前
什么是 RAG(检索增强生成)?请简述 Spring AI 实现 RAG 的完整流程,包括涉及的核心组件。
java·人工智能·spring·rag
小真zzz1 小时前
9.8分登顶:搜极星如何以绝对中立与专业,定义AI时代品牌洞察新范式
大数据·人工智能·搜索引擎·ai
weixin_397574091 小时前
Agent推理可视化打破AI黑盒,让思考过程透明可见
人工智能
Saniffer_SH2 小时前
【每日一题】不只是点亮画面:UniGraf 如何把 HDMI/DP 接口问题拆成可定位、可复现、可自动化验证的测试流程?
运维·人工智能·测试工具·fpga开发·性能优化·自动化·压力测试
ai产品老杨2 小时前
解耦异构算力与多协议接入:基于 Docker 与 GB28181 的企业级 AI 视频管理平台架构演进与源码交付实践
人工智能·docker·音视频