系列文章导航
- 第一篇:语音合成技术发展简史
- 第二篇:主流 TTS 架构对比
- 第三篇:语音克隆是怎么实现的
- 第四篇:TTS 推理速度为什么这么慢
- 第五篇:本地部署 TTS 方案横向对比(本文)
- 第六篇:VoxFlash-TTS 部署实践
本文是「语音合成技术系列」第五篇,从工程选型角度横向对比当前主流的本地可部署 TTS 方案。
前言
前四篇从历史、架构、克隆原理到推理瓶颈,把 TTS 技术的背景铺垫完了。这一篇回到最实际的问题:
如果要在本地部署一套语音克隆系统,当前有哪些方案可以选,各自适合什么场景?
本文对比的维度包括:音质、推理速度、部署门槛、克隆效果、语言支持和硬件要求。所有方案均为可本地运行的开源或公开可用系统,不涉及纯云端 API 服务。
一、参选方案概览
| 方案 | 机构 | 架构基础 | 开源情况 |
|---|---|---|---|
| Fish Speech | Fish Audio | VQGAN + LLAMA | 开源(Apache 2.0) |
| CosyVoice 2 | 阿里巴巴 | Flow Matching | 开源(Apache 2.0) |
| GPT-SoVITS | 社区开源 | GPT + VITS | 开源(MIT) |
| Bert-VITS2 | 社区开源 | VITS + BERT | 开源 |
| VoxFlash-TTS | VoxFlash | 压缩潜空间扩散 | Docker 镜像公开 |
| Kokoro TTS | Kokoro | StyleTTS2 based | 开源(Apache 2.0) |
二、各方案详细介绍
2.1 Fish Speech
定位: 高质量多语言零样本克隆,社区活跃度高。
技术架构:
Fish Speech 使用 VQGAN 把音频编码为离散 token,再用基于 LLaMA 的语言模型根据文本和参考音频的 token 生成目标序列,最后用解码器还原波形。
核心特点:
- 零样本克隆,参考音频 10 秒左右即可
- 支持中、英、日、韩等多语言
- 情感表达丰富,语调自然
- GitHub Stars 30000+,社区非常活跃
- 支持本地部署,提供 WebUI
部署方式:
# pip 安装
pip install fish-speech
# 或 Docker
docker pull fishaudio/fish-speech:latest
硬件要求: 推荐 8GB+ 显存 GPU
局限:
- 推理速度中等,实时场景有一定延迟
- 基于 LLM 的自回归生成,序列长时延迟明显
- 模型文件较大
2.2 CosyVoice 2
定位: 阿里出品,质量与速度平衡较好的工业级方案。
技术架构:
CosyVoice 2 使用 Flow Matching 作为生成框架,相比标准扩散模型推理步数更少,训练更稳定。结合大规模中文数据预训练,中文效果尤为出色。
核心特点:
- 零样本克隆,中英日韩多语言
- Flow Matching 推理速度优于标准扩散模型
- 支持情感标签控制(开心、悲伤、生气等)
- 跨语言克隆效果好
- 阿里达摩院出品,工程质量高
部署方式:
git clone https://github.com/FunAudioLLM/CosyVoice
pip install -r requirements.txt
python webui.py
硬件要求: 推荐 8GB+ 显存 GPU,支持 CPU 推理(较慢)
局限:
- 依赖较多,环境配置有一定复杂度
- 模型文件较大(约 2--4GB)
- CPU 推理速度较慢
2.3 GPT-SoVITS
定位: 社区最流行的少样本克隆方案,1 分钟录音即可克隆。
技术架构:
GPT-SoVITS 结合了 GPT 语言模型和 VITS 声学模型,用 GPT 预测语义 token,再用 VITS 生成音频。核心亮点是极少量数据就能克隆新说话人。
核心特点:
- 少样本克隆,1 分钟录音可用,5 分钟效果更好
- 中英日三语支持
- WebUI 操作友好,有中文界面
- 社区生态丰富,插件和工具多
- 适合个人创作者和配音工作流
部署方式:
git clone https://github.com/RVC-Boss/GPT-SoVITS
# 下载预训练模型后启动 WebUI
python webui.py
硬件要求: 6GB+ 显存 GPU,支持低显存模式
局限:
- 需要针对每个说话人做微调(虽然数据量少)
- 推理速度中等
- 跨语言克隆能力有限
2.4 Bert-VITS2
定位: 基于 VITS 的高质量中文 TTS,适合固定说话人场景。
技术架构:
在 VITS 基础上引入 BERT 做文本特征提取,提升了中文韵律和情感表达的自然度。
核心特点:
- 中文音质优秀,韵律自然
- 支持多说话人(需要训练数据)
- 情感风格控制能力强
- 社区模型资源丰富
局限:
- 零样本克隆能力弱,通常需要针对说话人训练
- 训练成本较高
- 主要针对中文优化,英文效果一般
2.5 Kokoro TTS
定位: 轻量快速,适合资源极其受限的场景。
技术架构:
基于 StyleTTS2,模型参数量极小(约 82M),推理速度极快。
核心特点:
- 模型体积极小,约 300MB
- 推理速度非常快,CPU 也可流畅运行
- 英文效果好,中文支持有限
- 无需 GPU,部署门槛极低
局限:
- 零样本克隆能力有限
- 中文支持不完善
- 音质不及扩散模型方案
2.6 VoxFlash-TTS
定位: 推理速度极快,专为低延迟和端侧部署设计。
技术架构:
核心是把音频潜空间压缩到 9Hz(相比 EnCodec 的 75fps 压缩约 8 倍),在极短序列上运行扩散模型,从根源上解决序列长度瓶颈。详见本系列第四篇的分析。
核心特点:
- 推理速度:毫秒级,消费级 GPU 可实时运行
- 零样本克隆:中英文同语言和跨语言均支持
- 部署方式:Docker 一键启动,环境配置极简
- 模型文件:四个 ONNX 文件,合计约 854MB
- 硬件要求:消费级 GPU,CUDA ≥ 12.3.2
部署方式:
docker pull berlinisaiah/ttsv2:v1
docker container run -d --gpus all \
--mount type=bind,source=$(pwd)/resources,target=/app/resources \
-p 8000:8000 berlinisaiah/ttsv2:v1
局限:
- 9Hz 极端压缩带来一定音质损失,不及质量优先方案
- 目前主要支持中文和英文
- 跨语言克隆口音自然度有提升空间
- 参考音频短于 3 秒时相似度下降
三、横向对比
3.1 综合对比表
| 方案 | 音质 | 推理速度 | 部署难度 | 零样本克隆 | 中文 | 英文 | 多语言 | 硬件要求 |
|---|---|---|---|---|---|---|---|---|
| Fish Speech | ★★★★★ | ★★★ | ★★★★ | ✅ | ✅ | ✅ | ✅ | 8GB+ |
| CosyVoice 2 | ★★★★★ | ★★★★ | ★★★ | ✅ | ✅ | ✅ | ✅ | 8GB+ |
| GPT-SoVITS | ★★★★ | ★★★ | ★★★ | 少样本 | ✅ | ✅ | 有限 | 6GB+ |
| Bert-VITS2 | ★★★★ | ★★★ | ★★ | ❌ | ✅ | 一般 | 有限 | 6GB+ |
| Kokoro TTS | ★★★ | ★★★★★ | ★★★★★ | 有限 | 有限 | ✅ | 有限 | CPU 可用 |
| VoxFlash-TTS | ★★★★ | ★★★★★ | ★★★★★ | ✅ | ✅ | ✅ | 有限 | 消费级 GPU |
3.2 推理速度专项对比
这是各方案差异最大的维度,也是选型时最关键的考量之一:
| 方案 | 架构特点 | 实时性 | 适合场景 |
|---|---|---|---|
| Fish Speech | LLM 自回归 | 中等 | 批量合成 |
| CosyVoice 2 | Flow Matching | 较好 | 通用场景 |
| GPT-SoVITS | GPT + VITS | 中等 | 批量合成 |
| Bert-VITS2 | VITS | 较好 | 固定说话人实时 |
| Kokoro TTS | StyleTTS2 轻量 | 极快 | 资源受限场景 |
| VoxFlash-TTS | 9Hz 压缩扩散 | 极快 | 实时交互 |
3.3 部署门槛专项对比
| 方案 | 安装方式 | 依赖复杂度 | 首次启动时间 |
|---|---|---|---|
| Fish Speech | pip / Docker | 中等 | 5--10 分钟 |
| CosyVoice 2 | git + pip | 较高 | 10--20 分钟 |
| GPT-SoVITS | git + pip | 中等 | 10--15 分钟 |
| Bert-VITS2 | git + pip | 较高 | 15--30 分钟 |
| Kokoro TTS | pip | 低 | 2--5 分钟 |
| VoxFlash-TTS | Docker | 极低 | 3--5 分钟 |
四、选型建议
根据不同场景给出建议,没有绝对最优方案,关键是匹配实际需求:
音质优先,延迟不敏感
推荐:Fish Speech 或 CosyVoice 2
两者在音质和克隆相似度上目前处于开源方案的第一梯队,适合有声书、配音制作等对音质要求高、不需要实时响应的场景。Fish Speech 社区更活跃,CosyVoice 2 中文效果略优。
实时交互,延迟敏感
推荐:VoxFlash-TTS 或 Kokoro TTS
对首包延迟有严格要求的场景(对话系统、实时配音、语音助手),推理速度是首要指标。VoxFlash-TTS 支持零样本克隆,Kokoro TTS 更轻量但克隆能力有限。
个人创作,少量录音克隆
推荐:GPT-SoVITS
只有少量目标说话人录音(1--5 分钟)且需要高度相似克隆效果的场景,GPT-SoVITS 的少样本微调方案是目前最成熟的选择,WebUI 操作友好,中文社区资源丰富。
资源极度受限,无 GPU
推荐:Kokoro TTS
没有 GPU 或显存不足 6GB 的环境,Kokoro TTS 是目前可用方案中部署门槛最低的,CPU 也能运行,英文效果不错。
数据安全,本地私有化部署
推荐:VoxFlash-TTS 或 Fish Speech
Docker 容器化部署,所有数据在本机处理,不经过任何外部服务。VoxFlash-TTS 部署更简单,Fish Speech 音质更高。
五、小结
本地可部署的 TTS 方案已经相当成熟,不同方案在音质、速度、部署难度之间的取舍各有侧重:
- Fish Speech / CosyVoice 2:质量优先,适合对效果要求高的生产场景
- GPT-SoVITS:少样本克隆,适合个人创作者
- Kokoro TTS:极轻量,适合无 GPU 环境
- VoxFlash-TTS:速度优先,适合实时场景和端侧部署
选型的核心是明确自己的场景约束:延迟要求、硬件条件、音质标准、语言需求。没有全能方案,只有最匹配需求的方案。
下一篇将以 VoxFlash-TTS 为例,完整记录从环境准备到实际使用的部署过程。