1.概述

GPT-SoVITS是一款开源的语音合成模型，结合了深度学习和声学技术，能够实现高质量的语音生成。其独特之处在于支持使用参考音频进行零样本语音合成，即使没有直接的训练数据，模型仍能生成相似风格的语音。用户可以通过微调模型，进一步提升其性能，以适应特定的应用需求。

2.内容

2.1 GPT-SoVITS简介

这个开源的文本到语音（TTS）项目可以在Linux、MacOS和Windows系统上运行，具有极高的灵活性和兼容性。用户只需提供一段长达1分钟的音频文件，即可轻松克隆特定的声音。该项目支持将汉语、英语和日语的文本转换为克隆的语音，为多语言环境中的应用提供了便利。

项目地址：https://github.com/RVC-Boss/GPT-SoVITS
官方教程：GPT-SoVITS手册

2.2 语音合成

VITS是一种用于端到端文本到语音（TTS）的模型，结合了对抗学习和条件变分自动编码器，旨在生成高质量的语音效果。近年来，虽然已经提出了多种单阶段训练和并行采样的TTS模型，但它们的样本质量往往无法与传统的两阶段系统相媲美。为了解决这个问题，VITS采用了一种并行的端到端方法，能够生成更自然、更真实的声音。

该模型通过标准化流和对抗训练过程增强的变分推理，显著提升了生成建模的表达能力。此外，VITS引入了随机持续时间预测器，能够从输入文本中合成出节奏各异的语音。这种设计允许模型捕捉潜在变量的不确定性，形成了一种自然的一对多关系，使得同一段文本可以以不同的音高和节奏进行多样化的表达。这种灵活性和高质量的输出使VITS在语音合成领域中具备了广泛的应用潜力。

论文地址：https://arxiv.org/pdf/2106.06103
Github地址：https://github.com/jaywalnut310/vits

2.3 Whisper语音识别

Whisper是OpenAI开发的先进自动语音识别（ASR）系统，经过训练的语料库包含68万小时的多语言（涵盖98种语言）和多任务监督数据。OpenAI认为，这种庞大且多样化的数据集显著提升了系统对各种口音、背景噪音和专业术语的识别能力，使其在实际应用中表现出色。

除了语音识别功能，Whisper还支持多种语言的转录和翻译，能够将非英语语言直接翻译成英语。这种多功能性使得Whisper不仅适用于语音转文字的任务，还能在国际交流、内容创建和教育等领域发挥重要作用。凭借其出色的准确性和灵活性，Whisper为用户提供了一个强大的工具，有助于打破语言障碍，促进沟通与理解。

论文地址：https://github.com/openai/whisper
GitHub地址：https://arxiv.org/pdf/2212.04356

Whisper的基本原理基于一种Transformer序列到序列模型，旨在处理多种语音任务，包括多语言语音识别、语音翻译、口语语言识别以及语音活动检测。通过将这些任务统一表示为一个需要解码器预测的符号序列，Whisper能够有效地替代传统语音处理管道中的多个阶段，简化了处理流程。

该模型采用多任务训练的格式，使用一系列特殊符号作为任务指示符或分类目标。这种设计不仅提升了模型的灵活性，还使其在处理不同类型的语音输入时表现出色。例如，当面对多种语言或不同口音时，Whisper能够利用其训练数据中的丰富信息，快速适应并提高识别准确性。通过这种创新的方法，Whisper在语音处理领域展示了强大的能力，能够满足多样化的用户需求。

Whisper系统提供了五种不同的模型尺寸，以平衡速度和准确性。每种模型的设计旨在满足不同应用场景的需求，用户可以根据自己的具体要求选择合适的模型。以下是可用模型的名称、对应的大致内存需求和相对速度：

小型模型：内存需求低，速度快，适合实时语音识别任务，但在复杂音频环境中的准确性可能稍逊。
中型模型：提供更好的准确性，同时保持相对较快的速度，适合大多数日常应用。
大型模型：在准确性上有显著提升，适合对精度要求较高的场景，如医疗记录转录和法律文件审阅，但相对速度略慢。
超大型模型：具有出色的语音识别性能，能够处理复杂口音和技术术语，适合专业领域的使用，内存需求较高，速度相对较慢。
特大模型：提供顶尖的准确性，特别适用于高噪声环境和多方对话场景，内存需求极大，速度较慢，适合不需要实时处理的情况。

通过这些不同尺寸的模型，用户可以根据自己的硬件资源和应用需求，灵活选择最合适的选项，以实现最佳的语音识别效果。

3.GPT-SoVITS安装与部署

3.1 配置要求

1.训练

Windows
- 需支持CUDA的nVIDIA显卡，显存至少6GB。
- 不支持的显卡包括：10系之前的所有型号、GTX 1060及以下、GTX 1660及以下、GTX 2060及以下，以及3050 4GB显卡。
- 操作系统需为Windows 10或11。
- 如果没有显卡，系统会自动切换至CPU训练，但速度非常慢。
macOS
- 需运行macOS 14或更高版本。
- 必须安装Xcode命令行工具，可通过运行xcode-select --install完成安装。
Linux
- 熟练使用Linux环境。
- 需配备显存至少为6GB的显卡。
- 同样，如果没有显卡，系统将自动切换至CPU训练，速度较慢。

2.推理

Windows
- 需支持CUDA的nVIDIA显卡，显存至少4GB（未经过测试，3GB可能无法完成语音合成，因此推测4GB应该足够）。
- 操作系统需为Windows 10或11。
- 如果没有显卡，系统会自动识别并使用CPU进行推理。
macOS
- 需运行macOS 14或更高版本。
- 必须安装Xcode命令行工具，方法同上。
Linux
- 熟练使用Linux环境。
- 需配备显存至少为4GB的显卡。
- 如果没有显卡，系统将自动识别并使用CPU进行推理。

通过这些配置要求，用户可以确保系统能够高效地进行训练和推理，以实现最佳的性能表现。

3.2 Mac环境要求

1.软件要求

确保已通过运行 xcode-select --install 安装 Xcode 命令行工具。
安装 Homebrew 以便于安装必要的软件（如 git、ffmpeg）。

2.安装 conda（如果已安装可以跳过）

测试通过的 Python 和 PyTorch 版本：

Python 3.9、Pytorch 2.2.1

可以通过如下命令检测是否已安装。

复制代码

conda info

3.安装FFmpeg（如果已安装可以跳过）

可以通过如下命令检测是否已安装以及版本要大于等于6.1

复制代码

# 安装
brew install ffmpeg
# 检查环境
ffmpeg -version

3.3 项目准备

1.下载项目代码

如果没有安装Git，打开终端执行

复制代码

brew install git
brew install git-lfs
brew install rust

如果已安装Git，直接在终端中定位到要存放项目的目录（此处以桌面为例，请按实际情况操作,本文档所有路径皆基于此前提），然后克隆仓库到本地，~/代表当前用户目录下

复制代码

#示例
cd ~/desktop # ~代表当前用户
git clone --depth=1 https://github.com/RVC-Boss/GPT-SoVITS

2.下载预训练模型（直接参考项目README.md就好）

从 GPT-SoVITS Models 下载预训练模型，并将它们解压替换 ~/desktop/GPT-SoVITS/GPT_SoVITS/pretrained_models 。对于 UVR5（人声/伴奏分离和混响移除）（推荐使用UVR5客户端，可以跳过这步）的是UVR5教程从 UVR5 Weights 下载模型，并将它们放置在 ~/GPT-SoVITS/tools/uvr5/uvr5_weights 中。(若使用UVR5客户端,可以跳过这步)对于中文自动语音识别，从 Damo ASR Model 下载模型，将它们解压替换 ~/desktop/GPT-SoVITS/tools/asr/models 。

复制代码

#一步到位命令
cd ~/desktop/GPT-SoVITS/tools/asr/models
git lfs install
git clone https://www.modelscope.cn/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch.git
git clone https://www.modelscope.cn/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch.git
git clone https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git

3.4 环境准备

1.创建环境

先关闭终端，再打开终端输入

复制代码

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits

遇到y/n的就一直点y回车

如果遇到：connot find conda，那是因为conda没装好，输入

复制代码

conda -v

查看有没有装好。可以试试重新打开终端。

2.安装依赖

终端输入

复制代码

cd ~/desktop/GPT-SoVITS
conda activate GPTSoVits
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt

3.运行

复制代码

conda activate GPTSoVits
cd ~/desktop/GPT-SoVITS
python webui.py zh_CN

4.训练模型

GPT-SoVITS WebUI提供了全面的功能，包括数据集制作、模型微调训练和语音克隆推理。如果您只是想体验效果，可以直接使用官方分享的语音模型。这种设计使用户能够迅速上手，无需复杂的设置或深入的技术知识。

4.1 数据集处理

1.处理原音频

如果原音频足够干净，比如从游戏中提取的干声，可以跳过这一步。接着，点击开启Open UVR5-WebUI，稍等片刻后，打开浏览器访问 http://localhost:9873。

2.切割音频

在切割音频之前，建议将所有音频文件导入音频软件（如剪映）进行音量调整，将最大音量设置为-9dB到-6dB，过高的音量应予以删除。

打开WebUI后，首先输入原音频的文件夹路径。接下来，可以调整以下建议参数：

min_length：根据显存大小调整，显存越小，值调得越小。
min_interval：根据音频的平均间隔进行调整。如果音频过于密集，可以适当降低该值。
max_sil_kept：此参数会影响句子的连贯性，不同音频需不同调整。如果不确定，建议保持默认值。

点击"开启语音切割"，切割过程将立即完成，默认输出路径为 output/slicer_opt。这样，您就能快速获得处理后的音频片段。

打开切分文件夹，将时长超过"显存数"秒的音频手动切分至该时长以下。例如，如果显卡显存为10GB，建议将超过10秒的音频切分至10秒以下，或者直接删除（稍微超出一点的可以不处理）。过长的音频可能会导致显存爆满。

如果经过语音切割后仍然是一个文件，说明音频过于密集，可以尝试调低min_interval参数以获得更好的切割效果。这样可以确保音频文件在处理时不会超出显存限制。

3.音频降噪

如果原音频足够干净，比如从游戏中提取的干声，可以跳过这一步。输入刚才切割完成音频的文件夹路径，默认为 output/slicer_opt，然后点击"开启语音降噪"。处理完成后，降噪后的音频将默认输出到 output/denoise_opt 目录。这样，您就可以轻松获得清晰的音频文件。

4.打标并校对

只需输入刚才的切分文件夹路径，如果音频经过降噪处理，默认输出路径为 output/denoise_opt；如果没有降噪，则为 output/slicer_opt。

接下来，选择达摩ASR或Fast Whisper，然后点击"开启离线批量ASR"。默认输出路径为 output/asr_opt。请注意，这一步可能需要等待一段时间，因为系统需要下载相应的模型。

达摩ASR：专用于中文识别，效果最佳。
Fast Whisper：支持99种语言，尤其在英语和日语的识别方面表现突出。建议选择large V3模型，语种选择自动（auto）即可。

需要注意的是，由于识别出的文本可能不够准确，建议进行人工校对标注（这一步较耗时间，如果不追求极致效果可以选择跳过）。这里我只是为了演示流程，所以此步骤可以略过。

4.2 微调训练

1. 数据集格式化

在1-GPT-SOVITS-TTS选项卡中，填写以下信息：

实验/模型名：输入实验名称，确保不要使用中文。
文本标注文件：选择您的标注文件。
训练集音频文件目录：指定音频数据集的文件夹路径。

确保所有路径和文件名正确无误，以便顺利进行后续操作。

填写完成后，您可以选择逐个点击下面的三个按钮，等待每个操作执行结束后再点击下一个。如果遇到报错，请查看后台日志，有些报错只需重试即可解决。

另外，您也可以直接使用"开启一键三连"按钮，一键完成这三步操作，节省时间和精力。

2.训练微调模型

选择 1B-微调训练 子选项卡，配置 batch_size 等参数。然后依次点击 开启 SoVITS 训练 和 开启 GPT 训练。请注意，这两个训练任务不能同时进行（除非您有两张显卡）。如果训练过程中中断，您可以直接再点击开始训练，系统会从最近的保存点继续。

对于 SoVITS 训练，建议将 batch_size 设置为显存的一半以下。过高的设置可能导致显存爆满，并不是越高就越快。您需要根据数据集的大小进行调整，而不是严格按照显存的一半来设置。如果出现显存不足的情况，请适当降低 batch_size。以下是针对切片长度为10秒时，不同显存下 SoVITS 训练的最大 batch_size 的实测值供您参考；如果切片更长或数据集更大，则需要适当减少。

接下来，设置训练轮数。SoVITS 模型的轮数可以设置得高一些，因为训练速度较快。而对于 GPT 模型，通常建议设置轮数为10，不要超过20，以确保训练效率和模型性能的平衡。

4.3 推理

1.开启推理服务

选择 1C-推理 子选项卡，配置模型路径（如果模型没有显示出来，可以点击右侧的按钮进行刷新）。然后，点击 开启 TTS 推理 WEBUI 按钮以打开推理页面。在推理页面中，您可以输入文本并生成语音，体验模型的效果。

稍等片刻后，打开浏览器访问 http://localhost:9872。

2.语音克隆推理

在推理页面中，第一步选择所需的模型。第二步上传参考语音和文本（建议时长在5秒到10秒之间，参考音频非常重要，它会影响模型学习语速和语气，请认真选择）。第三步输入您希望用于语音克隆的文本，准备开始生成语音。

5.总结

GPT-SoVITS是一款开源语音合成框架，结合了生成对抗网络和变分推理技术，能够实现高质量的文本到语音转换。该框架支持多种功能，包括模型微调、语音克隆和多语言处理，用户可以通过友好的Web界面轻松操作。GPT-SoVITS尤其适合于生成自然流畅的语音，广泛应用于游戏、影视配音和语音助手等领域。

6.结束语

这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

另外，博主出新书了《深入理解Hive 》、同时已出版的《Kafka并不难学 》和《Hadoop大数据挖掘从入门到进阶实战 》也可以和新书配套使用，喜欢的朋友或同学，可以在公告栏那里点击购买链接购买博主的书进行学习，在此感谢大家的支持。关注下面公众号，根据提示，可免费获取书籍的教学视频。

GPT-SoVITS语音合成模型实践

1.概述

2.内容

2.1 GPT-SoVITS简介

2.2 语音合成

2.3 Whisper语音识别

3.GPT-SoVITS安装与部署

3.1 配置要求

1.训练

2.推理

3.2 Mac环境要求

1.软件要求

2.安装 conda（如果已安装可以跳过）

3.安装FFmpeg（如果已安装可以跳过）

3.3 项目准备

1.下载项目代码

2.下载预训练模型（直接参考项目README.md就好）

3.4 环境准备

1.创建环境

2.安装依赖

3.运行

4.训练模型

4.1 数据集处理

1.处理原音频

2.切割音频

3.音频降噪

4.打标并校对

4.2 微调训练

1. 数据集格式化

2.训练微调模型

4.3 推理

1.开启推理服务

2.语音克隆推理

5.总结

6.结束语