【AI技术】GPT-SoVits训练日志

介绍

比较火的GPT-SoVits，他可以很快的用很短的参考音频来模仿生成很接近的声音，也有一定的预期情感的表达。

训练步骤

数据集准备

UVR5

这个工具是让我们快速的获得音质很好的音频数据，因为原始的训练音频的好坏会直接影响生成的结果

下载安装

官方网站

分离人声和伴奏

选择要处理的音频文件
选择处理后的音频的输出目录
在CHOOSE PROCESS METHOD 中选择MDX-Net
在CHOOSE MDX-NET MODEL中选择MDX23C-InstVoc HQ
有GPU的同学选中GPU Conversion
选中Vocals Only只保留人声
SEGMENT SIZE 根据电脑性能选择，性能差的就选小一点。
开始转换

除混响

选择上一步得到的人声音频作为输入音频
选择处理后的音频的输出目录
在CHOOSE PROCESS METHOD 中选择VR Architecutre
在CHOOSE VR MODEL中选择UVR-De-Echo-Aggressive
选中No Echo Only只保留处理后的
开始转换

降噪

选择上一步去混响得到的人声音频作为输入音频
选择处理后的音频的输出目录
在CHOOSE PROCESS METHOD 中选择VR Architecutre
在CHOOSE VR MODEL中选择UVR-DeNoise
选中No Noise Only只保留降噪后的音频
开始转换

数据集

这份数据集是我从cctv的康辉和李梓萌截取的，提供给大家使用。

百度网盘：https://pan.baidu.com/s/1lPmj6GUCPtLWREMIw0UvlA

提取码:tgv3

阿里云盘：https://www.alipan.com/s/qmBZ3FWA6ax

提取码: 05uy

夸克网盘：https://pan.quark.cn/s/f801946d1394

提取码：hid7

开启服务

运行命令启动web版训练界面

bash 复制代码

python webui.py

浏览器访问http://127.0.0.1:9874/

训练

后面的都是访问地址以后的操作步骤

切分语音

讲我们之前处理好的音频文件放到当前服务可访问的路径
要切割的音频路径下就可以填写./input/kanghui_final.wav
点击切分

ASR

点击按钮Start Batch ASR来进行批量的语音识别。这里需要注意的如果只有中文，建议就使用默认的达摩ASR效果最好

ASR 标注修改

上面识别以后有可能会有一些误差，这个时候我们可以点击按钮Open Labeling WebUI来进行修改。

正常情况浏览器会自动打开一个新的窗口，如果没有启动可以手动访问地址http://127.0.0.1:9871/

训练

选中选项卡，并起名
点击Start on-click formatting 这样就不用分布，直接执行上面三部的全部功能。

微调训练

按照下图依次选择

特别感谢

bilibili的白菜工厂1145号员工提供的很多技术思路

引用

参考视频：2小时轻松入门GPT-SoVITS，包含整合包，autodl，colab教程，搭配文档观看

参考文档：https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e