介绍
比较火的GPT-SoVits,他可以很快的用很短的参考音频来模仿生成很接近的声音,也有一定的预期情感的表达。
训练步骤
数据集准备
UVR5
这个工具是让我们快速的获得音质很好的音频数据,因为原始的训练音频的好坏会直接影响生成的结果
下载安装
分离人声和伴奏
- 选择要处理的音频文件
- 选择处理后的音频的输出目录
- 在
CHOOSE PROCESS METHOD
中选择MDX-Net
- 在
CHOOSE MDX-NET MODEL
中选择MDX23C-InstVoc HQ
- 有GPU的同学选中
GPU Conversion
- 选中
Vocals Only
只保留人声 SEGMENT SIZE
根据电脑性能选择,性能差的就选小一点。- 开始转换
除混响
- 选择上一步得到的人声音频作为输入音频
- 选择处理后的音频的输出目录
- 在
CHOOSE PROCESS METHOD
中选择VR Architecutre
- 在
CHOOSE VR MODEL
中选择UVR-De-Echo-Aggressive
- 选中
No Echo Only
只保留处理后的 - 开始转换
降噪
- 选择上一步去混响得到的人声音频作为输入音频
- 选择处理后的音频的输出目录
- 在
CHOOSE PROCESS METHOD
中选择VR Architecutre
- 在
CHOOSE VR MODEL
中选择UVR-DeNoise
- 选中
No Noise Only
只保留降噪后的音频 - 开始转换
数据集
这份数据集是我从cctv的康辉和李梓萌截取的,提供给大家使用。
百度网盘:https://pan.baidu.com/s/1lPmj6GUCPtLWREMIw0UvlA
提取码:tgv3
阿里云盘:https://www.alipan.com/s/qmBZ3FWA6ax
提取码: 05uy
夸克网盘:https://pan.quark.cn/s/f801946d1394
提取码:hid7
开启服务
运行命令启动web版训练界面
bash
python webui.py
训练
后面的都是访问地址以后的操作步骤
切分语音
- 讲我们之前处理好的音频文件放到当前服务可访问的路径
- 要切割的音频路径下就可以填写
./input/kanghui_final.wav
- 点击切分
ASR
点击按钮Start Batch ASR来进行批量的语音识别。这里需要注意的如果只有中文,建议就使用默认的达摩ASR效果最好
ASR 标注修改
上面识别以后有可能会有一些误差,这个时候我们可以点击按钮Open Labeling WebUI来进行修改。
正常情况浏览器会自动打开一个新的窗口,如果没有启动可以手动访问地址http://127.0.0.1:9871/
训练
- 选中选项卡,并起名
- 点击Start on-click formatting 这样就不用分布,直接执行上面三部的全部功能。
微调训练
按照下图依次选择
特别感谢
bilibili的白菜工厂1145号员工
提供的很多技术思路
引用
参考视频:2小时轻松入门GPT-SoVITS,包含整合包,autodl,colab教程,搭配文档观看
参考文档:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e