【AI技术】GPT-SoVits训练日志

介绍

比较火的GPT-SoVits,他可以很快的用很短的参考音频来模仿生成很接近的声音,也有一定的预期情感的表达。

训练步骤

数据集准备

UVR5

这个工具是让我们快速的获得音质很好的音频数据,因为原始的训练音频的好坏会直接影响生成的结果

下载安装

官方网站

分离人声和伴奏
  1. 选择要处理的音频文件
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择MDX-Net
  4. CHOOSE MDX-NET MODEL中选择MDX23C-InstVoc HQ
  5. 有GPU的同学选中GPU Conversion
  6. 选中Vocals Only只保留人声
  7. SEGMENT SIZE 根据电脑性能选择,性能差的就选小一点。
  8. 开始转换
除混响
  1. 选择上一步得到的人声音频作为输入音频
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择VR Architecutre
  4. CHOOSE VR MODEL中选择UVR-De-Echo-Aggressive
  5. 选中No Echo Only只保留处理后的
  6. 开始转换
降噪
  1. 选择上一步去混响得到的人声音频作为输入音频
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择VR Architecutre
  4. CHOOSE VR MODEL中选择UVR-DeNoise
  5. 选中No Noise Only只保留降噪后的音频
  6. 开始转换

数据集

这份数据集是我从cctv的康辉和李梓萌截取的,提供给大家使用。

百度网盘:https://pan.baidu.com/s/1lPmj6GUCPtLWREMIw0UvlA

提取码:tgv3

阿里云盘:https://www.alipan.com/s/qmBZ3FWA6ax

提取码: 05uy

夸克网盘:https://pan.quark.cn/s/f801946d1394

提取码:hid7

开启服务

运行命令启动web版训练界面

bash 复制代码
python webui.py

浏览器访问http://127.0.0.1:9874/

训练

后面的都是访问地址以后的操作步骤

切分语音

  1. 讲我们之前处理好的音频文件放到当前服务可访问的路径
  2. 要切割的音频路径下就可以填写./input/kanghui_final.wav
  3. 点击切分

ASR

点击按钮Start Batch ASR来进行批量的语音识别。这里需要注意的如果只有中文,建议就使用默认的达摩ASR效果最好

ASR 标注修改

上面识别以后有可能会有一些误差,这个时候我们可以点击按钮Open Labeling WebUI来进行修改。

正常情况浏览器会自动打开一个新的窗口,如果没有启动可以手动访问地址http://127.0.0.1:9871/

训练

  1. 选中选项卡,并起名
  2. 点击Start on-click formatting 这样就不用分布,直接执行上面三部的全部功能。

微调训练

按照下图依次选择

特别感谢

bilibili的白菜工厂1145号员工提供的很多技术思路

引用

参考视频:2小时轻松入门GPT-SoVITS,包含整合包,autodl,colab教程,搭配文档观看

参考文档:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

相关推荐
LitchiCheng4 分钟前
Mujoco 基础:获取模型中所有 body 的 name, id 以及位姿
人工智能·python
Allen_LVyingbo6 分钟前
面向医学影像检测的深度学习模型参数分析与优化策略研究
人工智能·深度学习
CareyWYR8 分钟前
每周AI论文速递(251124-251128)
人工智能
却道天凉_好个秋9 分钟前
OpenCV(三十三):什么是轮廓?
人工智能·opencv·计算机视觉
xieyan081111 分钟前
选股中的财务指标运用_ROE_PE_PB...
大数据·人工智能
海伯森技术20 分钟前
赋予人形机器人“细腻触觉”:海伯森六维力传感器的材质与集成改革
人工智能·机器人·材质
腾飞开源24 分钟前
06_Spring AI 干货笔记之递归 Advisor
人工智能·工具调用·spring ai·重试机制·递归advisor·toolcalladvisor·advisor链
ziwu1 小时前
【民族服饰识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·后端·图像识别
ziwu1 小时前
【卫星图像识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·tensorflow·图像识别
ISACA中国1 小时前
ISACA与中国内审协会共同推动的人工智能审计专家认证(AAIA)核心内容介绍
人工智能·审计·aaia·人工智能专家认证·人工智能审计专家认证·中国内审协会