【AI技术】GPT-SoVits训练日志

介绍

比较火的GPT-SoVits,他可以很快的用很短的参考音频来模仿生成很接近的声音,也有一定的预期情感的表达。

训练步骤

数据集准备

UVR5

这个工具是让我们快速的获得音质很好的音频数据,因为原始的训练音频的好坏会直接影响生成的结果

下载安装

官方网站

分离人声和伴奏
  1. 选择要处理的音频文件
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择MDX-Net
  4. CHOOSE MDX-NET MODEL中选择MDX23C-InstVoc HQ
  5. 有GPU的同学选中GPU Conversion
  6. 选中Vocals Only只保留人声
  7. SEGMENT SIZE 根据电脑性能选择,性能差的就选小一点。
  8. 开始转换
除混响
  1. 选择上一步得到的人声音频作为输入音频
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择VR Architecutre
  4. CHOOSE VR MODEL中选择UVR-De-Echo-Aggressive
  5. 选中No Echo Only只保留处理后的
  6. 开始转换
降噪
  1. 选择上一步去混响得到的人声音频作为输入音频
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择VR Architecutre
  4. CHOOSE VR MODEL中选择UVR-DeNoise
  5. 选中No Noise Only只保留降噪后的音频
  6. 开始转换

数据集

这份数据集是我从cctv的康辉和李梓萌截取的,提供给大家使用。

百度网盘:https://pan.baidu.com/s/1lPmj6GUCPtLWREMIw0UvlA

提取码:tgv3

阿里云盘:https://www.alipan.com/s/qmBZ3FWA6ax

提取码: 05uy

夸克网盘:https://pan.quark.cn/s/f801946d1394

提取码:hid7

开启服务

运行命令启动web版训练界面

bash 复制代码
python webui.py

浏览器访问http://127.0.0.1:9874/

训练

后面的都是访问地址以后的操作步骤

切分语音

  1. 讲我们之前处理好的音频文件放到当前服务可访问的路径
  2. 要切割的音频路径下就可以填写./input/kanghui_final.wav
  3. 点击切分

ASR

点击按钮Start Batch ASR来进行批量的语音识别。这里需要注意的如果只有中文,建议就使用默认的达摩ASR效果最好

ASR 标注修改

上面识别以后有可能会有一些误差,这个时候我们可以点击按钮Open Labeling WebUI来进行修改。

正常情况浏览器会自动打开一个新的窗口,如果没有启动可以手动访问地址http://127.0.0.1:9871/

训练

  1. 选中选项卡,并起名
  2. 点击Start on-click formatting 这样就不用分布,直接执行上面三部的全部功能。

微调训练

按照下图依次选择

特别感谢

bilibili的白菜工厂1145号员工提供的很多技术思路

引用

参考视频:2小时轻松入门GPT-SoVITS,包含整合包,autodl,colab教程,搭配文档观看

参考文档:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

相关推荐
AI科技7 分钟前
原创音乐人搭配AI编曲软件,编曲音源下载哪个软件
人工智能
JQLvopkk7 分钟前
C# 实践AI :Visual Studio + VSCode 组合方案
人工智能·c#·visual studio
饭饭大王6669 分钟前
CANN 生态深度整合:使用 `pipeline-runner` 构建高吞吐视频分析流水线
人工智能·音视频
初恋叫萱萱9 分钟前
CANN 生态中的异构调度中枢:深入 `runtime` 项目实现高效任务编排
人工智能
简佐义的博客11 分钟前
生信入门进阶指南:学习顶级实验室多组学整合方案,构建肾脏细胞空间分子图谱
人工智能·学习
无名修道院11 分钟前
自学AI制作小游戏
人工智能·lora·ai大模型应用开发·小游戏制作
晚霞的不甘20 分钟前
CANN × ROS 2:为智能机器人打造实时 AI 推理底座
人工智能·神经网络·架构·机器人·开源
互联网Ai好者24 分钟前
MiyoAI数参首发体验——不止于监控,更是你的智能决策参谋
人工智能
island131424 分钟前
CANN HIXL 通信库深度解析:单边点对点数据传输、异步模型与异构设备间显存直接访问
人工智能·深度学习·神经网络
初恋叫萱萱29 分钟前
CANN 生态中的图优化引擎:深入 `ge` 项目实现模型自动调优
人工智能