【AI技术】GPT-SoVits训练日志

介绍

比较火的GPT-SoVits,他可以很快的用很短的参考音频来模仿生成很接近的声音,也有一定的预期情感的表达。

训练步骤

数据集准备

UVR5

这个工具是让我们快速的获得音质很好的音频数据,因为原始的训练音频的好坏会直接影响生成的结果

下载安装

官方网站

分离人声和伴奏
  1. 选择要处理的音频文件
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择MDX-Net
  4. CHOOSE MDX-NET MODEL中选择MDX23C-InstVoc HQ
  5. 有GPU的同学选中GPU Conversion
  6. 选中Vocals Only只保留人声
  7. SEGMENT SIZE 根据电脑性能选择,性能差的就选小一点。
  8. 开始转换
除混响
  1. 选择上一步得到的人声音频作为输入音频
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择VR Architecutre
  4. CHOOSE VR MODEL中选择UVR-De-Echo-Aggressive
  5. 选中No Echo Only只保留处理后的
  6. 开始转换
降噪
  1. 选择上一步去混响得到的人声音频作为输入音频
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择VR Architecutre
  4. CHOOSE VR MODEL中选择UVR-DeNoise
  5. 选中No Noise Only只保留降噪后的音频
  6. 开始转换

数据集

这份数据集是我从cctv的康辉和李梓萌截取的,提供给大家使用。

百度网盘:https://pan.baidu.com/s/1lPmj6GUCPtLWREMIw0UvlA

提取码:tgv3

阿里云盘:https://www.alipan.com/s/qmBZ3FWA6ax

提取码: 05uy

夸克网盘:https://pan.quark.cn/s/f801946d1394

提取码:hid7

开启服务

运行命令启动web版训练界面

bash 复制代码
python webui.py

浏览器访问http://127.0.0.1:9874/

训练

后面的都是访问地址以后的操作步骤

切分语音

  1. 讲我们之前处理好的音频文件放到当前服务可访问的路径
  2. 要切割的音频路径下就可以填写./input/kanghui_final.wav
  3. 点击切分

ASR

点击按钮Start Batch ASR来进行批量的语音识别。这里需要注意的如果只有中文,建议就使用默认的达摩ASR效果最好

ASR 标注修改

上面识别以后有可能会有一些误差,这个时候我们可以点击按钮Open Labeling WebUI来进行修改。

正常情况浏览器会自动打开一个新的窗口,如果没有启动可以手动访问地址http://127.0.0.1:9871/

训练

  1. 选中选项卡,并起名
  2. 点击Start on-click formatting 这样就不用分布,直接执行上面三部的全部功能。

微调训练

按照下图依次选择

特别感谢

bilibili的白菜工厂1145号员工提供的很多技术思路

引用

参考视频:2小时轻松入门GPT-SoVITS,包含整合包,autodl,colab教程,搭配文档观看

参考文档:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

相关推荐
zhangfeng113316 分钟前
把“距离过近”的节点(或端点)合并成一个,避免重复。机器学习 python
人工智能·python·机器学习
AscentStream32 分钟前
技术文档 | 使用 Pulsar Functions 构建实时 AI Pipeline
人工智能
POLOAPI33 分钟前
为什么Claude Code让传统IDE开发者"失业"?深度解析AI编程的技术革命
人工智能·ai编程·claude
沐森33 分钟前
屏幕截图 (OCR今日ai下必备工具)
人工智能
YBCarry_段松啓39 分钟前
DeerFlow:深度研究的多智能体框架
人工智能·开源·llm
玄明Hanko40 分钟前
不想写测试脚本AI帮你搞定自动化测试
人工智能·测试
lingling0091 小时前
光伏清洗机器人是什么?艾利特协作机器人如何重塑新能源运维效率
大数据·运维·人工智能
无限大.2 小时前
《计算机“十万个为什么”》之 面向对象 vs 面向过程:编程世界的积木与流水线
网络·人工智能·python
wangjun51592 小时前
人工智能、机器学习、深度学习、大模型、智能体知识点汇总
人工智能·深度学习·机器学习
音视频牛哥2 小时前
无人机 × 巡检 × AI识别:一套可复制的超低延迟低空视频感知系统搭建实践
人工智能·音视频·无人机·大牛直播sdk·低空感知·无人机视频回传·ai边缘识别