【AI技术】GPT-SoVits训练日志

介绍

比较火的GPT-SoVits,他可以很快的用很短的参考音频来模仿生成很接近的声音,也有一定的预期情感的表达。

训练步骤

数据集准备

UVR5

这个工具是让我们快速的获得音质很好的音频数据,因为原始的训练音频的好坏会直接影响生成的结果

下载安装

官方网站

分离人声和伴奏
  1. 选择要处理的音频文件
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择MDX-Net
  4. CHOOSE MDX-NET MODEL中选择MDX23C-InstVoc HQ
  5. 有GPU的同学选中GPU Conversion
  6. 选中Vocals Only只保留人声
  7. SEGMENT SIZE 根据电脑性能选择,性能差的就选小一点。
  8. 开始转换
除混响
  1. 选择上一步得到的人声音频作为输入音频
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择VR Architecutre
  4. CHOOSE VR MODEL中选择UVR-De-Echo-Aggressive
  5. 选中No Echo Only只保留处理后的
  6. 开始转换
降噪
  1. 选择上一步去混响得到的人声音频作为输入音频
  2. 选择处理后的音频的输出目录
  3. CHOOSE PROCESS METHOD 中选择VR Architecutre
  4. CHOOSE VR MODEL中选择UVR-DeNoise
  5. 选中No Noise Only只保留降噪后的音频
  6. 开始转换

数据集

这份数据集是我从cctv的康辉和李梓萌截取的,提供给大家使用。

百度网盘:https://pan.baidu.com/s/1lPmj6GUCPtLWREMIw0UvlA

提取码:tgv3

阿里云盘:https://www.alipan.com/s/qmBZ3FWA6ax

提取码: 05uy

夸克网盘:https://pan.quark.cn/s/f801946d1394

提取码:hid7

开启服务

运行命令启动web版训练界面

bash 复制代码
python webui.py

浏览器访问http://127.0.0.1:9874/

训练

后面的都是访问地址以后的操作步骤

切分语音

  1. 讲我们之前处理好的音频文件放到当前服务可访问的路径
  2. 要切割的音频路径下就可以填写./input/kanghui_final.wav
  3. 点击切分

ASR

点击按钮Start Batch ASR来进行批量的语音识别。这里需要注意的如果只有中文,建议就使用默认的达摩ASR效果最好

ASR 标注修改

上面识别以后有可能会有一些误差,这个时候我们可以点击按钮Open Labeling WebUI来进行修改。

正常情况浏览器会自动打开一个新的窗口,如果没有启动可以手动访问地址http://127.0.0.1:9871/

训练

  1. 选中选项卡,并起名
  2. 点击Start on-click formatting 这样就不用分布,直接执行上面三部的全部功能。

微调训练

按照下图依次选择

特别感谢

bilibili的白菜工厂1145号员工提供的很多技术思路

引用

参考视频:2小时轻松入门GPT-SoVITS,包含整合包,autodl,colab教程,搭配文档观看

参考文档:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

相关推荐
编码小哥1 天前
OpenCV Haar级联分类器:人脸检测入门
人工智能·计算机视觉·目标跟踪
程序员:钧念1 天前
深度学习与强化学习的区别
人工智能·python·深度学习·算法·transformer·rag
数据与后端架构提升之路1 天前
TeleTron 源码揭秘:如何用适配器模式“无缝魔改” Megatron-Core?
人工智能·python·适配器模式
Chef_Chen1 天前
数据科学每日总结--Day44--机器学习
人工智能·机器学习
这张生成的图像能检测吗1 天前
(论文速读)FR-IQA:面向广义图像质量评价:放松完美参考质量假设
人工智能·计算机视觉·图像增强·图像质量评估指标
KG_LLM图谱增强大模型1 天前
本体论与知识图谱:揭示语义技术的核心差异
人工智能·知识图谱·本体论
JicasdC123asd1 天前
黄瓜植株目标检测:YOLOv8结合Fasternet与BiFPN的高效改进方案
人工智能·yolo·目标检测
爱吃泡芙的小白白1 天前
深入解析:2024年AI大模型核心算法与应用全景
人工智能·算法·大模型算法
小程故事多_801 天前
攻克RAG系统最后一公里 图文混排PDF解析的挑战与实战方案
人工智能·架构·pdf·aigc
琅琊榜首20201 天前
AI+编程双驱动:高质量短剧创作全流程指南
人工智能