GPT-SoVITS开源音色克隆框架的训练与调试

不想秃头的夜猫子2024-03-14 8:19

GPT-SoVITS是一款创新的跨语言音色克隆工具，同时也是一个非常棒的少样本中文声音克隆项目。

它是是一个开源的TTS项目，只需要1分钟的音频文件就可以克隆声音，支持将汉语、英语、日语三种语言的文本转为克隆声音，作者已测试，部署很方便，训练速度很快，效果很好。项目发布不到1个月就有了9.3k star。

遇到的问题

GPT-SoVITS的项目地址为链接: GPT-SoVITS。我在本地部署后，即可打开可视化网页，并在网页上更改参数和进行模型训练。

打开的网页如下所示：

在微调训练中，依次点击开启SoVITS训练和GPT训练后，两个训练进程输出信息为训练已完成。但是在模型的推理页面中，点击刷新路径后，找不到刚刚训练的模型权重。

将微调训练中的batch_size改小一点，这里我改为了10，使得程序能够跑起来。

不知为何，显存不足的情况，权重未跑出，但是也没有报错信息。

原因就是查看服务器的显存占用，发现利用率已经快满了。

改过之后，就能够看到模型的权重信息了。