前言
为了帮助一位需要录制大量音频的朋友,我抓住了这个完美的时机来实践我近期研究的AI声音克隆技术。这不仅满足了我对新技术的探索欲望,同时也为他人提供了实质性的帮助。在本文末尾,您可以找到用于AI声音克隆的Windows整合包,以便您也可以尝试这项令人兴奋的技术。
介绍(由科大讯飞AI助手编写)
GPT-SoVITS是一个开源的文本到语音(TTS)项目,它能够通过短短一分钟的音频文件克隆个人的声音,并支持将文本转换成汉语、英语、日语等语言的语音。
该项目具有以下特点:
- 快速部署:GPT-SoVITS的部署过程简便快捷,用户只需下载相关文件并解压,即可启动其Web界面进行操作。
- 训练速度快:项目设计了高效的训练流程,使得声音模型的训练时间大幅缩短,加快了从准备到得到结果的整个过程。
- 效果良好:根据作者的测试以及社区反馈,GPT-SoVITS在声音克隆方面表现出了良好的效果,生成的语音与原声相比几乎难以区分。
- 跨语言支持:除了对多种语言的支持,GPT-SoVITS还集成了多个辅助工具,如声音伴奏分离和中文自动语音识别(ASR),这些工具进一步提升了系统的功能性和实用性。
- 社区认可:自项目发布以来,由于其出色的性能和易用性,GPT-SoVITS在GitHub上迅速获得了关注和星标,反映出了社区对其的高度认可。
- 使用方便:用户可通过Web界面进行交互,使得操作更加直观和友好,无需过多的命令行操作知识。
总的来说,GPT-SoVITS是一个功能强大且用户体验良好的TTS项目,适合那些希望快速部署并使用个性化语音合成技术的用户和开发者。
使用流程
接下来将会介绍一次中文声音完整的声音克隆过程,在生产过程中要按照实际情况进行流程修改。
-
音频素材的准备
- 音频需要口齿清晰,发音标准。
- 可以将多段优质音频组成一个长音频。
- 音频不要出现除了中文的其他语种
-
在解压文件下启动AI克隆声音的页面
-
创建文件夹(文件夹名称不要用中文)
创建一个空文件放入自己的音频文件,并在空文件夹中创建
asr_opt
,denoise_opt
,slicer_opt
,uvr5_opt
asr_opt
存放ASR文件的文件夹。denoise_opt
存放去噪后的音频文件夹。slicer_opt
存放切割后的音频文件夹。uvr5_opt
存放UVR5处理后的音频文件夹。
-
使用UVR5处理原音频(如果原音频足够干净可以跳过这步)
- 首先开启webui。
- 填写音频文件以及处理后的音频地址,点击转换,进行音频处理。
- 在生成文件夹中删除背景声,保留人声。
- 关闭weiui释放内存。
-
音频降噪(不建议使用,效果很差)
- 填写原音频文件夹和降噪后的音频文件夹。
-
音频切分
- 填写最终处理好的音频路径和切分音频后的路径。(注意作者使用的是进行UVR5后的音频文件。如果你想使用的是降噪后的音频只需将路径修改为降噪后的音频文件地址)。
-
填写切分后音频的文件夹和输出ASR文件路径,进行ASR提取。
-
开启webui并填写ASR文件地址,进行ASR数据校对,将错误文本进行修改以及删除效果不好较短的音频,这样可以提高训练后的音频质量。
操作说明:
-
如果修改文案直接将文本修改并点击Submit Text进行保存。
-
如果删除语音,勾选右边的yes然后点击Delete Audio。
-
上方的Previous Index和Next Index是前一页和后一页
-
最后使用完关闭webui
-
-
训练集格式化
-
填入模型名称,ASR文件地址和切割的音频文件夹地址,点击开启一键三连
-
-
微调训练
-
开启SoVITS训练
-
开启GPT训练(打开dpo训练会使音频效果更好不过更加吃显存)
-
-
选择模型并进行音频的生成
-
点击刷新模型路径选择自己训练的模型,并勾选启动webui。
-
选择对应模型列表。并且上传一段优质的切片音频,放入文案即可生成对应的音频。
附录
- GPT-SoVITS项目的地址是:github.com/RVC-Boss/GP...
- AI声音克隆的Windows整合包(谷歌云端硬盘) : drive.google.com/file/d/1IRo...
- 中文教程文档:www.yuque.com/baicaigongc...
吐槽
阿里云盘竟然不能分享压缩文件!百度网盘不是会员竟然不能上传大文件!
-