基于＜GPT_SoVITS＞进行音频AI融合处理生成

本文旨在利用<GPT_SoVITS>进行语音合成，基于录制的源音频文件(.MP3)，然后编辑目标音频的文本，融合生成目标音频。

开源工具平台：<GPT_SoVITS> https://github.com/RVC-Boss/GPT-SoVITS

1. 下载部署<GPT_SoVITS>

此开源支持各种系统，包括Windows，Linux， MacOS等，可以根据实际需求进行下载。本文以Windows为例，进封装exe使用进行阐述。

1.1 github下载

旨在希望在Windows下直接运行，按照下述截图下载Windows软件包。

1.2 下载本地后直接解压缩

1.3 配置部署

Install the program by running the following commands:

bash 复制代码

conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
pwsh -F install.ps1 --Device <CU126|CU128|CPU> --Source <HF|HF-Mirror|ModelScope> [--DownloadUVR5]

上述亦可跳过，前提是PC上以提前安装Python 3.10.

2. 运行<GPT_SoVITS>

2.1 运行< go-webui.bat>

在解压缩目录下运行<go-webui.bat>. 然后自动调用运行python

浏览器自动打开<GPT_SoVITS WebUI >

2.2 WebUI设置

按照下图步骤进行设置

当第四步点击<开启TTS推理WebUI>后，浏览器自动弹出另一网页：http://localhost:9872/

后续都在该Web进行操作。

3. 音频AI融合操作

3.1 上传参考音频

上传需要去模仿融合的音效，可以录入音频文本文字，也可以不录入，但对融合效果有影响。

3.2 编辑目标音频文字

如上图所示，中英文均支持。

3.3 合成语音

提供诸多AI配置参数，可以基于实际音效进行参数调优。最后点击"合成语音"。

最后，可以通过右上方<**下载>**按钮进行音频下载。

如若github下载有阻碍，可以评论区留言，发资源链接。