GPT-SoVITS Windows 配置与推理笔记(自用)
这是给自己留的备份,方便下次查。Windows 端配置和推理为主,代码为核心,直接干货。
环境准备
- 系统:Windows 10/11
- Python:3.9(别用别的版本,坑多)
- GPU(可选):NVIDIA + CUDA 11.8(没 GPU 也能跑,慢点)
- FFmpeg:解压后扔根目录(最新版自带,但建议手动确认)
下载与安装
Git 下载(可选):
bash
git clone https://github.com/RVC-Boss/GPT-SoVITS.git
或者直接去 GPT-SoVITS 项目页,点"Code"按钮,选"Download ZIP"。解压到 D:\GPT-SoVITS
(路径自己定)。
进去后双击 go-webui.bat
,第一次跑会自动装依赖和下载模型。需要啥提前装好:
-
Python 3.9:
bashpython --version # 检查是不是 3.9.x
-
FFmpeg(最新版 GPT-SoVITS 自带,但建议手动放一份):
下载后放D:\GPT-SoVITS
,验证:bashffmpeg -version
依赖安装(如果自动失败)
go-webui.bat
一般自动搞定,但要是卡住(比如网络问题),手动敲:
bash
python -m venv venv
venv\Scripts\activate
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
PyTorch 按需装:
-
GPU:
bashpip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
(CUDA 版本不对就去 PyTorch 官网 找对应链接)
-
CPU:
bashpip install torch torchvision torchaudio
检查:
bash
python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"
运行 WebUI
双击 go-webui.bat
,会弹地址:
http://127.0.0.1:9880
浏览器打开。界面分几个Tab,我只用推理:
- 模型选择:挑 GPT 和 SoVITS 权重
- 音频输入:初始音频
- 文本输入:想说的内容
- 生成按钮:点一下出结果
坑 :推理界面,选完模型点"刷新"后,必须勾选 [开启TTS推理WebUI]
,不然不会跳到语音合成页面。
推理步骤
- 权重放好:
D:\GPT-SoVITS\GPT_weights
D:\GPT-SoVITS\SoVITS_weights
下载地址:【碧蓝档案】全学生AI音色模型(自己挑喜欢的角色)。
- 初始音频:3-10 秒 WAV,上传到 WebUI,音色全靠它。
- 输入文本:"测试一下"之类,选好权重,点生成,底下出音频。
- 文本太长:用"切分"功能,分段处理,不然容易崩。
注意
- 音色偏向初始音频,选清晰的,别含背景杂音。
- 想"唱歌":用 UVR5(
tools/uvr5/
下有)分解人声,每段推理再拼,效果更像原唱。 - 推理时间:GPU 快,CPU 得等几秒。
问题
- WebUI 打不开:端口
9880
被占,编辑go-webui.bat
,改成别的(比如9881
)。 - 依赖装不上:换源,或确认 Python 是 3.9。
- 模型加载失败:检查权重路径和文件名,别多空格或中文。
补充
- 初始音频质量:录个干净的,别用手机随便录,杂音多效果差。
- 权重版本:B站那个碧蓝档案的模型可能更新,下载前看下评论确认兼容。