MacOS 下运行 GPT-SoVITS

系统环境:

安装 ffmpeg

brew install ffmpeg

查看版本

ffmpeg -version

拉取项目代码

git clone --depth=1 https://github.com/RVC-Boss/GPT-SoVITS

cd GPT-SoVITS

安装好 Miniconda 之后,先创建一个虚拟环境:

conda create -n GPTSoVits python=3.9

conda activate GPTSoVits

安装依赖:

pip3 install -r requirements.txt

pip3 uninstall torch torchaudio

pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

(可选)如果网络环境不好,可以考虑换源(比如清华源):

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt

pip3 uninstall torch torchaudio

pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu

安装 huggingface-cli 用于和 huggingface hub 交互

pip3 install huggingface_hub

export HF_ENDPOINT=https://hf-mirror.com

下载模型, 由于模型文件较大,可能需要一段时间

--local-dir-use-symlinks False 用于解决 macOS alias 文件的问题

会下载到 GPT_SoVITS/pretrained_models 文件夹下

huggingface-cli download --resume-download lj1995/GPT-SoVITS --local-dir GPT_SoVITS/pretrained_models --local-dir-use-symlinks False

#运行

python webui.py

#运行结果

Matplotlib is building the font cache; this may take a moment.

Downloading g2pw model...

Extracting g2pw model...

Running on local URL: http://0.0.0.0:9874

"/Users/wxl/anaconda3/envs/GPTSoVits/bin/python" tools/uvr5/webui.py "cpu" False 9873 False

操作简要说明:

1)UVR5界面不必须的,主要用于分离歌声与背景声音

2)指定待训练的声音文件路径:如:input/someone

3)依次执行声音拆分、降噪和ASR转写(自动标注)

4)标注界面也不是必须的(手工标注)

5)一键三连提取自监督特征和语义特征(第一步需要下载nltk_data,有可能会失败,要科学上网)

6)依次训练sovits和gpt模型

7)部署模型

8)推理

相关推荐
kishu_iOS&AI19 小时前
LLM —— 基础知识(Bert&GPT&T5)浅析
人工智能·gpt·bert
人工智能培训19 小时前
从GPT到开源大模型
人工智能·gpt·深度学习·机器学习·容器·知识图谱
程序员佳佳20 小时前
我在 Windows 和低配 Linux 上做 RAG:Milvus、FAISS、向量 API 中转的中立实测
linux·人工智能·windows·gpt·aigc·milvus·faiss
鲁子狄20 小时前
lrnev:让 AI 协作开发「有记忆、可追溯」的项目治理引擎 | 零模型依赖,文件即真相
人工智能·笔记·gpt·ai·ai编程
searchforAI21 小时前
利用AI翻译视频做双语笔记,一套视频翻译到知识库沉淀的完整方案
人工智能·笔记·gpt·音视频·语音识别·知识图谱·机器翻译
向量引擎1 天前
腾讯混元 API 接入与国内模型统一入口实践:API Key、OpenAI 兼容调用、向量引擎中转配置与企业安全检查
人工智能·gpt·aigc·ai编程·ai写作·agi·api调用
ACP广源盛139246256731 天前
GSV2221 显示转换芯片@ACP#赋能 RTX Spark 端侧 AI 设备,构建多屏全模态视觉交互新生态
大数据·人工智能·嵌入式硬件·gpt·spark·电脑·音视频
库拉大叔2 天前
GPT-5.5 多模态能力实战:2026 年 AI 工具进阶使用指南
人工智能·gpt·aigc
沉默王二2 天前
不用 GPT-Image2,DeepSeek V4/GLM-5.1 + draw.io 就很顶!
gpt·ai编程·deepseek
K姐研究社2 天前
7大真实任务实测 Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max
人工智能·gpt