GPT-SOVIT模型部署指南

一、模型介绍

强大的小样本语音转换和文本转语音 WebUI。

具有以下特征:

  • 零样本 TTS: 输入 5 秒的声音样本并体验即时文本到语音的转换。
  • 少量样本 TTS: 仅使用 1 分钟的训练数据对模型进行微调,以提高语音相似度和真实感。
  • 跨语言支持:使用不同于训练数据集的语言进行推理,目前支持英语、日语、韩语、粤语和中文。
  • WebUI 工具: 集成工具包括语音伴奏分离、自动训练集分割、中文 ASR 和文本标注,帮助初学者创建训练数据集和 GPT/SoVITS 模型。

二、部署流程

测试环境

  • Python 3.9、CUDA 12.1
1.克隆
复制代码
git clone https://github.com/RVC-Boss/GPT-SoVITS.git
cd /GPT-SoVITS/
2.创建虚拟环境并安装
复制代码
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh
3.安装ffmpeg
复制代码
conda install ffmpeg
4.安装依赖项
复制代码
pip install -r requirements.txt
5.预训练模型

用户可以在这里下载所有这些模型

  1. 从 GPT-SoVITS 模型下载预训练模型并将其放置在 GPT_SoVITS/pretrained_models
  2. 下载 G2PW 模型G2PWModel_1.1.zip,解压并重命名为 G2PWModel,然后将其放置在 GPT_SoVITS/text。(仅支持中文 TTS)
  3. 对于 UVR5(此外还有人声/伴奏分离和混响消除),从UVR5 Weights下载模型并将其放入 tools/uvr5/uvr5_weights
  4. 对于中文 ASR(另外),从Damo ASR 模型Damo VAD 模型Damo Punc 模型下载模型并将它们放置在 中 tools/asr/models
  5. 对于英语或日语 ASR(另外),请从Faster Whisper Large V3下载模型并将其放入 tools/asr/models。此外,其他模型可能具有类似的效果,但磁盘占用空间更小。

也可从modelscope下载:

复制代码
git lfs install
git clone https://www.modelscope.cn/AI-ModelScope/GPT-SoVITS.git
6.数据集格式

TTS 注释.list 文件格式:

复制代码
vocal_path|speaker_name|language|text

语言词典:

  • 'zh':中文
  • 'ja':日语
  • 'en':英语
  • 'ko':韩语
  • '粤':粤语

三、推理

复制代码
python webui.py 

四、页面演示

相关推荐
数智顾问21 分钟前
【73页PPT】美的简单高效的管理逻辑(附下载方式)
大数据·人工智能·产品运营
love530love23 分钟前
【保姆级教程】阿里 Wan2.1-T2V-14B 模型本地部署全流程:从环境配置到视频生成(附避坑指南)
人工智能·windows·python·开源·大模型·github·音视频
木头左25 分钟前
结合机器学习的Backtrader跨市场交易策略研究
人工智能·机器学习·kotlin
Coovally AI模型快速验证31 分钟前
3D目标跟踪重磅突破!TrackAny3D实现「类别无关」统一建模,多项SOTA达成!
人工智能·yolo·机器学习·3d·目标跟踪·无人机·cocos2d
研梦非凡36 分钟前
CVPR 2025|基于粗略边界框监督的3D实例分割
人工智能·计算机网络·计算机视觉·3d
MiaoChuAI41 分钟前
秒出PPT vs 豆包AI PPT:实测哪款更好用?
人工智能·powerpoint
fsnine1 小时前
深度学习——残差神经网路
人工智能·深度学习
和鲸社区2 小时前
《斯坦福CS336》作业1开源,从0手搓大模型|代码复现+免环境配置
人工智能·python·深度学习·计算机视觉·语言模型·自然语言处理·nlp
fanstuck2 小时前
2025 年高教社杯全国大学生数学建模竞赛C 题 NIPT 的时点选择与胎儿的异常判定详解(一)
人工智能·目标检测·数学建模·数据挖掘·aigc
cxr8282 小时前
Claude Code PM 深度实战指南:AI驱动的GitHub项目管理与并行协作
人工智能·驱动开发·github