支持零样本和少样本的文本到语音48k star的配音工具:GPT-SoVITS-WebUI

支持零样本和少样本的文本到语音48k star的配音工具:GPT-SoVITS-WebUI

官网:RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

用户手册:GPT-SoVITS指南

功能

  1. 零样本文本到语音 (TTS): 输入 5 秒的声音样本, 即刻体验文本到语音转换.

  2. 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感.

  3. 跨语言支持: 支持与训练数据集不同语言的推理, 目前支持英语、日语、韩语、粤语和中文.

  4. WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注, 协助初学者创建训练数据集和 GPT/SoVITS 模型.

可以直接在这里体验一下:AI Hobbyist TTS

只需要上传一段3-10秒的wav录音,即可进行声音的克隆。

安装

官方提供了一些非常易操作的软件包,方便用户直接使用。

咱们还是使用常规的安装方法

安装lib库

复制代码
sudo apt install ffmpeg
sudo apt install libsox-dev

下载源码

复制代码
https://github.com/RVC-Boss/GPT-SoVITS
cd GPT-SoVITS

安装python库

复制代码
pip install -r extra-req.txt --no-deps
pip install -r requirements.txt

下载预训练模型

从huggingface下载:https://huggingface.co/lj1995/GPT-SoVITS

启动推理

复制代码
python GPT_SoVITS/inference_webui.py <language(optional)>
# 或
python webui.py

具体细节还需要再学习实践一下。

相关推荐
算家计算11 小时前
国产大模型问鼎全球:混元图像3.0登顶文生图榜单的启示
人工智能·开源·资讯
Rock_yzh11 小时前
AI学习日记——神经网络参数的更新
人工智能·python·深度学习·神经网络·学习
wa的一声哭了12 小时前
Stanford CS336 assignment1 | Transformer Language Model Architecture
人工智能·pytorch·python·深度学习·神经网络·语言模型·transformer
haidizym12 小时前
ssc-FinLLM 金融大模型 相关链接
人工智能·算法
cxr82812 小时前
AI智能体赋能文化传承与创新领域:社群身份认同的数字空间重构与文化融合策略
大数据·人工智能·重构·提示词工程·ai赋能
常州晟凯电子科技13 小时前
海思SS626开发笔记之环境搭建和SDK编译
人工智能·笔记·嵌入式硬件·物联网
Apifox.13 小时前
Apifox 9 月更新| AI 生成接口测试用例、在线文档调试能力全面升级、内置更多 HTTP 状态码、支持将目录转换为模块
前端·人工智能·后端·http·ai·测试用例·postman
武子康13 小时前
AI-调查研究-95-具身智能 机器人场景测试全解析:从极端环境仿真到自动化故障注入
人工智能·深度学习·机器学习·ai·机器人·自动化·具身智能
Light6013 小时前
领码方案|微服务与SOA的世纪对话(3):方法论新生——DDD、服务网格与AI Ops的融合之道
运维·人工智能·微服务·ddd·soa·服务网格·ai ops