支持零样本和少样本的文本到语音48k star的配音工具:GPT-SoVITS-WebUI

支持零样本和少样本的文本到语音48k star的配音工具:GPT-SoVITS-WebUI

官网:RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

用户手册:GPT-SoVITS指南

功能

  1. 零样本文本到语音 (TTS): 输入 5 秒的声音样本, 即刻体验文本到语音转换.

  2. 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感.

  3. 跨语言支持: 支持与训练数据集不同语言的推理, 目前支持英语、日语、韩语、粤语和中文.

  4. WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注, 协助初学者创建训练数据集和 GPT/SoVITS 模型.

可以直接在这里体验一下:AI Hobbyist TTS

只需要上传一段3-10秒的wav录音,即可进行声音的克隆。

安装

官方提供了一些非常易操作的软件包,方便用户直接使用。

咱们还是使用常规的安装方法

安装lib库

复制代码
sudo apt install ffmpeg
sudo apt install libsox-dev

下载源码

复制代码
https://github.com/RVC-Boss/GPT-SoVITS
cd GPT-SoVITS

安装python库

复制代码
pip install -r extra-req.txt --no-deps
pip install -r requirements.txt

下载预训练模型

从huggingface下载:https://huggingface.co/lj1995/GPT-SoVITS

启动推理

复制代码
python GPT_SoVITS/inference_webui.py <language(optional)>
# 或
python webui.py

具体细节还需要再学习实践一下。

相关推荐
应用市场4 分钟前
图片格式完全指南——从JPEG到AVIF的技术原理与选型
网络·人工智能·安全·汽车
2501_941809146 分钟前
在圣保罗智能物流场景中构建快递实时调度与高并发任务管理平台的工程设计实践经验分享
大数据·人工智能
hg011812 分钟前
湖南电动汽车年出口额破百亿
人工智能
高洁0116 分钟前
10分钟了解向量数据库(3
人工智能·深度学习·机器学习·transformer·知识图谱
IvorySQL17 分钟前
让源码安装不再困难:IvorySQL 一键安装脚本的实现细节解析
数据库·人工智能·postgresql·开源
民乐团扒谱机17 分钟前
【微实验】数模美赛备赛MATLAB实战:一文速通各种“马尔可夫”(Markov Model)
开发语言·人工智能·笔记·matlab·数据挖掘·马尔科夫链·线性系统
MistaCloud24 分钟前
Pytorch深入浅出(十三)之模型微调
人工智能·pytorch·python·深度学习
雨大王51224 分钟前
工业AI大模型如何重塑汽车焊接与质检流程?
人工智能·汽车
MARS_AI_26 分钟前
当AI客服开始“察言观色”:以云蝠智能为例,大模型如何定义呼叫
人工智能