支持零样本和少样本的文本到语音48k star的配音工具:GPT-SoVITS-WebUI

支持零样本和少样本的文本到语音48k star的配音工具:GPT-SoVITS-WebUI

官网:RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

用户手册:GPT-SoVITS指南

功能

  1. 零样本文本到语音 (TTS): 输入 5 秒的声音样本, 即刻体验文本到语音转换.

  2. 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感.

  3. 跨语言支持: 支持与训练数据集不同语言的推理, 目前支持英语、日语、韩语、粤语和中文.

  4. WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注, 协助初学者创建训练数据集和 GPT/SoVITS 模型.

可以直接在这里体验一下:AI Hobbyist TTS

只需要上传一段3-10秒的wav录音,即可进行声音的克隆。

安装

官方提供了一些非常易操作的软件包,方便用户直接使用。

咱们还是使用常规的安装方法

安装lib库

复制代码
sudo apt install ffmpeg
sudo apt install libsox-dev

下载源码

复制代码
https://github.com/RVC-Boss/GPT-SoVITS
cd GPT-SoVITS

安装python库

复制代码
pip install -r extra-req.txt --no-deps
pip install -r requirements.txt

下载预训练模型

从huggingface下载:https://huggingface.co/lj1995/GPT-SoVITS

启动推理

复制代码
python GPT_SoVITS/inference_webui.py <language(optional)>
# 或
python webui.py

具体细节还需要再学习实践一下。

相关推荐
机器之心1 分钟前
国产芯片也能跑AI视频实时生成了,商汤Seko 2.0揭秘幕后黑科技
人工智能·openai
hoiii1873 分钟前
使用RPCA算法对图像进行稀疏低秩分解
人工智能·算法
Small___ming3 分钟前
【人工智能数学基础】标准贝叶斯公式的一般化推导:从单一条件到任意多条件
人工智能·机器学习·概率论
世优科技虚拟人10 分钟前
智慧政务从试点到普及:AI数字人一体机在政务大厅的深度应用分析
人工智能·大模型·智慧城市·数字人·政务·智慧政务·智能交互
一点一木11 分钟前
🎙️ 2025 年主流 AI 语音输入工具测评:解锁高效生产力的关键
人工智能
JoannaJuanCV13 分钟前
自动驾驶—CARLA仿真(10)tutorial_gbuffer demo
人工智能·机器学习·自动驾驶·carla
测试人社区-小明16 分钟前
未来测试岗位的AI需求分析
人工智能·opencv·测试工具·算法·金融·机器人·需求分析
大千AI助手17 分钟前
GPT-Neo:开源大型自回归语言模型的实现与影响
人工智能·gpt·机器学习·开源·大模型·大千ai助手·gpt-neo
独自归家的兔22 分钟前
通义千问3-VL-Plus - 文字提取(发票信息提取)
人工智能
沈浩(种子思维作者)23 分钟前
道AI能不能帮助造出黄金?
人工智能·python