支持零样本和少样本的文本到语音48k star的配音工具:GPT-SoVITS-WebUI

支持零样本和少样本的文本到语音48k star的配音工具:GPT-SoVITS-WebUI

官网:RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

用户手册:GPT-SoVITS指南

功能

  1. 零样本文本到语音 (TTS): 输入 5 秒的声音样本, 即刻体验文本到语音转换.

  2. 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感.

  3. 跨语言支持: 支持与训练数据集不同语言的推理, 目前支持英语、日语、韩语、粤语和中文.

  4. WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注, 协助初学者创建训练数据集和 GPT/SoVITS 模型.

可以直接在这里体验一下:AI Hobbyist TTS

只需要上传一段3-10秒的wav录音,即可进行声音的克隆。

安装

官方提供了一些非常易操作的软件包,方便用户直接使用。

咱们还是使用常规的安装方法

安装lib库

复制代码
sudo apt install ffmpeg
sudo apt install libsox-dev

下载源码

复制代码
https://github.com/RVC-Boss/GPT-SoVITS
cd GPT-SoVITS

安装python库

复制代码
pip install -r extra-req.txt --no-deps
pip install -r requirements.txt

下载预训练模型

从huggingface下载:https://huggingface.co/lj1995/GPT-SoVITS

启动推理

复制代码
python GPT_SoVITS/inference_webui.py <language(optional)>
# 或
python webui.py

具体细节还需要再学习实践一下。

相关推荐
mit6.82413 分钟前
[nanoGPT] configurator.py | exec() & globals()
人工智能
rengang6617 分钟前
132-Spring AI Alibaba Vector Neo4j 示例
人工智能·spring·neo4j·rag·spring ai·ai应用编程
mit6.82418 分钟前
[nanoGPT] 性能与效率 | `torch.compile()` |`Flash Attention`|`混合精度训练`|`estimate_mfu`
人工智能
豆芽脚脚1 小时前
机器学习之数字识别
人工智能·机器学习
智海观潮1 小时前
Flink在与AI集成的路上再次“遥遥领先” - Flink Agents
大数据·人工智能·flink
honeysuckle_luo2 小时前
RandLA-net-pytorch 复现
人工智能·pytorch·python
_BugMan4 小时前
【大模型】理论基础(1):函数与神经网络
人工智能·深度学习·神经网络
AI模块工坊5 小时前
CVPR 即插即用 | PConv:重新定义高效卷积,一个让模型“跑”得更快、更省的新范式
人工智能·深度学习·计算机视觉·transformer
lzjava20245 小时前
Spring AI加DeepSeek实现一个Prompt聊天机器人
人工智能·spring·prompt
fanstuck6 小时前
AI辅助数学建模有哪些优势?
人工智能·数学建模·语言模型·aigc