GPT-SoVITS更新V3 win整合包

GPT-SoVITS 是由社区开发者联合打造的开源语音生成框架,其创新性地融合了GPT语言模型与SoVITS(Singing Voice Inference and Timbre Synthesis)语音合成技术,实现了仅需5秒语音样本即可生成高保真目标音色的突破。该项目凭借其开箱即用的特性,已成为AIGC语音领域的热门工具。

功能:

  1. 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。

  2. 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。

  3. 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语、韩语、粤语和中文。

  4. WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。

GPT-SoVITS-V3 win整合包下载:

https://pan.quark.cn/s/f3d782bea7ee

GPT-SoVITS-V3新增特点:

  • 训练集增加至7k小时 (MOS分音质过滤、标点停顿校验)

  • s2结构变更为:shortcut Conditional Flow Matching Diffusion Transformers (shortcut-CFM-DiT)。由于s2占整体延时比例太低,s2变复杂对于整体耗时影响不大。【说人话就是s2变复杂了但训练轮数变少了,整体训练时长不变】s2原理的变更(基于参考音频扩散补全)导致音色相似度大幅提升。由于没用端到端合成,使用了开源的24k的BigVGANv2参数从mel谱得到波形。

  • s1结构不变,更新了一版参数

|---------------|--------------|----------|-----------------------|----------|----------|-----------|-------------------------------|
| | 语种主持(可跨语种合成) | GPT训练集时长 | SoVITS训练集时长 | 推理速度 | 参数量 | 文本前端 | 功能 |
| V1(2024年1月发布) | 中日英 | 2k小时 | 2k小时 | baseline | 90M+77M | baseline | baseline |
| V2(2024年8月更新) | 中日英韩粤 | 2.5k小时 | vq encoder2k小时,剩余5k小时 | 翻倍 | 90M+77M | 中日英逻辑均有增强 | 新增语速调节,无参考文本模式,更好的混合语种切分,音色混合 |
| V3(2025年2月更新) | 中日英韩粤 | 7k小时 | vq encoder2k小时,剩余7k小时 | 约等于v2 | 330M+77M | 不变 | 大幅增加zero shot相似度;情绪表达、微调性能提升 |

⚠️在开始之前,你必须同意并遵循使用规约,在任何音视频网站发布基于 GPT-SoVITS 项目或本整合包制作的作品时,需要对GPT-SOVITS工具进行署名,否则违反开源协议。

相关推荐
Percep_gan6 天前
使用 GPT-SoVITS 克隆声音,很详细
gpt-sovits
林学长@F5 AI社区3 个月前
【AI声音克隆整合包及教程】第二代GPT-SoVITS V2:技术、应用与伦理思考
语音克隆·gpt-sovits·ai免费工具·ai声音复刻
F5 AI社区4 个月前
【AI语音克隆整合包及教程】声临其境,让想象成为现实——第二代GPT-SoVITS引领语音克隆新时代!
声音克隆·语音克隆·gpt-sovits·ai配音·ai免费配音
F5 AI社区4 个月前
第二代GPT-SoVITS V2:让声音克隆变得简单
语音克隆·gpt-sovits·ai配音·ai声音克隆
wxl7812276 个月前
MacOS 下运行 GPT-SoVITS
gpt·声音克隆·gpt-sovits·跨语言克隆·效果极佳
伊织code7 个月前
GPT-SoVITS - few shot 声音克隆
gpt·tts·克隆·语音·clone·gpt-sovits·音色
云樱梦海10 个月前
免费开源语音克隆-GPT-SoVITS-WebUI只需 5 秒的声音样本
语音克隆·gpt-sovits
Fred-XU1 年前
【GPT-SOVITS-02】GPT模块解析
gpt·gpt-sovits·ai语音
Fred-XU1 年前
【GPT-SOVITS-01】源码梳理
gpt·gpt-sovits·ai语音