大模型之三十二-语音合成TTS(coqui) 之二 fine-tune

shichaog2024-10-19 8:47

在大模型之三十-语音合成TTS(coqui) $shichaog @CSDN$ 中提到了xttsv2的fine-tune。

数据情况：

我是从bilibili up主小Lin说提取了一些视频，然后进行了重新的fine-tune。

训练结果

如下图所示，上面波形幅度较大的是xttsv2原始模型的结果，第二个是fine-tune了290000 step之后的结果，因为CSDN没法直接放wav文件，上传到CSDN上了，但是不知道怎么变成了VIP资源，如果想要的，可以留言，超过10+人我做个网盘链接供大家下载。

后续计划

后续会训练vits模型以和xttsv2的效果做对比
改进中文编码，只支持中英文以提高效率&性能
增加文本上下文，以合成合适情感、情境的语音

上一篇：echart立体柱状图

下一篇：IDEA使用技巧与插件推荐

热门推荐

012026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？02GitHub 镜像站点 032026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 04AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 052026 年 AI 大模型 & AI 编程工具实战全总结 06AI科技热点日报 | 2026年07月01日 07【AI】2026 年具身智能模型和世界模型总结 082026 AI 编程工具选型横评：Cursor / Claude Code / Trae / Copilot 到底选谁（建议收藏·避坑版）092026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 10Claude Code、Codex、Cursor三分天下：2026年AI编程Agent生态全景剖析