大模型之三十二-语音合成TTS(coqui) 之二 fine-tune

大模型之三十-语音合成TTS(coqui)shichaog @CSDN中提到了xttsv2的fine-tune。

数据情况:

我是从bilibili up主小Lin说提取了一些视频,然后进行了重新的fine-tune。

训练结果

如下图所示,上面波形幅度较大的是xttsv2原始模型的结果,第二个是fine-tune了290000 step之后的结果,因为CSDN没法直接放wav文件,上传到CSDN上了,但是不知道怎么变成了VIP资源,如果想要的,可以留言,超过10+人我做个网盘链接供大家下载。

后续计划

  • 后续会训练vits模型以和xttsv2的效果做对比
  • 改进中文编码,只支持中英文以提高效率&性能
  • 增加文本上下文,以合成合适情感、情境的语音
相关推荐
Larcher25 分钟前
AI Loop:让AI像人一样自主完成任务的核心机制
javascript·人工智能·设计模式
牧艺33 分钟前
从零到协同:构建类飞书在线文档系统的五个技术重难点
前端·人工智能
CodePlayer竟然被占用了1 小时前
Codex 用电脑的三种姿势:选错模式,你就白烧 Token
人工智能
袋鼠云数栈UED团队2 小时前
一套 Spec-First 的 AI 编程工作流
前端·人工智能
Awu12272 小时前
⚡从零开发 Agent CLI(二):CLI 框架搭建与子命令路由
人工智能·aigc
码上天下2 小时前
React Query 缓存 AI 对话历史的几个权衡
人工智能
米小虾2 小时前
2026半年盘点:AI界发生的6件大事,正在彻底改变产业格局
人工智能
道友可好4 小时前
让 AI 自己验收,等于让学生自己批卷
前端·人工智能·后端
美团技术团队4 小时前
美团海报生成 AIGC 技术创新与实践
人工智能