大模型之三十二-语音合成TTS(coqui) 之二 fine-tune

大模型之三十-语音合成TTS(coqui)[shichaog @CSDN]中提到了xttsv2的fine-tune。

数据情况:

我是从bilibili up主小Lin说提取了一些视频,然后进行了重新的fine-tune。

训练结果

如下图所示,上面波形幅度较大的是xttsv2原始模型的结果,第二个是fine-tune了290000 step之后的结果,因为CSDN没法直接放wav文件,上传到CSDN上了,但是不知道怎么变成了VIP资源,如果想要的,可以留言,超过10+人我做个网盘链接供大家下载。

后续计划

  • 后续会训练vits模型以和xttsv2的效果做对比
  • 改进中文编码,只支持中英文以提高效率&性能
  • 增加文本上下文,以合成合适情感、情境的语音
相关推荐
Dovis(誓平步青云)10 分钟前
Cephalon端脑云:神经形态计算+边缘AI·重定义云端算力
图像处理·人工智能·学习·云原生·ai作画·边缘计算·机器翻译
www_pp_21 分钟前
# 利用迁移学习优化食物分类模型:基于ResNet18的实践
人工智能·深度学习·迁移学习
亚马逊云开发者28 分钟前
基于 Amazon Nova 和 TEN 框架的实时音视频交互解决方案
人工智能
听风吹等浪起29 分钟前
改进系列(9):基于VisionTransformer+InceptionDW+Focal_loss改进实现的遥感地面目标识别
人工智能·计算机视觉·目标跟踪
独立开阀者_FwtCoder31 分钟前
Trae + 设计 MCP :实现 UI 到网页自动化
前端·javascript·人工智能
悠悠海风36 分钟前
目标检测中的损失函数(二) | BIoU RIoU α-IoU
人工智能·深度学习·目标检测
闭月之泪舞37 分钟前
《CBOW 词向量转化实战:让自然语言处理 “读懂” 文字背后的含义》
人工智能·自然语言处理·easyui
Anarkh_Lee43 分钟前
Python 项目环境配置与 Vanna 安装避坑指南 (PyCharm + venv)
人工智能·python·pycharm
知舟不叙1 小时前
自然语言处理(NLP)——语言转换
人工智能·自然语言处理
极小狐1 小时前
如何解决极狐GitLab 合并冲突?
人工智能·git·机器学习·gitlab