大模型之三十二-语音合成TTS(coqui) 之二 fine-tune

大模型之三十-语音合成TTS(coqui)[shichaog @CSDN]中提到了xttsv2的fine-tune。

数据情况:

我是从bilibili up主小Lin说提取了一些视频,然后进行了重新的fine-tune。

训练结果

如下图所示,上面波形幅度较大的是xttsv2原始模型的结果,第二个是fine-tune了290000 step之后的结果,因为CSDN没法直接放wav文件,上传到CSDN上了,但是不知道怎么变成了VIP资源,如果想要的,可以留言,超过10+人我做个网盘链接供大家下载。

后续计划

  • 后续会训练vits模型以和xttsv2的效果做对比
  • 改进中文编码,只支持中英文以提高效率&性能
  • 增加文本上下文,以合成合适情感、情境的语音
相关推荐
埃菲尔铁塔_CV算法几秒前
双线性插值算法:原理、实现、优化及在图像处理和多领域中的广泛应用与发展趋势(二)
c++·人工智能·算法·机器学习·计算机视觉
程序猿阿伟11 分钟前
《AI赋能鸿蒙Next,打造极致沉浸感游戏》
人工智能·游戏·harmonyos
遇健李的幸运27 分钟前
深入浅出:Agent如何调用工具——从OpenAI Function Call到CrewAI框架
人工智能
天天讯通29 分钟前
AI语音机器人大模型是什么?
人工智能·机器人
说私域36 分钟前
微商关系维系与服务创新:链动2+1模式、AI智能名片与S2B2C商城小程序的应用研究
人工智能·小程序
人机与认知实验室1 小时前
人-AI协同如何重塑未来战争?
人工智能
学技术的大胜嗷1 小时前
小目标检测难点分析和解决策略
人工智能·目标检测·计算机视觉
李加号pluuuus1 小时前
【论文阅读+复现】High-fidelity Person-centric Subject-to-Image Synthesis
论文阅读·人工智能·计算机视觉
XianxinMao1 小时前
o3模型重大突破:引领推理语言模型新纪元,展望2025年AI发展新格局
人工智能·语言模型
martian6652 小时前
深入详解人工智能自然语言处理(NLP)之文本处理:分词、词性标注、命名实体识别
人工智能·自然语言处理