ai 声音克隆 - ai 声音克隆技术,学习,经验文章

小白狮ww

2 年前

语言模型 F5-E2 TTS：音色 & 情绪一键克隆，轻松实现多角色对话F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院（宁波）有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统，它基于流匹配的非自回归生成方法，结合了扩散变换器 (DiT) 技术。 F5-TTS 的主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT)、ConvNeXt V2 文本表示改进、Sway Sampling 策略以及端到端的系统设计。