语言模型 F5-E2 TTS:音色 & 情绪一键克隆,轻松实现多角色对话

F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统,它基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术。 F5-TTS 的主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT)、ConvNeXt V2 文本表示改进、Sway Sampling 策略以及端到端的系统设计。

E2 TTS,全称为「Embarrassingly Easy Text-to-Speech」,是一种先进的文本转语音 (TTS) 系统,它通过简化的流程实现了人类水平的自然度和说话人相似性。E2 TTS 的核心在于它完全非自回归的特性,这意味着它可以一次性生成整个语音序列,而不需要逐步生成,从而显著提高了生成速度并保持了高质量的语音输出。

教程链接:https://go.openbayes.com/bRbIs

使用云平台:OpenBayes

http://openbayes.com/console/signup?r=sony_0m6v

登录 OpenBayes.com,在「公共教程」页面,选择「F5-E2 TTS 只需 3 秒克隆任何音色」教程。

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

页面跳转后,选择「NVIDIA RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。可以使用文章开头的邀请链接,获得 RTX 4090 使用时长!

稍等片刻,待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。

  1. 单人语音生成 (Batched TTS )

选择「TTS」,在「Reference Audio」处上传需要克隆的音频(例如:甄嬛的音频),在「Text to Generate」中输入文本提示词( F5-TTS 的主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。)点击「Synthesize」提交。在「Advanced Settings」下可设置高级参数:

  • Reference Text:参考文本,留空以自动转录参考音频。如果您输入文本,它将覆盖自动转录。

  • Remove Silences:移除静音,该模型往往会产生静音,尤其是在较长的音频上。如果需要,我们可以手动删除静音。请注意,这是一个实验性功能,可能会产生奇怪的结果并且增加生成时间。

  • Custom Split Words:断句符号,输入要分割的自定义单词,以逗号分隔。留空以使用默认列表。

  • Speed:速度,控制生成的语速。

2. 多人语音生成 (Podcast Generation)

该功能可以通过克隆音频,实现双人对话。选择「Podcast Generation」,在「Speaker 1 Name」输入第一个人的名称 (huan),在「Reference Text (Speaker 1)」输入第一个人的音频;在「Speaker 2 Name」输入第二个人的名称 (hua),在「Reference Text (Speaker 2)」输入第二个人的音频。在「Podcast Script」中按照格式输入对话文本(hua:你今天吃的什么?huan:我今天吃的鱼香肉丝和米饭。)然后选择模型 F5-TTS 或 E2-TTS。最后点击「Generate Podcast」生成。

  1. 多种语音类型生成 (Multiple Speech-Type Generation)

这个功能可以使用模型模拟情绪,根据不同的情绪进行音频生成。选择「Multiple Speech-Type Generation」后,点击「Add Speech Type」添加不同语气类型和音频(例如 Regular 和 Angry),在「Text to Generate」中按照要求的格式输入生成文本 (Angry:You know what, darn you and your little shop, you suck!) 然后选择模型 F5-TTS 或 E2-TTS。最后点击「Generate Emotional Speech」生成。

相关推荐
l1t1 天前
利用DeepSeek辅助改写luadbi-duckdb支持日期和时间戳数据类型
c语言·数据库·人工智能·junit·lua·duckdb·deepseek
rengang661 天前
512-Spring AI Alibaba 字段分类分级 Graph 示例
人工智能·spring·分类·spring ai·ai应用编程
时序大模型1 天前
KDD2025 |DUET:时间 - 通道双聚类框架,多变量时序预测的 “全能选手”出现!
人工智能·机器学习·时间序列预测·时间序列·kdd2025
共绩算力1 天前
Ming Lite 万能模型对标 GPT-4o 的多模态能力
人工智能·共绩算力
猫先生Mr.Mao1 天前
2025年8月AGI月评|AI开源项目全解析:从智能体到3D世界,技术边界再突破
人工智能·开源·aigc·agi·ai资讯·分布式推理框架
深入理解GEE云计算1 天前
遥感生态指数(RSEI):理论发展、方法论争与实践进展
javascript·人工智能·算法·机器学习
IT_陈寒1 天前
从2秒到200ms:我是如何用JavaScript优化页面加载速度的🚀
前端·人工智能·后端
深度学习lover1 天前
<项目代码>yolo织物缺陷识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·织物缺陷识别·项目代码
StarPrayers.1 天前
Binary Classification& sigmoid 函数的逻辑回归&Decision Boundary
人工智能·分类·数据挖掘
渡我白衣1 天前
C++:链接的两难 —— ODR中的强与弱符号机制
开发语言·c++·人工智能·深度学习·网络协议·算法·机器学习