使用 F5 TTS 文字转音频

F5 TTS 支持 ZeroShot 音频克隆,只有将需要音频传给模型,模型既可以生成以对应声音生成的音频,F5 最强大的地方就是可以使用定制的人声。F5 使用了 DIT 架构进行训练,结构如下:

本地使用 F5 TTS

F5 使用很简单,本地进行安装,我使用 ModelScope 的镜像,免去了一些环境的配置与安装。通过命令行生成音频,这里使用了默认的系统的人声,如果需要使用定制人声添加两个参数即可 --ref_audio "ref_audio.wav" \ --ref_text "The content, subtitle or transcription of reference audio." \, ref_text 不是必须的。

复制代码
## 安装 F5
pip install git+https://github.com/SWivid/F5-TTS.git

## 运行
f5-tts_infer-cli --model "F5-TTS"   --gen_text "新疆阿尔金山作为中国四大无人区之一,平均海拔四千五百八十米,那里人烟稀少,却有一群维护着格库铁路通信畅通的年轻通信工。二十四岁的辛晓雨常年工作在浩渺无垠的戈壁上,用认真负责 的态度悉心维护着通信基站的设施设备,保障着铁路安全运行。"

总结

F5 TTS 效果还不错,可以使用定制的人声,不需要进行训练,中文无法识别数字,可以先通过LLM 进行转换将数字转为中文。

相关推荐
花千树-0101 天前
基于 IndexTTS2 的数字人语音生成 Pipeline 设计
人工智能·aigc·ai编程·tts
花千树-0103 天前
IndexTTS2 推理性能分析
人工智能·深度学习·ai·语音识别·tts
七夜zippoe5 天前
OpenClaw TTS 语音合成详解:让 AI 助手开口说话
人工智能·ai·语音合成·tts·openclaw
aosky8 天前
OmniVoice:支持 600+ 语言的零样本语音克隆 TTS 系统
人工智能·tts
桑榆肖物11 天前
有字幕,没配音?用浏览器自带语音能力,让网页视频直接“开口说话”
数据库·edge·音视频·tts
贾宝玉的玉宝贾13 天前
FreeSWITCH 简单图形化界面59 - 拨号应用speak,使用纯CPU的kokoro-tts播放文字
voip·freeswitch·tts·ippbx·pbx·sip通信·kokoro
带娃的IT创业者17 天前
WeClaw-TTS 语音合成实战:pyttsx3 本地引擎与 Edge-TTS 云服务的混合架构.md
前端·tts·ai智能体·openclaw·weclaw
带娃的IT创业者21 天前
TTS静默之谜:pyttsx3 全局缓存陷阱与qasync环境四轮诊断实战
缓存·tts·异步编程·pyttsx3·qasync·windows sapi5·com 线程模型
莽夫搞战术1 个月前
【MOSS-TTS】一款适用于实际应用的TTS基础模型
语音合成·tts·moss
云蝠呼叫大模型联络中心2 个月前
深度解析|云蝠智能大模型呼叫系统架构:神鹤双擎 + 暴风引擎,低延迟高并发解锁呼叫中心降本增效新路径
系统架构·tts·asr·外呼系统·ai外呼·大模型呼叫·voiceagent