使用 F5 TTS 文字转音频

F5 TTS 支持 ZeroShot 音频克隆,只有将需要音频传给模型,模型既可以生成以对应声音生成的音频,F5 最强大的地方就是可以使用定制的人声。F5 使用了 DIT 架构进行训练,结构如下:

本地使用 F5 TTS

F5 使用很简单,本地进行安装,我使用 ModelScope 的镜像,免去了一些环境的配置与安装。通过命令行生成音频,这里使用了默认的系统的人声,如果需要使用定制人声添加两个参数即可 --ref_audio "ref_audio.wav" \ --ref_text "The content, subtitle or transcription of reference audio." \, ref_text 不是必须的。

## 安装 F5
pip install git+https://github.com/SWivid/F5-TTS.git

## 运行
f5-tts_infer-cli --model "F5-TTS"   --gen_text "新疆阿尔金山作为中国四大无人区之一,平均海拔四千五百八十米,那里人烟稀少,却有一群维护着格库铁路通信畅通的年轻通信工。二十四岁的辛晓雨常年工作在浩渺无垠的戈壁上,用认真负责 的态度悉心维护着通信基站的设施设备,保障着铁路安全运行。"

总结

F5 TTS 效果还不错,可以使用定制的人声,不需要进行训练,中文无法识别数字,可以先通过LLM 进行转换将数字转为中文。

相关推荐
刘悦的技术博客1 个月前
MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音
ai·tts·python3.11
算家云2 个月前
GPT-SOVIT模型部署指南
人工智能·大模型·算力·tts·文本转语音·语音转换·音频生成
七哥的AI日常3 个月前
探索前沿科技:在本地系统上安装和使用Style TTS2进行高质量语音合成
tts
伊织code3 个月前
AudioNotes -将音频内容转 markdown
音频·markdown·提取·qwen·tts·funasr·audionotes
代码讲故事3 个月前
AI文本转语音:Toucan TTS 支持 7000 多种语言的语音合成工具箱,突破性 OCR 技术:支持多种语言识别,媲美顶级云服务
人工智能·ocr·语音识别·语音合成·tts·文本转语音·语种
MavenTalk3 个月前
数字人的形象克隆与语音克隆是伪需求
人工智能·语音识别·tts·语音克隆·形象克隆·头像驱动
winfredzhang3 个月前
构建具有音频功能的中英翻译器:一个Python应用程序的旅程
数据库·python·tts·翻译
伊织code4 个月前
GPT-SoVITS - few shot 声音克隆
gpt·tts·克隆·语音·clone·gpt-sovits·音色
NLP工程化4 个月前
Dify中语音和文字间转换问题的一种暂时注释方式
tts·asr·dify