技术栈
零样本语音克隆
九章云极AladdinEdu
5 小时前
大语言模型
·
语音合成
·
零样本语音克隆
·
spark-tts
·
bicodec
·
属性控制
·
voxbox数据集
论文分享 |Spark-TTS:用解耦语音令牌实现高效可控的语音合成
Spark-TTS 是一项基于大语言模型的高效文本转语音系统,其核心创新在于提出了 BiCodec——一种将语音信号分解为语义令牌和全局令牌的单流语音编码器。这种解耦结构使得模型在保持高压缩率的同时,实现了对语音属性(如音高、语速、性别)的精细控制。结合预训练LLM(Qwen2.5)和思维链推理机制,Spark-TTS 不仅支持零样本语音克隆,还能根据属性标签生成全新语音,突破了传统TTS系统依赖参考音频的限制。
政安晨
1 年前
人工智能
·
python
·
fish-speech
·
fishaudio
·
tts解决方案
·
零样本语音克隆
·
中日英三语声音模型
政安晨【零基础玩转各类开源AI项目】基于本地Ubuntu系统部署及应用Fish Audio团队的Fish Speech框架:超短语音样本克隆工具
目录简介编辑部署下载项目创建环境下载模型启动服务政安晨的个人主页:政安晨欢迎 👍点赞✍评论⭐收藏希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正!
我是有底线的