ChatTTS使用中的几个问题和技巧

ChatTTS火出圈了,然而文档语焉不详,尤其在语气、韵律、发音人具体控制方面,经过反复实测和踩坑,终于明白一点,记录如下。

ui界面代码开源地址 github.com/jianchang51...

文本中可用的控制符号

可在原始待合成文本中穿插控制符号,目前可控制的有 笑声、停顿 这2种。

[laugh] 代表笑声

[uv_break] 代表停顿

如下示例文本

scss 复制代码
text="你好啊[uv_break]朋友们,听说今天是个好日子,难道[uv_break]不是吗[laugh]?"

在实际合成中,[laugh] 将被笑声替代,[uv_break] 处将加入停顿。

对于笑声 停顿的强度,可通过参数 params_refine_text中传递 prompt 控制。

laugh_(0-2) 可选值: laugh_0 laugh_1 laugh_2 笑声愈加强烈/或?

break_(0-7) 可选值: break_0 break_1 break_2 break_3 break_4 break_5 break_6 break_7 停顿依次更加明显/或?。

代码

ini 复制代码
chat.infer([text],params_refine_text={"prompt":'[oral_2][laugh_0][break_6]'})
chat.infer([text],params_refine_text={"prompt":'[oral_2][laugh_2][break_4]'})

不过实际测试发现, [break_0] 到 [break_7] 区别不明显,[laugh_0]到[laugh_2]同样无明显差别

跳过 refine text 阶段

实际合成时会重新整理(refine text)插入控制符,比如上方示例文本,最终会被整理为

你 好 啊 [uv_break] 啊 [uv_break] 嗯 [uv_break] 朋 友 们 , 听 说 今 天 是 个 好 日 子 , 难 道 [uv_break] 嗯 [uv_break] 不 是 吗 [laugh] ? [uv_break]

可以看到,控制符同自己标注的并不一致,实际合成效果可能出现不该有的停顿、噪声、笑声等,那么如何强制按照实际去合成呢?

skip_refine_text 参数设为 True,跳过 refine text 阶段即可

chat.infer([text],skip_refine_text=True,params_refine_text={"prompt":'[oral_2][laugh_0][break_6]'})

固定发音人音色

默认每次合成都随机调用不同音色,这点非常不友好,而且也没有音色选择的具体说明。

若要简单固定发音角色,首先需要手动设置一个随机数种子,不同的种子会产生不同的音色

torch.manual_seed(2222)

然后获取一个随机说话人

rand_spk = chat.sample_random_speaker()

再通过 params_infer_code 参数传递

chat.infer([text], use_decoder=True,params_infer_code={'spk_emb': rand_spk})

经测试,2222 7869 6653 是男性音色,3333 4099 5099 是女性角色,更多角色可以自行调整不同的种子数测试。

语速控制

通过 chat.infer的 params_infer_code 参数中设置 prompt可控制语速

chat.infer([text], use_decoder=True,params_infer_code={'spk_emb': rand_spk,'prompt':'[speed_5]'})

速度值未有列明可选范围,源码中默认为 speed_5,但测试speed_0 speed_7 均未发现明显不同

WebUI界面和整合包

开源和下载地址 github.com/jianchang51...

整合包解压后双击 app.exe

源码部署按仓库说明

UI界面预览

相关推荐
sp_fyf_202411 分钟前
【大语言模型】ACL2024论文-35 WAV2GLOSS:从语音生成插值注解文本
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·数据挖掘
AITIME论道11 分钟前
论文解读 | EMNLP2024 一种用于大语言模型版本更新的学习率路径切换训练范式
人工智能·深度学习·学习·机器学习·语言模型
明明真系叻1 小时前
第二十六周机器学习笔记:PINN求正反解求PDE文献阅读——正问题
人工智能·笔记·深度学习·机器学习·1024程序员节
是小崔啊2 小时前
开源轮子 - EasyExcel02(深入实践)
java·开源·excel
88号技师3 小时前
2024年12月一区SCI-加权平均优化算法Weighted average algorithm-附Matlab免费代码
人工智能·算法·matlab·优化算法
IT猿手3 小时前
多目标应用(一):多目标麋鹿优化算法(MOEHO)求解10个工程应用,提供完整MATLAB代码
开发语言·人工智能·算法·机器学习·matlab
88号技师3 小时前
几款性能优秀的差分进化算法DE(SaDE、JADE,SHADE,LSHADE、LSHADE_SPACMA、LSHADE_EpSin)-附Matlab免费代码
开发语言·人工智能·算法·matlab·优化算法
2301_764441333 小时前
基于python语音启动电脑应用程序
人工智能·语音识别
HyperAI超神经3 小时前
未来具身智能的触觉革命!TactEdge传感器让机器人具备精细触觉感知,实现织物缺陷检测、灵巧操作控制
人工智能·深度学习·机器人·触觉传感器·中国地质大学·机器人智能感知·具身触觉
galileo20163 小时前
转化为MarkDown
人工智能