技术栈
零样本tts
weixin_42160755
5 小时前
ai配音
·
语音大模型
·
短剧出海
·
零样本tts
·
非自回归语音合成
·
掩码生成模型
·
跨语种声音克隆
从自回归到掩码生成:拆解零样本 TTS 在长视频配音场景下的技术路径
做过短剧出海或者影视译配的工程师大概都遇到过这样一个场景:拿一段十分钟的中文剧情,翻译成英文之后用一个看起来效果不错的 TTS 模型合成配音,前两分钟听起来非常自然,到第五分钟某个角色的音色开始出现轻微的漂移,到第八分钟某句台词干脆出现了重复词或者吞字。
我是有底线的