技术栈

跨语种声音克隆

weixin_42160755
5 小时前
ai配音·语音大模型·短剧出海·零样本tts·非自回归语音合成·掩码生成模型·跨语种声音克隆
从自回归到掩码生成:拆解零样本 TTS 在长视频配音场景下的技术路径做过短剧出海或者影视译配的工程师大概都遇到过这样一个场景:拿一段十分钟的中文剧情,翻译成英文之后用一个看起来效果不错的 TTS 模型合成配音,前两分钟听起来非常自然,到第五分钟某个角色的音色开始出现轻微的漂移,到第八分钟某句台词干脆出现了重复词或者吞字。
我是有底线的