技术栈

文本转音频

人工智能研究所
5 个月前
人工智能·文本转语音·文本转音频
MaskGCT——开源文本转语音模型,可模仿任何人说话声音前期介绍过很多语音合成的模型,比如ChatTTS,微软语音合成大模型,字节跳动自家发布的语音合成模型Seed-TTS。其模型随着技术的不断发展,模型说话的声音也越来越像人类,虽然 seed-tts 可以进行语音合成等功能,但是其模型并没有开源,本期介绍的MaskGCT文本转语音模型是一个开源的模型,不仅可以生成语音,还可以模仿任何人说话的声音,且可以进行语气的转换。
obullxl
5 个月前
人工智能·ai·pipeline·transformers·文本转音频
Transformers 框架 Pipeline 任务详解:文本转音频(text-to-audio 或 text-to-speech)在上一篇文章(Transformers 框架任务概览:从零开始掌握 Pipeline(管道)与 Task(任务)),我们深入探讨了 Transformers 框架中的 Pipeline 和 Task 分类、配置及执行流程。今天,我们将聚焦于五大任务之一的text-to-audio或text-to-speech(TTS),探索如何利用 Transformers 将文本转换为自然流畅的语音。