AudioLM音频生成模型是由谷歌研究人员开发的一种人工智能系统,它具备从几秒钟的音频提示中生成听起来相似风格的音频的能力,包括钢琴音乐。以下是对AudioLM音频生成模型的详细介绍:
-
模型特点:
- 纯音频模型:AudioLM是一个纯音频模型,它在没有任何文本或音乐符号表示的情况下进行训练。
- 高度相似性:生成的声音听起来与原始音频的音色几乎没有区别,能够模仿音频的音高、音色、强度和清晰度,以及背景噪音和说话者的呼吸节奏。
- 多种应用:适用于语音续写、钢琴曲学写、speaker转换等多种任务。
-
模型结构和工作原理:
- 映射到离散标记:AudioLM将输入音频映射到一系列离散的标记,并将音频生成视为在这个表示空间中的语言建模任务。
- 语义和声学token的分层建模:模型使用两个前处理模块将音频处理成semantic tokens(w2v-bert)以及acoustic tokens(soundstream前部分模块)。
- 三个核心模块 :
- Semantic modeling:用于将语义信息进一步生成,生成新的语义,可以理解成续写的内容。
- Coarse acoustic modeling:用于语音信息的生成,其输入结合了前面生成的语义信息,生成新的语音信息。
- Fine acoustic modeling:将语音信息进一步精修,生成新的语音信息。
- 解码:精修的语音信息和精修之前的语音信息合在一起进行decoder,解码为wav。
-
训练和数据:
- 大型语料库:AudioLM通过在大型原始音频波形语料库上进行训练,学习在给定短提示时生成自然且连贯的延续。
- 无监督学习:在没有任何抄本或注释的情况下,AudioLM生成了语法和语义合理的语音延续,同时还保持了未见过的说话者的说话者身份和韵律。
-
潜在应用:
- 音乐生成:AudioLM可以学习生成连贯的钢琴音乐,其旋律、和声、音调和节奏都与提示一致。
- 视频配音:谷歌称AudioLM可以加快音频生成的人工智能训练过程,并最终自动生成音乐为视频配音。
-
风险与防御:
- 为了防御生成语音带来的潜在风险,还提出了一个分类器,用于识别合成音频和真实音频。
综上所述,AudioLM音频生成模型是一种高效、纯音频的模型,它能够在无文本标注的情况下,根据输入的音频提示生成高质量、相似风格的音频内容,具有广泛的应用前景。