【AIGC核心技术剖析】AI生成音乐：MAGNeT一种直接操作多个音频令牌流的掩码生成序列建模方法

源代码杀手2024-02-05 13:33

MAGNeT是一种直接操作多个音频令牌流的掩码生成序列建模方法。与先前的工作不同，MAGNeT由一个单阶段、非自回归的变压器组成。在训练期间，论文使用掩码调度器预测从掩码令牌中获得的跨度，而在推断期间，论文通过多个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量，论文引入了一种新颖的重评分方法，其中论文利用外部预训练模型对MAGNeT的预测进行重评分和排名，然后用于后续解码步骤。最后，论文探索了MAGNeT的混合版本，在这个版本中，论文在自回归方式下生成前几秒钟，而序列的其余部分则以并行方式解码。论文展示了MAGNeT在文本到音乐和文本到音频生成任务中的高效性，并进行了广泛的实证评估，考虑了客观指标和人类研究。所提出的方法与评估基线相当，同时速度显著更快（比自回归基线快7倍）。通过消融研究和分析，论文阐明了构成MAGNeT的每个组件的重要性，同时指出了在自回归和非自回归建模之间的权衡，考虑延迟、吞吐量和生成质量。

案例：

项目地址：https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/

源码：https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md