【AIGC核心技术剖析】AI生成音乐:MAGNeT一种直接操作多个音频令牌流的掩码生成序列建模方法

MAGNeT是一种直接操作多个音频令牌流的掩码生成序列建模方法。与先前的工作不同,MAGNeT由一个单阶段、非自回归的变压器组成。在训练期间,论文使用掩码调度器预测从掩码令牌中获得的跨度,而在推断期间,论文通过多个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量,论文引入了一种新颖的重评分方法,其中论文利用外部预训练模型对MAGNeT的预测进行重评分和排名,然后用于后续解码步骤。最后,论文探索了MAGNeT的混合版本,在这个版本中,论文在自回归方式下生成前几秒钟,而序列的其余部分则以并行方式解码。论文展示了MAGNeT在文本到音乐和文本到音频生成任务中的高效性,并进行了广泛的实证评估,考虑了客观指标和人类研究。所提出的方法与评估基线相当,同时速度显著更快(比自回归基线快7倍)。通过消融研究和分析,论文阐明了构成MAGNeT的每个组件的重要性,同时指出了在自回归和非自回归建模之间的权衡,考虑延迟、吞吐量和生成质量。

案例:

项目地址:https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/

源码:https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

相关推荐
songyuc8 小时前
【S2ANet】Align Deep Features for Oriented Object Detection 译读笔记
人工智能·笔记·目标检测
asdfg12589638 小时前
DETR:新一代目标检测范式综述
人工智能·目标检测·目标跟踪
doubao369 小时前
如何有效降低AIGC生成内容被识别的概率?
人工智能·深度学习·自然语言处理·aigc·ai写作
SEO_juper10 小时前
AEO终极指南:步步为营,提升内容的AI可见性
人工智能·ai·seo·数字营销·aeo
机器之心12 小时前
李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器
人工智能·openai
机器之心12 小时前
豆包编程模型来了,我们用四个关卡考了考它!
人工智能·openai
阿里云大数据AI技术12 小时前
让 ETL 更懂语义:DataWorks 支持数据集成 AI 辅助处理能力
人工智能·阿里云·dataworks·ai辅助
hoiii18712 小时前
基于交替方向乘子法(ADMM)的RPCA MATLAB实现
人工智能·算法·matlab
墨风如雪13 小时前
Meta ASR新篇章:当AI学会了全世界的语言
aigc
艾思软件-app开发公司13 小时前
多平台视频下载工具的实现原理与技术实践, 免费下载视频下载工具
音视频·视频·视频下载·视频下载工具