【AIGC核心技术剖析】AI生成音乐:MAGNeT一种直接操作多个音频令牌流的掩码生成序列建模方法

MAGNeT是一种直接操作多个音频令牌流的掩码生成序列建模方法。与先前的工作不同,MAGNeT由一个单阶段、非自回归的变压器组成。在训练期间,论文使用掩码调度器预测从掩码令牌中获得的跨度,而在推断期间,论文通过多个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量,论文引入了一种新颖的重评分方法,其中论文利用外部预训练模型对MAGNeT的预测进行重评分和排名,然后用于后续解码步骤。最后,论文探索了MAGNeT的混合版本,在这个版本中,论文在自回归方式下生成前几秒钟,而序列的其余部分则以并行方式解码。论文展示了MAGNeT在文本到音乐和文本到音频生成任务中的高效性,并进行了广泛的实证评估,考虑了客观指标和人类研究。所提出的方法与评估基线相当,同时速度显著更快(比自回归基线快7倍)。通过消融研究和分析,论文阐明了构成MAGNeT的每个组件的重要性,同时指出了在自回归和非自回归建模之间的权衡,考虑延迟、吞吐量和生成质量。

案例:

项目地址:https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/

源码:https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

相关推荐
蒋星熠2 小时前
Spring Boot 3.x 微服务架构实战指南
人工智能·spring boot·微服务·性能优化·架构·云计算·量子计算
地平线开发者2 小时前
理想汽车智驾方案介绍专题 3 MoE+Sparse Attention 高效结构解析
人工智能·算法·自动驾驶
lypzcgf3 小时前
Coze源码分析-工作空间-项目开发-前端源码
前端·人工智能·typescript·系统架构·开源软件·react·安全架构
飞哥数智坊5 小时前
实测阿里 Qoder,但我还是失望了
人工智能·ai编程
飞凌嵌入式5 小时前
当门禁系统遇上边缘计算,RK3568核心板如何带来智能化变革
人工智能·嵌入式硬件·嵌入式·边缘计算·飞凌嵌入式
霍格沃兹软件测试开发6 小时前
Dify平台:Agent开发初学者指南
大数据·人工智能·深度学习
墨风如雪7 小时前
单GPU秒产一分钟!MAI-Voice-1,微软语音AI的“核爆”时刻?
aigc
IAM四十二7 小时前
基于 Embedding 的本地图像搜索
人工智能·llm·openai
说私域7 小时前
数字经济时代企业营销转型:基于定制开发开源AI智能名片S2B2C商城小程序的探索
人工智能·小程序