【AIGC核心技术剖析】AI生成音乐:MAGNeT一种直接操作多个音频令牌流的掩码生成序列建模方法

MAGNeT是一种直接操作多个音频令牌流的掩码生成序列建模方法。与先前的工作不同,MAGNeT由一个单阶段、非自回归的变压器组成。在训练期间,论文使用掩码调度器预测从掩码令牌中获得的跨度,而在推断期间,论文通过多个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量,论文引入了一种新颖的重评分方法,其中论文利用外部预训练模型对MAGNeT的预测进行重评分和排名,然后用于后续解码步骤。最后,论文探索了MAGNeT的混合版本,在这个版本中,论文在自回归方式下生成前几秒钟,而序列的其余部分则以并行方式解码。论文展示了MAGNeT在文本到音乐和文本到音频生成任务中的高效性,并进行了广泛的实证评估,考虑了客观指标和人类研究。所提出的方法与评估基线相当,同时速度显著更快(比自回归基线快7倍)。通过消融研究和分析,论文阐明了构成MAGNeT的每个组件的重要性,同时指出了在自回归和非自回归建模之间的权衡,考虑延迟、吞吐量和生成质量。

案例:

项目地址:https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/

源码:https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

相关推荐
Coovally AI模型快速验证4 分钟前
YOLO11全解析:从原理到实战,全流程体验下一代目标检测
人工智能·yolo·目标检测·机器学习·计算机视觉·目标跟踪·yolo11
来吧~26 分钟前
vue3使用video-player实现视频播放(可拖动视频窗口、调整大小)
前端·vue.js·音视频
Bubluu27 分钟前
浏览器点击视频裁剪当前帧,然后粘贴到页面
开发语言·javascript·音视频
深圳启明云端科技28 分钟前
ESP-IDF HTTP POST请求发送音频-ESP32物联网方案
物联网·http·音视频
从后端到QT30 分钟前
音视频采集推流时间戳记录方案
ffmpeg·音视频
湫ccc37 分钟前
《Opencv》基础操作详解(2)
人工智能·opencv·计算机视觉
羑悻的小杀马特38 分钟前
【AIGC篇】畅谈游戏开发设计中AIGC所发挥的不可或缺的作用
c++·人工智能·aigc·游戏开发
CES_Asia1 小时前
国资助力科技创新,闪耀CES Asia 2025
人工智能·科技·智能手机·智能音箱·智能电视
eric-sjq1 小时前
基于xiaothink对Wanyv-50M模型进行c-eval评估
人工智能·python·语言模型·自然语言处理·github
是十一月末1 小时前
机器学习之KNN算法预测数据和数据可视化
人工智能·python·算法·机器学习·信息可视化