AudioX\-Turbo:面向通用音频生成的高效多模态统一框架

AudioX-Turbo:面向通用音频生成的高效多模态统一框架

作者 :田泽越、柯磊、刘昭洋、袁瑞彬、薛刘梦、杨巨九、陈伟嘉、谭旭、陈启峰、薛巍、郭毅可

单位 :香港科技大学、清华大学、Noiz AI、独立研究者

(* 同等贡献;† 通讯作者)

摘要

依托灵活多模态控制信号的音频与音乐生成技术具备广泛应用价值,但该领域目前存在三大核心难题:1)缺乏通用的多模态建模框架;2)缺少大规模高质量训练数据;3)多步扩散采样带来极高的推理成本 。针对以上问题,本文提出 AudioX-Turbo ------ 一套可实现任意输入转音频的统一高效生成框架,支持文本、视频、音频等多种模态作为控制条件。

本框架采用师生模型架构 :教师模型 AudioX-Base 基于多模态扩散变换器 搭建,并搭配多模态自适应融合模块 ,实现不同多模态输入的特征对齐,保障高保真音频合成效果。随后本文结合适配流匹配的分布匹配蒸馏算法,将教师模型蒸馏为仅需少量采样步的学生模型 AudioX-Turbo;同时引入基于扩散的判别器,进一步提升少步生成的音质表现。

为支撑模型训练,团队搭建了IF-caps-Pro 大规模高质量数据集。该数据集通过两阶段数据采集与标注流程构建,总计包含约 920 万条样本。本文在多项主流基准测试集上开展全面实验,结果表明:AudioX-Turbo 在文本转音频、文本转音乐等任务中均取得顶尖性能;模型仅需4 步采样 即可完成生成,相比传统多步基线模型,函数评估次数最多可减少约 25 倍。实验证明,该框架不仅能基于各类多模态指令完成音频生成,同时具备出色的指令跟随能力与推理效率。

关键词:音频生成;扩散模型;高效推理


一、引言

近年来,音效与音乐生成技术成为多媒体内容创作的核心分支,在社交媒体、影视制作、电子游戏等场景中发挥重要作用,能够强化内容感染力、提升观众沉浸感。高质量音频创作不仅丰富了多媒体内容形态,也拓展了创意表达的边界。

但传统人工音频制作耗时费力,且对专业技能要求极高,因此音频生成自动化成为重要研究方向。现有相关研究虽取得一定进展,但仍存在明显局限:当前主流模型大多为单任务专用模型,输入、输出模态受限,仅支持文本转音频、视频转音频等单一条件生成,且往往只能单独制作音效或音乐。

尽管业内已出现部分支持多输入的统一模型,但这类模型普遍存在模态组合灵活性不足、指令跟随能力薄弱 的问题。造成该现状的首要原因是高质量多模态训练数据稀缺:现有数据集大多面向单一任务设计,仅适配某一种控制模态,难以支撑通用模型训练。

除模型结构与数据瓶颈外,推理效率低下 也是易被忽视的痛点。当前顶尖音频生成模型普遍基于扩散模型或流匹配技术,求解常微分方程需要数十至上百次连续函数运算,采样成本高、推理延迟大,无法适配交互式内容创作、实时视频配音等低延迟场景。图像领域的分步蒸馏技术已大幅提升生成速度,但该方案在多模态条件音频生成中的应用仍处于空白阶段。此外,激进的少步采样策略,还容易破坏跨模态对齐效果与指令跟随能力,而这两点正是可控音频生成的核心。

基于上述背景,本文提出 AudioX-Turbo ------ 面向任意输入转音频的统一高效生成框架。研究思路如下:

  1. 先训练多步多模态教师模型 AudioX-Base,实现高保真音频合成;再将其蒸馏为轻量少步学生模型 AudioX-Turbo,二者共享变换器主干网络。本文选用多模态扩散变换器(MMDiT) 作为基础架构,在统一多模态控制信号的同时,保留音频高保真生成能力。

  2. 新增轻量化多模态自适应融合模块,对不同模态特征进行权重调节与对齐,削弱模态间干扰,进一步提升音频质量与跨模态控制效果。

  3. 针对少步高效推理,将分布匹配蒸馏适配至流匹配范式,并搭配扩散判别器。该方案可在大幅提速的同时,保障激进少步采样下的跨模态对齐效果,让学生模型在推理提速的前提下,生成音质比肩教师模型。

  4. 为解决数据短缺问题,设计两阶段数据构建流程:第一阶段采集大规模视频 - 音频、视频 - 音乐原始数据;第二阶段依托 Gemini 2.5 Pro 与 Qwen2-Audio 串联模型,完成细粒度多模态标注。最终构建出 IF-caps-Pro 数据集,包含约 130 万条通用音频样本与 790 万条音乐样本,为通用型 "任意输入转音频" 模型提供充足训练数据。

依托大规模数据集与统一架构,本模型展现出优异的综合性能与指令跟随能力。为此,本文还专门构建了 T2A-bench 基准集,用于量化评估文本转音频任务的指令跟随效果。大量实验证明:AudioX-Turbo 在各类任务与基准测试中达到或超越当前顶尖模型;仅 4 步采样即可实现与多步教师模型持平的音质,函数评估次数最多缩减 25 倍。

同时本文还发现一个有趣现象:统一训练会带来跨模态正则化效应------ 优化文本监督信息的质量与细粒度,能够提升整体模态对齐效果,进而同步增强所有控制模态下的模型性能,该结论也为后续多模态音频生成研究提供了实践参考。

本文主要创新点总结如下:

  1. 提出 AudioX-Turbo 统一框架,支持文本、视频、音频等多类输入,可同时完成音效与音乐生成,打破传统专用模型的输入输出限制;结合适配流匹配的分布匹配蒸馏技术,实现高效少步推理,为通用型音频生成模型的工程落地提供可行方案。

  2. 设计两阶段数据采集与标注流程,整合多类视频 - 音频、视频 - 音乐数据源,规模化生成细粒度多模态标注,构建总计 920 万样本的 IF-caps-Pro 数据集,填补了通用多模态音频生成的训练数据缺口。

  3. 在海量任务与主流基准集上开展系统性对比实验。结果证实,AudioX-Turbo 具备强大的多任务能力与顶尖的指令跟随能力;仅 4 步采样即可媲美多步教师模型,推理成本大幅降低。


二、相关研究

2.1 音频与音乐生成

深度生成模型极大推动了音频、音乐合成技术的发展,但现有方法大多仅支持单一模态或有限的控制条件:文本转音频模型专注于根据文本描述生成各类环境音;文本转音乐模型擅长创作结构完整的乐曲;视频转音频模型主要生成与画面同步的现场音效,部分模型会结合文本补充语义信息;视频转音乐则侧重为画面搭配适配曲风的配乐,强化影视叙事感。

现有框架功能单一,跨任务迁移与泛化能力较弱。与之不同,本文提出的统一框架可在同一套模型内,基于文本、视频、音频等各类输入,完成音效与音乐的全品类生成。

2.2 音频数据集

目前业内已针对文本转音频、文本转音乐、视频转音频等细分任务构建了专用数据集,但通用型统一模型的配套数据集仍十分匮乏。现有数据大多局限于单一控制模态与单一输出类型(仅音效或仅音乐),制约了通用音频生成模型的发展。本文构建的大规模多模态数据集,专门为统一音频、音乐生成任务设计,补充了该领域的数据短板。

2.3 扩散模型

去噪扩散模型是当前生成建模的主流技术,在图像、视频、音频合成领域均取得顶尖效果。但现有音频领域的扩散模型多聚焦于文本转音频等单一条件任务,无法适配 "任意输入转音频" 的通用场景。本文将扩散模型拓展至多条件生成场景,搭建更灵活、通用的技术范式。

2.4 扩散模型加速

分步蒸馏是降低扩散模型采样成本的主流方案。现有技术路线分为两类:一类是轨迹保留法 (渐进式蒸馏、一致性蒸馏、整流流等),用更少步数复刻教师模型的生成轨迹;另一类是分布匹配法(分布匹配蒸馏 DMD),放宽轨迹约束,直接对齐师生模型的输出分布,在少步生成场景下音质表现更优。

上述加速技术在图像领域已十分成熟,但在多模态音频生成中鲜有应用。本文将分布匹配思想结合流匹配技术,实现音频生成模型的高效蒸馏。


三、数据集构建

训练通用型 "任意输入转音频" 模型主要存在两大数据难题:其一,视频 - 音频公开数据集较为丰富,但大规模、高质量的视频 - 音乐数据集稀缺 ,现有数据存在体量小、曲风单一、质量参差不齐等问题;其二,即便拥有原始配对数据,也缺少支撑通用模型训练的细粒度多模态标注信息

针对以上问题,本文设计两阶段数据构建流程,打造 IF-caps-Pro 数据集。

3.1 第一阶段:原始数据采集

  • 视频 - 音频数据:直接采用业内主流公开数据集 VGGSound 与 AudioSet-Strong,两类数据经过严格筛选,包含可靠的事件类别标签,可为后续大模型标注提供基础关键词。

  • 视频 - 音乐数据 :自主构建 V2M-500K 数据集。通过关键词检索 YouTube、IMDb 平台中画面与音乐高度绑定的视频(影视预告、广告、纪录片、日常短视频等),再经过两轮过滤:粗筛剔除音画损坏、时长异常、内容无关的视频;细筛借助预训练音频分类器与画质评估模型,保留音乐内容饱满、画面动态性强的片段;最后通过人声 / 环境音分离技术,提取纯净音乐轨道,最终得到高质量视频 - 音乐配对数据。

3.2 第二阶段:多模态标注流程

原始配对数据缺少丰富的文本描述,因此本文搭建双模型串联标注流水线,为每一段 10 秒音视频片段生成全局描述与结构化标签:

  1. 主标注:使用 Gemini 2.5 Pro 多模态大模型,生成全局描述文本,同时输出结构化字段(通用音频:事件类别、数量;音乐:曲风、乐器、节奏等)。

  2. 数据增广:由于 Gemini 推理成本较高,依托开源模型 Qwen2-Audio,结合原始标注与原始音频生成多样化描述文本,在控制成本的同时提升数据多样性。

最终产出约130 万条视频 - 文本 - 音频三元组790 万条视频 - 文本 - 音乐三元组。数据集涵盖海量音效、音乐类型与乐器,标注内容丰富多样,可支撑多任务统一模型训练。


四、通用 "任意输入转音频" 预训练框架

4.1 模型整体结构

模型主干为多模态扩散变换器(MMDiT),整体流程如下:

  1. 视频、文本、音频三类输入分别经过专属编码器提取特征;针对视频与音频的时序特性,额外使用时序变换器建模动态信息。

  2. 各类模态特征通过投影层,得到模态专属嵌入特征。

  3. 引入轻量化多模态自适应融合模块(MAF) 完成特征融合:该模块通过门控机制过滤噪声、重加权有效特征;再通过可学习查询向量与交叉注意力机制聚合多模态信息;最后借助自注意力整合全局上下文,输出校准后的多模态融合嵌入特征。

  4. 融合特征结合连续时间步,输入 MMDiT 主干网络,引导音频生成。

MAF 模块是解决多模态特征相互干扰的核心设计,能够有效提升多模态任务的生成质量与指令跟随能力。

4.2 模型训练

预训练阶段目标是基于流匹配框架,训练多模态教师模型 AudioX-Base,实现多条件下的高保真音频 / 音乐生成。

  • 数据补全:若样本缺少某类模态输入,使用零填充处理;若无文本输入,则补充通用描述语句(如 "为该视频生成配乐")。针对音频补全、音乐续写任务,保留原始音频片段作为条件输入。

  • 流匹配机制:将真实音频通过编码器映射至隐空间,定义噪声分布与数据分布之间的连续时间常微分方程(ODE),构建线性插值路径。模型学习预测路径对应的速度向量场,通过最小化预测值与真实向量场的均方误差完成训练。该机制可将各类多模态输入统一至隐空间,保障生成音频与控制条件高度契合。


五、分步蒸馏加速

本文通过模型蒸馏 ,将多步教师模型压缩为仅 4 步推理的学生模型 AudioX-Turbo,在保留音质的同时大幅降低推理开销。整体方案结合分布匹配蒸馏(DMD)基于扩散的判别器

5.1 适配流匹配的分布匹配蒸馏

分布匹配蒸馏的核心目标:最小化学生模型输出分布与真实数据分布之间的 KL 散度。

  1. 模型推理时,学生模型从高斯噪声出发,按照 "去噪 - 重加噪" 逻辑逐步推演,在指定时间步完成去噪并输出预测结果。

  2. 由于无法直接求解学生分布的分数函数,本文引入辅助伪模型拟合学生输出分布,而冻结的教师模型提供真实数据分布的分数。

  3. 结合流匹配的数学特性,对损失函数进行推导适配,最终通过教师模型与伪模型的向量场差异构建损失,引导学生模型学习。

  4. 伪模型单独训练,持续追踪学生模型的输出分布变化;教师模型全程冻结,仅作为参考标准。

5.2 基于扩散的判别器

分布匹配损失可实现全局分布对齐,但难以捕捉音频高频细节与听觉质感。为此本文新增对抗训练目标

  1. 复用冻结教师模型的前若干层变换器模块作为特征提取骨干,仅训练轻量化判别器头部,避免从零训练判别器带来的巨额成本。

  2. 不在纯净输出上做判别,而是对添加轻微噪声的隐向量进行真伪分类,防止判别器过拟合细微噪声,输出更有效的梯度信号。

  3. 采用铰链对抗损失训练判别器,学生模型(生成器)以欺骗判别器为目标,进一步提升音频的听觉真实感。

最终学生模型的总损失为分布匹配损失 + 对抗损失,平衡分布对齐与听觉质感。

5.3 蒸馏训练细节

  1. 学生模型与伪模型均使用训练完成的教师模型权重初始化;将连续 ODE 轨迹压缩为4 步离散采样

  2. 推理阶段将无分类器引导(CFG) 内置至学生模型,消除推理时的二次前向计算开销。

  3. 采用非对称更新策略:伪模型每更新 1 次,学生模型更新 5 次,避免伪模型过快过拟合。


六、实验

6.1 实验配置

  1. 编码器:视频特征使用 CLIP-ViT-B/32 + Synchformer 提取;文本使用 T5-base;音频采用专用音频自编码器。

  2. 模型规模:总参数量 27 亿,其中可训练参数 24 亿,MAF 模块仅 6000 万参数(轻量化);MMDiT 共 24 层,从零开始训练。

  3. 训练硬件:三集群 NVIDIA H800 80GB 显卡,总批次大小 240,训练约 10 万步;优化器选用 AdamW。

  4. 蒸馏配置:对抗损失权重设为 1,判别器复用教师模型前 6 层结构;采用逆学习率调度,并持续维护模型权重的指数移动平均值(EMA)保证稳定性。

6.2 评估指标

(1)客观指标
  • 通用音质指标:KL 散度、 inception 得分 (IS)、PANNs 特征弗雷歇距离 (FD)、VGGish 特征音频弗雷歇距离 (FAD)、制作复杂度 (PC)、制作质量 (PQ)。

  • 对齐指标:文本 - 音频对齐使用 CLAP 得分;视频 - 音频对齐使用 ImageBind 视听得分;额外新增视听对齐准确率、音画同步指标。

  • 指令跟随指标(T2A-bench):类别准确率、数量准确率、顺序准确率、时间戳准确率。

  • 效率指标:函数评估次数 (NFE)、推理延迟、实时因子 (RTF)。

(2)主观评估

邀请 10 名专业音频从业者,从整体音质与指令匹配度两个维度,对匿名样本进行 1~100 分打分。

6.3 核心实验结果

  1. 多任务生成性能

    在文本转音频、视频转音频、文本 + 视频转音频、文本转音乐、视频转音乐等全品类任务中,AudioX-Base 与 AudioX-Turbo 均达到业内顶尖水平。即便作为通用模型,性能也不输各类单任务专用模型。

  2. 推理效率

    AudioX-Turbo 仅需4 次函数评估(NFE=4),而传统多步模型最多需要 400 次评估,算力开销缩减约 25 倍;在单张 RTX 4090 显卡上,10 秒音频推理延迟仅 0.24 秒,实时因子远小于 1,可满足实时生成需求。同时,4 步采样下的音质与多步教师模型基本持平,而其他基线模型在少步采样下音质严重崩坏。

  3. 指令跟随能力

    在自建 T2A-bench 基准集上,本模型的类别、数量、顺序准确率远超所有基线模型;在 AudioTime 时序基准集上,时序控制能力同样排名第一。且蒸馏后的 AudioX-Turbo 指令跟随能力未出现明显衰减。

  4. 拓展任务

    在音频补全、音乐续写、图像转音频等拓展任务中,模型依旧保持优异性能,泛化能力突出。

6.4 消融实验

  1. 数据流水线 :本文两阶段标注方案产出的数据集,效果显著优于单一模型标注、公开第三方数据集;同时验证了高质量文本标注可带来跨模态正则化------ 优化文本监督,能同步提升视频转音频等其他任务的性能。

  2. MAF 模块:门控机制、可学习查询注意力均为核心组件,移除任意一部分都会造成音质与对齐效果下降,完整模块是多模态融合的关键。

  3. 蒸馏策略:均匀时间步采样、搭配对抗损失的方案效果最优;复用教师模型浅层结构作为判别器,性价比与效果最佳。

  4. 训练目标:流匹配与传统扩散目标的生成质量接近,但流匹配更适配本文蒸馏架构。

  5. 数据集规模:扩大视频 - 音乐数据集体量后,音乐生成性能持续提升,证明数据规模对模型效果有正向增益。


七、总结与展望

7.1 工作总结

本文提出 AudioX-Turbo ,一套支持文本、视频、音频多类输入的统一高效音频 / 音乐生成框架

  1. 结合多模态扩散变换器与多模态自适应融合模块,实现多模态条件下的高保真生成;

  2. 构建 IF-caps-Pro 大规模多模态标注数据集,解决通用模型训练的数据难题;

  3. 基于适配流匹配的分布匹配蒸馏与扩散判别器,实现极致少步推理,兼顾音质与效率;

  4. 自建 T2A-bench 基准集,系统验证模型顶尖的指令跟随能力。

大量实验证明,该框架集通用性、可控性、高效性于一体,具备极高的实际落地价值。

7.2 局限性与未来方向

  1. 现有模型仅支持10 秒短片段生成,无法满足完整影视配乐、长篇乐曲等长时序场景需求;

  2. 模型目前仅覆盖音效与音乐,暂不支持语音生成;

  3. 面对超复杂指令(大量叠加音效、严苛时间戳要求),指令跟随精度仍有提升空间。

未来研究方向:拓展长上下文建模、将语音纳入统一生成框架、强化时序监督提升精细控制能力、设计自适应步数推理方案。


相关推荐
进击的荆棘1 小时前
优选算法——优先级队列
数据结构·c++·算法·leetcode·优先级队列
IT新视界1 小时前
星环科技发布XClaw:全能桌面智能体,开启轻量安全的AI助手新时代
人工智能·科技·安全
knight_9___1 小时前
AI Agent 是什么?
人工智能·python·agent·rag·mcp
百胜软件@百胜软件1 小时前
货品“精”营:ABC-XYZ分类如何驱动鞋服全渠道库存效率革命?
人工智能·分类·数据挖掘·零售数字化·数智中台·珠宝行业
招标采购导航网1 小时前
标讯类目体系的自动演化:招标采购导航网如何根据新出现的行业自动扩展分类
大数据·运维·人工智能
by————组态1 小时前
Ricon组态实时监控 - 毫秒级数据可视化
大数据·人工智能·物联网·信息可视化·架构·组态
尽兴-1 小时前
6.1 模型优化:量化 INT4/INT8、GPTQ、AWQ、GGUF
人工智能·gptq·awq·gguf·int4/int8
Cloud_Shy6181 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第七章 Item 51)
开发语言·人工智能·笔记·python·学习方法