音频编码器是多模态大模型的重要组件,优秀的音频编码器在构建多模态系统中至关重要。在此背景下,小米集团、萨里大学与海天瑞声联合主办的 ICME 2025 Audio Encoder Capability Challenge,吸引了 Alibaba、CMU、NTT 等知名企业和院校参与。
该赛事从多个维度评估**「音频编码模型的特征提取能力」,评估领域覆盖语音、环境声音和音乐,包含 20+ 项细分任务,如语音识别、说话人识别、语种识别、音乐风格检测和环境声识别等。在最终结果中,火山引擎多媒体实验室凭借 "audiocodec"、"GAEBT" 和 "AudioX" 三支技术团队,在 MLP/KNN 双评估体系下「以明显优势包揽了赛事的前三名。」**

此次挑战赛的难点在于评估场景多、任务类型复杂且模型大小受限,这对编码模型的鲁棒性和特征提取能力提出了很高的要求。火山引擎多媒体实验室 "audiocodec" 技术队伍打造的夺冠方案,以大规模数据预训练的音频编码模型为基座,通过模型融合、任务微调和前后处理等技术组合,「在双赛道上均获得第一」,在音频表征领域达到了当前业界的 SOTA 水平,为语音、环境声、音乐等全场景音频表征提供了统一的高质量解决方案。

赛道 A:基于任务数据的线性微调 (MLP)

赛道 B:无参数评估 (KNN)
比赛详细结果:dataoceanai.github.io/ICME2025-Au...
ICME 2025 Audio Encoder Capability Challenge
ICME 2025 Audio Encoder Capability Challenge 设置了两个赛道,从不同视角评估预训练音频编码模型的性能。赛道 A 使用参赛者提供的编码器基于任务数据进行线性微调(MLP),该方法**「评估模型通过一个额外的线性层适配到特定任务的能力」,同时不改变原始模型的参数。赛道 B 无参数评估直接进行 K 近邻分类(KNN),用以 「评估模型提取特征的内在表达能力」**。
评估数据集
挑战赛评估数据集涵盖了多个领域的各种音频数据,包括人声、环境声音和音乐,评估任务包含音频分类、识别和检测等。挑战赛利用开源数据集中原生训练 / 测试集拆分来微调和评估参赛者提交的模型。此外还包含六个隐藏的数据集,侧重于评估挑战赛组织者提供的真实工业场景。
火山引擎夺冠队伍 Audiocodec 方案
本次挑战赛评估任务种类多且场景复杂,不同任务的目标和评估标准相互独立,对音频编码模型提取的特征鲁邦性和音频标准能力提出了极高要求。如:
- 片段级任务(如情感识别、音乐流派分类等)要求对模型汇总整段音频特征以进行分类;
- 帧级别任务(如环境声音检测)则要求模型在分帧特征上有区分度,提交方案必须兼顾长时和短时特征信息的提取。
赛道 A 有 27 个任务,赛道 B 有 20 个任务。除了环境声识别 / 检测等声学任务外,语音识别、语音命令识别等任务也在评估中占据较大权重,这要求音频编码模型既能提取声学特征又能提取语义特征。综合赛道任务及评估标准,火山引擎 Audiocodec 队伍打造出以下方案。

搭建自动化评估系统,缩短评估时间
基于比赛提供的评估方法,Audiocodec 首先搭建了一套**「用于快速评估新模型效果的评估系统」。原评估方法在 1 张 V100 上完成一次评估需 12+ 小时,且推理过程不稳定,极易出现卡死等问题,Audiocodec 将原评估方案中音频编码模型提取特征和任务评估,拆解为两个独立环节,构建了自动化的评估系统,将模型训练、特征推理、任务评估和结果总结过程自动化,并从 21 个任务中选择了 14 个任务用于快速验证,「将评估时间缩短到 2 小时以内,大大提高了模型开发的效率」**。
处理前后静音帧,保障准确度
在梳理评估数据时,Audiocodec 发现部分任务序列中存在大段的静音(0.5 s 以上),而比赛中片段级任务需要提取整段音频信息,大段静音帧会稀释音频特征中的有效信息,影响下游任务评估效果,此外,为与训练集数据长度匹配,预训练模型要求定长音频输入(如 Dasheng 10s,Whisper/Qwen2-Audio Encoder 30s),推理时需对时长不足的序列进行静音填充,这些静音填充同样会降低下游任务的准确度。
为了提升准确度,「Audiocodec 在音频前处理阶段以 10ms 为音频单元检测并过滤掉静音片段,同时在特征后处理阶段移除由静音填充帧引入的无效音频特征」 ,这使得同等评估情况下,其中 14 个任务加权得分提升显著(MLP 0.705->0.712,KNN 0.524->0.582,下文中得分无特殊说明均为其中 14 个任务加权得分,分数越高效果越高)。同时,Audiocodec 发现一部分任务序列中存在直流分量,且幅度偏差较大,因此提交方案使用去直流和幅度归一化,以减小音频数据分布带来的偏差,这带来了 「KNN 指标的明显提升(0.582->0.598)」 。
融合模型,发挥各自优势
当前自监督学习的音频编码模型主要分为两类:
- 一类模型主要针对语音处理任务,包括 Wav2vec、Whisper 和 Qwen2-Audio Encoder 等
- 另一类则主要针对音频处理任务,例如 Dasheng 和 Beats。
这两类模型都只对语音或音频任务有较好的效果,但是挑战赛要求模型能够同时兼顾语音和音频任务,这对模型设计提出了很大的挑战。
Audiocodec 的解决思路是,同时引入擅长语音任务和擅长音频任务的两个 AudioEncoder 模型,并发挥出各自优势。在开发过程中,尝试了 Whisper+Dasheng 和 Qwen2-Audio Encoder+Dasheng 等多个方案,经过评估,最终选择了特征维度为 [1280, T] 的 Qwen2-Audio Encoder 和特征维度为 [1536, T] 的 Dasheng 1.2B 模型进行模型融合。这两个模型提取 Embedding 帧率同样为 25 Hz,在进行时间对齐后将通道维度拼接为一个 [2816, T] Embedding 用于下游 20+ 类不同类型的音频评估任务。Qwen2-Audio Encoder+Dasheng 比单独使用 Dasheng 1.2B 会有更优的效果(MLP 0.731->0.766,KNN 0.560->0.661)。
微调模型再融合,综合得分最优
比赛的核心难点在于要求提交模型在 20+ 类下游任务中均获得最优效果。一种可行的解决方案是,在预训练好的模型基础上,与下游任务进行有机结合。为了保证 20+ 类任务同时获得最优效果,需要同时考虑所有下游任务进行模型微调。
针对比赛多任务场景和数据集要求,Audiocodec 选取了标签类别丰富(527 类)、音频种类齐全(语音、环境声和音乐)、数据量充足(5100+h)的 Audioset 数据集进行监督微调。Audiocodec 独立地对 Qwen2-Audio Encoder 和 D asheng 进行微调再进行融合,微调时只在预训练模型后添加简单的 MLP 层以尽量接近评估场景。针对 Dasheng 的微调,Audiocodec 参考开源代码使用 AdamW8bit 和 1e-5 学习率进行微调,微调阶段掩蔽率被设置为 0,上文提到的前后处理同样被用于微调训练中。实验中使用 GPU V100、 BatchSize=12 、EpochLength=500 等配置进行微调。
Audiocodec 发现微调对 KNN 评估影响巨大,在微调 45 个 Epoch 后,Dasheng 1.2B KNN 指标从 0.560 提高至 0.639。对于 Qwen2-Audio Encoder 的微调,复用了 Dasheng 微调的实现,但只对 Qwen2-Audio Encoder 模型的最后 5 层 EncoderLayer 进行微调。「将两个微调后模型融合后,Audiocodec 的方案获得了综合得分最优(MLP 0.759,KNN 0.726)」 。
总结
在主办方基于任务数据的线性微调评估中,火山引擎 Audiocodec 打造的夺冠方案在如语音伪造检测(ASV2015)、环境声音分类(ESC50) 意图分类(FluentSpeechCommands)等任务上,「准确率达到 99+%」 ,关键词检测(SpeechCommands)任务**「准确率 97.7%」** ,感情识别(CREMAted-D)「准确率 85.8%」 ,语音识别任务(LibriSpeech)「准确率 90.3%」 。这突破了传统任务特定模型的局限性,证实了火山引擎 Audiocodec 的预训练音频编码模型具备**「强大的音频特征提取和表征能力」**,能够以单一框架支撑从低层级声学特征到高层级语义理解的全链条音频任务,在未来的实际应用中具有潜在价值。
团队介绍
火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。
火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据技术、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。