音频-文本对比学习:LARGE-SCALE CONTRASTIVE LANGUAGE-AUDIO PRETRAINING论文翻译和理解

一、TL;DR

  1. 做了什么:提出了一种对比式语言 - 音频预训练流程,通过将音频数据与自然语言描述相结合来构建音频表征
  2. 怎么做的 :发布了 LAION-Audio-630K的音频 - 文本对的大型数据集+构建了对比式语言 - 音频预训练模型
  3. 得到了什么结果:文本到音频检索、零样本音频分类和有监督音频分类都达到了SOTA
  4. 开源贡献:数据集和模型全部公开

paper:https://arxiv.org/pdf/2211.06687

code:https://github.com/LAION-AI/CLAP

**warning:**其实我试了下,效果一般哈,没有SOTA的图像对比学习模型那么惊艳

二、Introduction

音频-文本对比学习困难点:

  1. 数据收集困难:不同的音频任务需要精细标注,限制了可用音频数据的数量

为什么现在可以做:

  1. CLIP证明类比证明训练此类模型只需成对的音频和文本数据,收集难度变低
  2. AudioClip和 WaveCLIP证明初步可行

motivation:

  1. 上述模型均在相对较小的数据集上训练,需要进一步大规模数据集训练和实验
  2. 现有工作缺乏对音频 / 文本编码器的选择及超参数设置的全面研究
  3. 模型难以适应不同长度的音频输入,尤其是基于 Transformer 的音频编码器,亟需一种解决方案来处理可变长度的音频输入
  4. 大多数语言 - 音频模型研究仅关注文本到音频检索任务,而未评估其音频表征在其他下游任务中的表现

针对上述问题,本文在数据集、模型设计和实验设置方面做出了以下贡献:

  • 发布了最大的公开音频描述数据集 LAION-Audio-630K 数据集,同时采用 **"关键词到描述"**模型将 AudioSet 的标签增强为对应的描述文本。该数据集也可为其他音频任务提供支持。
  • 构建了一套对比式语言 - 音频预训练流程。选取了两种音频编码器和三种文本编码器进行测试,并采用特征融合机制来提升模型性能,同时使模型能够处理可变长度的输入。
  • 我们在模型上开展了全面的实验,包括文本到音频检索任务,以及零样本和有监督音频分类下游任务
    • 实验结果表明,数据集规模的扩大、"关键词到描述" 增强方法以及特征融合机制,能从不同角度提升模型性能。
    • 文本到音频检索和音频分类任务中达到了当前最先进(SOTA)水平,甚至可与有监督模型的性能相媲美。

三、LAION-AUDIO-630K 及训练数据集

3.1 LAION-Audio-630K

LAION-Audio-630K:

  1. 包含 633,526 个音频 - 文本对,总时长 4,325.39 小时。
  2. 涵盖人类活动、自然声音和音效等音频类型,数据来源于 8 个公开网站的资源 。
  3. 其规模远超以往的音频 - 文本数据集(如表 1 所示)。

3.2 训练数据集

为测试模型性能在不同规模和类型的数据集上的表现,本文采用三种训练集设置(从小到大),分别使用以下三个数据集:

  1. AudioCaps+Clotho(AC+CL):包含约 55K个音频 - 文本对训练样本;
  2. LAION-Audio-630K(LA.):包含约630K 个音频 - 文本对;
  3. AudioSet :包含 190 万个音频样本,但仅提供每个样本的标签。

3.3 数据集格式与预处理

整合所有数据集后,带有文本描述的音频样本总数增至 250 万:

  1. 本研究中所有音频文件均预处理为单声道、48kHz 采样率的 FLAC 格式。
  2. 对于仅含标签或关键词的数据集,通过模板 "The sound of label-1, label-2, ..., and label-n" 或 "关键词到描述" 模型将标签扩展为描述文本。

四、 模型架构

4.1 对比式语言 - 音频预训练

LAION - audio 的 CLAP(Contrastive Language - Audio Pretraining)模型是一个对比语言 - 音频预训练模型,借鉴了 CLIP 的思想,通过大规模音频 - 文本对数据进行预训练,学习音频和语言的联合表征。以下是其模型结构和推理过程的详细介绍:

4.1.1 模型结构

  • 音频编码器 :默认使用 HTSAT(Hierarchical Token - Semantic Audio Transformer)作为音频编码器。HTSAT 是一种层次化的音频 Transformer 模型,能够有效地处理不同长度的音频输入,可将音频信号编码为固定维度的向量表示(本文还对比了PANN)。
  • 文本编码器:通常采用 BERT 或其变体作为文本编码器,将文本转换为固定维度的向量表示,捕捉文本中的语义信息(本文还对比了CLIP和RoBert)。
  • 投影层:将音频编码器和文本编码器输出的特征映射到相同的潜在空间,使音频和文本特征处于同一维度空间,便于后续计算相似度。

4.1.2 推理过程

  1. 数据准备:获取待处理的音频数据和文本数据。音频数据通常需要先转换为对数 Mel 频谱图等合适的格式,这是音频处理中常见的表示形式,能更好地捕捉音频的频率特征。
  2. 特征提取:将处理后的音频数据输入音频编码器,音频编码器提取音频特征,生成音频向量表示;同时,将文本数据输入文本编码器,文本编码器提取文本特征,生成文本向量表示。
  3. 投影映射:音频向量和文本向量分别通过投影层,映射到同一个潜在空间中,得到具有相同维度的音频嵌入和文本嵌入。
  4. 相似度计算:计算投影后的音频嵌入和文本嵌入之间的相似度,通常使用点积作为相似分数。该分数反映了音频和文本之间的语义关联程度,相似度越高,说明音频和文本的匹配度越高。
  5. 结果输出 :根据计算得到的相似度分数,可用于不同的下游任务。
    1. 例如在文本 - 音频检索任务中,可根据文本查找最相关的音频,或根据音频查找最匹配的文本描述;
    2. 在零样本音频分类任务中,可将输入音频与多个候选文本标签进行相似度计算,根据相似度分数将音频分类到最相关的标签类别下,也可以使用输出的embedding加一层MLP进行微调然后分类。

4.2 音频编码器与文本编码器

4.2.1 音频编码器:

两种模型构建:

  • PANN :基于 CNN 的音频分类模型,含 7 个下采样 CNN 块和 7 个上采样块;
  • HTSAT:基于 Transformer 的模型,含 4 组 Swintransformer 块,在三个音频分类数据集上达到最先进水平(SOTA)。

均使用**其倒数第二层的输出(一个L维向量)**作为输入发送至投影 MLP 层,

  1. PANN维度=2048
  2. HTSAT维度=768

4.2.2 文本编码器

选用三种模型:

  1. CLIP transformer (CLIP 的文本编码器),维度=512
  2. BERT ,维度=768
  3. RoBERTa ,维度=768

4.2.3 维度映射

最后我们对音频和文本输出均应用含 ReLU 激活函数的2层MLP,将其映射到 512 维(对比学习训练中音频 / 文本表征的维度)。

4.3 可变长度音频的特征融合

与可调整为统一分辨率的 RGB 图像不同,音频天然具有可变长度。

传统方法:

  1. 通常将完整音频输入编码器,然后对每帧或每块的音频嵌入取平均(即 "切片与投票"),但这种方法对长音频的计算效率较低。

我们怎么做:

  1. 如图 1 左侧所示,通过结合粗略的全局信息和随机采样的局部信息,在固定计算时间内对不同长度的音频输入进行训练和推理。对于时长为T秒的音频,设定固定块时长\(d=10\)秒:
    1. 若T<d,先重复输入,再用零值填充。例如,3 秒的输入会重复为 3×3=9 秒,再填充 1 秒零值;
    2. 若T>d,先将输入从T秒下采样为d秒作为全局输入;然后从输入的前 1/3、中间 1/3 和后 1/3 部分各随机切取 1 个d秒的片段作为局部输入。将这 4 个d秒的输入送入音频编码器的第一层以获取初始特征,随后通过一个在时间轴上步长为 3 的 2D 卷积层,将 3 个局部特征转换为 1 个特征。最终,局部特征与全局特征融合为:

4.4 关键词到描述的增强

部分数据集包含与音频对应的合理标签或关键词作为关键词。

  1. 使用预训练语言模型 T5 基于这些关键词生成描述文本,并对输出句子进行后处理以消除偏差。例如,将 " woman " 和 " man " 替换为 " person " 以消除性别偏差。由于篇幅限制,增强示例详见在线附录。

五、Experiments

注意不同的编码器的指标:

相关推荐
神秘的摄影师1 小时前
2026年AE音乐素材下载网站TOP5评测——短视频与自媒体创作者专属指南
音视频·媒体
2601_957786772 小时前
短视频矩阵系统的信号处理密码:用奈奎斯特采样定理破解“限流“黑箱
矩阵·音视频·信号处理
若兰幽竹3 小时前
【大模型应用】抖音爆款视频深度分析系统:流水线式AI逆向拆解流量密码,精准预测播放量!
人工智能·python·音视频·抖音爆款分析
网管NO.14 小时前
视频核心技术 08:播放器原理与秒开优化 —— 首帧链路、缓冲策略与卡顿根治
音视频
searchforAI4 小时前
视频画面里的PPT怎么提取?视频转图文讲义的实操教程
人工智能·学习·ai·aigc·powerpoint·音视频·贴图
视频号下载助手4 小时前
2026实测可用!全网视频无水印保存完整操作方法
音视频
广州灵眸科技有限公司6 小时前
瑞芯微(EASY EAI)RV1126B 音频电路
开发语言·人工智能·深度学习·算法·yolo·音视频
孤舟簔笠翁6 小时前
音频均衡器(EQ)详解
音视频
jushi89997 小时前
网易爆米花 网盘视频聚合播放器 支持各大网盘、NAS挂载
音视频
MicroTech20257 小时前
微算法科技(NASDAQ :MLGO)发布基于NEQR技术的新型量子视频处理算法,重构智能视觉底层逻辑
科技·算法·音视频