speech/music/sing 分离

文章目录

  • 模型对比
  • [PANNs: 相当于音频分类领域的imagenet](#PANNs: 相当于音频分类领域的imagenet)
  • [beats: Audio Pre-Training with Acoustic Tokenizers](#beats: Audio Pre-Training with Acoustic Tokenizers)
  • [hubert vs beats 不同点的对比](#hubert vs beats 不同点的对比)

模型对比

  • audioset 是一个多级标签的音频分类数据集,一共有527个标签。一般用mAP (mean average precision)评估分类的准确度。模型可以同时打多个标签(符合真实场景)
    • mAP 衡量的是:模型在"不同置信度阈值下,能否把真正相关的标签排在前面"
    • 普通的acc: 只要全预测 0,accuracy 也很高

PANNs: 相当于音频分类领域的imagenet

复制代码
- 创新点:
	- balanced sampling:不是"样本均衡",而是"类别均衡" 	, ≈ mAP +4~6 个点
	- Mixup(混合样本增强):log-mel 上混合多种音频,更加模拟真实环境
	- SpecAugment(时频遮挡),不依赖某一个瞬时帧,不死记某个固定频段,对各种来源的网络数据提升鲁棒性;
	- 大 embedding(2048 维):提隐藏空间表示能力

beats: Audio Pre-Training with Acoustic Tokenizers

  • paper
  • beats 两个模块:
    • SSL encoder : train 阶段输入mel patch,mask部分,预测token id;后续使用只输出embedding,用于下游任务
    • tokenizer: train / infer 阶段输入mel patch,预测token id;
  • 迭代优化
    • 线训练SSL encoder,然后作为teacher 训练tokenizer,tokenizer迭代几个轮次之后,token id的结果作为ssl encoder的预测目标
  • beats 模型优化2-3 个iter 即可,训练过深反而会语义坍缩
    • 因为token 初始化是随机的,因为前1-2 iter token的约束比较弱,encoder 自行探索出数据主导的结构,同时tokenizer的蒸馏效率比较高(学到的信息比较多)
    • 第2-3轮,encoder 已经把主要的语义学习到了,tokenizer 再蒸馏的时候学习的是encoder的细节偏好,而不是新的语义特征
    • 后续轮次:encoder的信息更新很少,token本身就是一种高度压缩,信息有损的表示,所以是一个有偏的估计,tokenizer 去拟合encoder,拟合的误差会被带回encoder,而且没有偏差纠正引入,所以微小偏差会通过闭环被 encoder 再次放大。

hubert vs beats 不同点的对比

  • beats 能用于通用音频任务(speech/singing/music 分类等)。hubert 主要用于asr 识别
  • 即使没有beats的tokenizer,两者也不一样
  • hubert
    • token init 方式:MFCC +kmeans,硬聚类,假设每个token 是一个phone,丢掉了长时相关性;在asr 任务中,phoneme ≈ 声学簇,这个先验假设是成立的;
    • 后续训练: m a x I ( Z e n c ; Z t o k e n ) maxI(Z_{enc};Z_{token}) maxI(Zenc;Ztoken),预测的token 去逼近
  • Beats
    • token init是刻意弱假设 的:随机投影、随机 codebook、没有试图表达"正确语义"。
相关推荐
柳鲲鹏1 小时前
OpenCV: DNN超采样,性能差,只能整数
人工智能·opencv·dnn
赛希咨询1 小时前
生成式人工智能问答:在软件工程中的应用
人工智能·软件工程
siliconstorm.ai1 小时前
全球人形机器人产业现状与技术挑战:AI与云计算如何驱动下一波发展
人工智能
Fleshy数模2 小时前
Sklearn实战KNN:快速实现分类任务的入门指南
人工智能·分类·sklearn
犀思云2 小时前
出海SaaS全球分布式部署:流量调度的六大核心挑战与破局思考
运维·网络·人工智能·系统架构·机器人
老蒋每日coding2 小时前
AI Agent 设计模式系列(二十一)—— 探索和发现设计模式
人工智能·设计模式
格林威2 小时前
Baumer相机铁轨表面裂纹巡检:提升铁路安全监测能力的 7 个关键技术,附 OpenCV+Halcon 实战代码!
人工智能·数码相机·opencv·算法·安全·计算机视觉·分类
想你依然心痛2 小时前
AI 音效新征程:HunyuanVideo-Foley 视频配音实战
人工智能·音视频·智能电视
天天代码码天天2 小时前
lw.PPOCRSharp_GPU_Test paddle_inference v3.3
人工智能·深度学习·paddle