speech/music/sing 分离

文章目录

模型对比
[PANNs: 相当于音频分类领域的imagenet](#PANNs: 相当于音频分类领域的imagenet)
[beats: Audio Pre-Training with Acoustic Tokenizers](#beats: Audio Pre-Training with Acoustic Tokenizers)
[hubert vs beats 不同点的对比](#hubert vs beats 不同点的对比)

模型对比

audioset 是一个多级标签的音频分类数据集，一共有527个标签。一般用mAP (mean average precision）评估分类的准确度。模型可以同时打多个标签（符合真实场景）
- mAP 衡量的是：模型在"不同置信度阈值下，能否把真正相关的标签排在前面"
- 普通的acc: 只要全预测 0，accuracy 也很高

PANNs: 相当于音频分类领域的imagenet

复制代码

- 创新点：
	- balanced sampling：不是"样本均衡"，而是"类别均衡" 	， ≈ mAP +4～6 个点
	- Mixup（混合样本增强）：log-mel 上混合多种音频，更加模拟真实环境
	- SpecAugment（时频遮挡），不依赖某一个瞬时帧，不死记某个固定频段，对各种来源的网络数据提升鲁棒性；
	- 大 embedding（2048 维）：提隐藏空间表示能力

beats: Audio Pre-Training with Acoustic Tokenizers

paper
beats 两个模块：
- SSL encoder ： train 阶段输入mel patch，mask部分，预测token id；后续使用只输出embedding，用于下游任务
- tokenizer： train / infer 阶段输入mel patch，预测token id；
迭代优化
- 线训练SSL encoder，然后作为teacher 训练tokenizer，tokenizer迭代几个轮次之后，token id的结果作为ssl encoder的预测目标
beats 模型优化2-3 个iter 即可，训练过深反而会语义坍缩
- 因为token 初始化是随机的，因为前1-2 iter token的约束比较弱，encoder 自行探索出数据主导的结构，同时tokenizer的蒸馏效率比较高（学到的信息比较多）
- 第2-3轮，encoder 已经把主要的语义学习到了，tokenizer 再蒸馏的时候学习的是encoder的细节偏好，而不是新的语义特征
- 后续轮次：encoder的信息更新很少，token本身就是一种高度压缩，信息有损的表示，所以是一个有偏的估计，tokenizer 去拟合encoder，拟合的误差会被带回encoder，而且没有偏差纠正引入，所以微小偏差会通过闭环被 encoder 再次放大。

hubert vs beats 不同点的对比

beats 能用于通用音频任务（speech/singing/music 分类等）。hubert 主要用于asr 识别
即使没有beats的tokenizer，两者也不一样
hubert
- token init 方式：MFCC +kmeans，硬聚类，假设每个token 是一个phone，丢掉了长时相关性；在asr 任务中，phoneme ≈ 声学簇，这个先验假设是成立的；
- 后续训练： m a x I ( Z e n c ; Z t o k e n ) maxI(Z_{enc};Z_{token}) maxI(Zenc;Ztoken)，预测的token 去逼近
Beats
- token init是刻意弱假设 的：随机投影、随机 codebook、没有试图表达"正确语义"。