speech/music/sing 分离

文章目录

  • 模型对比
  • [PANNs: 相当于音频分类领域的imagenet](#PANNs: 相当于音频分类领域的imagenet)
  • [beats: Audio Pre-Training with Acoustic Tokenizers](#beats: Audio Pre-Training with Acoustic Tokenizers)
  • [hubert vs beats 不同点的对比](#hubert vs beats 不同点的对比)

模型对比

  • audioset 是一个多级标签的音频分类数据集,一共有527个标签。一般用mAP (mean average precision)评估分类的准确度。模型可以同时打多个标签(符合真实场景)
    • mAP 衡量的是:模型在"不同置信度阈值下,能否把真正相关的标签排在前面"
    • 普通的acc: 只要全预测 0,accuracy 也很高

PANNs: 相当于音频分类领域的imagenet

复制代码
- 创新点:
	- balanced sampling:不是"样本均衡",而是"类别均衡" 	, ≈ mAP +4~6 个点
	- Mixup(混合样本增强):log-mel 上混合多种音频,更加模拟真实环境
	- SpecAugment(时频遮挡),不依赖某一个瞬时帧,不死记某个固定频段,对各种来源的网络数据提升鲁棒性;
	- 大 embedding(2048 维):提隐藏空间表示能力

beats: Audio Pre-Training with Acoustic Tokenizers

  • paper
  • beats 两个模块:
    • SSL encoder : train 阶段输入mel patch,mask部分,预测token id;后续使用只输出embedding,用于下游任务
    • tokenizer: train / infer 阶段输入mel patch,预测token id;
  • 迭代优化
    • 线训练SSL encoder,然后作为teacher 训练tokenizer,tokenizer迭代几个轮次之后,token id的结果作为ssl encoder的预测目标
  • beats 模型优化2-3 个iter 即可,训练过深反而会语义坍缩
    • 因为token 初始化是随机的,因为前1-2 iter token的约束比较弱,encoder 自行探索出数据主导的结构,同时tokenizer的蒸馏效率比较高(学到的信息比较多)
    • 第2-3轮,encoder 已经把主要的语义学习到了,tokenizer 再蒸馏的时候学习的是encoder的细节偏好,而不是新的语义特征
    • 后续轮次:encoder的信息更新很少,token本身就是一种高度压缩,信息有损的表示,所以是一个有偏的估计,tokenizer 去拟合encoder,拟合的误差会被带回encoder,而且没有偏差纠正引入,所以微小偏差会通过闭环被 encoder 再次放大。

hubert vs beats 不同点的对比

  • beats 能用于通用音频任务(speech/singing/music 分类等)。hubert 主要用于asr 识别
  • 即使没有beats的tokenizer,两者也不一样
  • hubert
    • token init 方式:MFCC +kmeans,硬聚类,假设每个token 是一个phone,丢掉了长时相关性;在asr 任务中,phoneme ≈ 声学簇,这个先验假设是成立的;
    • 后续训练: m a x I ( Z e n c ; Z t o k e n ) maxI(Z_{enc};Z_{token}) maxI(Zenc;Ztoken),预测的token 去逼近
  • Beats
    • token init是刻意弱假设 的:随机投影、随机 codebook、没有试图表达"正确语义"。
相关推荐
Chef_Chen2 分钟前
Agent学习--LLM--推理熵
人工智能·学习·机器学习
小鹿软件办公3 分钟前
OpenAI 面向高频用户推出全新 100 美元档 ChatGPT Pro 套餐
人工智能·chatgpt
ECT-OS-JiuHuaShan6 分钟前
科学的本来意义,是基于规范的共识逻辑,而非共识方法
人工智能·科技·学习·算法·生活
CoderJia程序员甲12 分钟前
GitHub 热榜项目 - 日榜(2026-04-09)
人工智能·ai·大模型·github·ai教程
chaofan98013 分钟前
从文字响应到动态沙盒:深度解析 Gemini 交互模拟 API 的技术实现与集成
人工智能·交互·api
hay_lee13 分钟前
匿名屠榜,阿里认领:HappyHorse 1.0 如何重写AI视频生成规则?
人工智能·音视频
无忧智库14 分钟前
某新区“十五五”智慧城市数字底座与数字孪生城市建设全栈技术深度解析(WORD)
人工智能·物联网·智慧城市
kishu_iOS&AI21 分钟前
机器学习 —— 线性回归(实例)
人工智能·python·机器学习·线性回归
天天进步201528 分钟前
[架构篇] 解构项目蓝图:Toonflow 的模块化设计与 AI 管道流转
人工智能·架构
龙文浩_28 分钟前
AI中NLP的深入浅出注意力机制 Seq2Seq 模型
人工智能·pytorch·深度学习·神经网络·自然语言处理