speech/music/sing 分离

文章目录

  • 模型对比
  • [PANNs: 相当于音频分类领域的imagenet](#PANNs: 相当于音频分类领域的imagenet)
  • [beats: Audio Pre-Training with Acoustic Tokenizers](#beats: Audio Pre-Training with Acoustic Tokenizers)
  • [hubert vs beats 不同点的对比](#hubert vs beats 不同点的对比)

模型对比

  • audioset 是一个多级标签的音频分类数据集,一共有527个标签。一般用mAP (mean average precision)评估分类的准确度。模型可以同时打多个标签(符合真实场景)
    • mAP 衡量的是:模型在"不同置信度阈值下,能否把真正相关的标签排在前面"
    • 普通的acc: 只要全预测 0,accuracy 也很高

PANNs: 相当于音频分类领域的imagenet

复制代码
- 创新点:
	- balanced sampling:不是"样本均衡",而是"类别均衡" 	, ≈ mAP +4~6 个点
	- Mixup(混合样本增强):log-mel 上混合多种音频,更加模拟真实环境
	- SpecAugment(时频遮挡),不依赖某一个瞬时帧,不死记某个固定频段,对各种来源的网络数据提升鲁棒性;
	- 大 embedding(2048 维):提隐藏空间表示能力

beats: Audio Pre-Training with Acoustic Tokenizers

  • paper
  • beats 两个模块:
    • SSL encoder : train 阶段输入mel patch,mask部分,预测token id;后续使用只输出embedding,用于下游任务
    • tokenizer: train / infer 阶段输入mel patch,预测token id;
  • 迭代优化
    • 线训练SSL encoder,然后作为teacher 训练tokenizer,tokenizer迭代几个轮次之后,token id的结果作为ssl encoder的预测目标
  • beats 模型优化2-3 个iter 即可,训练过深反而会语义坍缩
    • 因为token 初始化是随机的,因为前1-2 iter token的约束比较弱,encoder 自行探索出数据主导的结构,同时tokenizer的蒸馏效率比较高(学到的信息比较多)
    • 第2-3轮,encoder 已经把主要的语义学习到了,tokenizer 再蒸馏的时候学习的是encoder的细节偏好,而不是新的语义特征
    • 后续轮次:encoder的信息更新很少,token本身就是一种高度压缩,信息有损的表示,所以是一个有偏的估计,tokenizer 去拟合encoder,拟合的误差会被带回encoder,而且没有偏差纠正引入,所以微小偏差会通过闭环被 encoder 再次放大。

hubert vs beats 不同点的对比

  • beats 能用于通用音频任务(speech/singing/music 分类等)。hubert 主要用于asr 识别
  • 即使没有beats的tokenizer,两者也不一样
  • hubert
    • token init 方式:MFCC +kmeans,硬聚类,假设每个token 是一个phone,丢掉了长时相关性;在asr 任务中,phoneme ≈ 声学簇,这个先验假设是成立的;
    • 后续训练: m a x I ( Z e n c ; Z t o k e n ) maxI(Z_{enc};Z_{token}) maxI(Zenc;Ztoken),预测的token 去逼近
  • Beats
    • token init是刻意弱假设 的:随机投影、随机 codebook、没有试图表达"正确语义"。
相关推荐
聆风吟º2 小时前
CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧
人工智能·神经网络·cann·异构计算
Codebee4 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º4 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys5 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56785 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子5 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能5 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
qq_160144875 小时前
亲测!2026年零基础学AI的入门干货,新手照做就能上手
人工智能
Howie Zphile5 小时前
全面预算管理难以落地的核心真相:“完美模型幻觉”的认知误区
人工智能·全面预算
人工不智能5775 小时前
拆解 BERT:Output 中的 Hidden States 到底藏了什么秘密?
人工智能·深度学习·bert