speech/music/sing 分离

文章目录

  • 模型对比
  • [PANNs: 相当于音频分类领域的imagenet](#PANNs: 相当于音频分类领域的imagenet)
  • [beats: Audio Pre-Training with Acoustic Tokenizers](#beats: Audio Pre-Training with Acoustic Tokenizers)
  • [hubert vs beats 不同点的对比](#hubert vs beats 不同点的对比)

模型对比

  • audioset 是一个多级标签的音频分类数据集,一共有527个标签。一般用mAP (mean average precision)评估分类的准确度。模型可以同时打多个标签(符合真实场景)
    • mAP 衡量的是:模型在"不同置信度阈值下,能否把真正相关的标签排在前面"
    • 普通的acc: 只要全预测 0,accuracy 也很高

PANNs: 相当于音频分类领域的imagenet

复制代码
- 创新点:
	- balanced sampling:不是"样本均衡",而是"类别均衡" 	, ≈ mAP +4~6 个点
	- Mixup(混合样本增强):log-mel 上混合多种音频,更加模拟真实环境
	- SpecAugment(时频遮挡),不依赖某一个瞬时帧,不死记某个固定频段,对各种来源的网络数据提升鲁棒性;
	- 大 embedding(2048 维):提隐藏空间表示能力

beats: Audio Pre-Training with Acoustic Tokenizers

  • paper
  • beats 两个模块:
    • SSL encoder : train 阶段输入mel patch,mask部分,预测token id;后续使用只输出embedding,用于下游任务
    • tokenizer: train / infer 阶段输入mel patch,预测token id;
  • 迭代优化
    • 线训练SSL encoder,然后作为teacher 训练tokenizer,tokenizer迭代几个轮次之后,token id的结果作为ssl encoder的预测目标
  • beats 模型优化2-3 个iter 即可,训练过深反而会语义坍缩
    • 因为token 初始化是随机的,因为前1-2 iter token的约束比较弱,encoder 自行探索出数据主导的结构,同时tokenizer的蒸馏效率比较高(学到的信息比较多)
    • 第2-3轮,encoder 已经把主要的语义学习到了,tokenizer 再蒸馏的时候学习的是encoder的细节偏好,而不是新的语义特征
    • 后续轮次:encoder的信息更新很少,token本身就是一种高度压缩,信息有损的表示,所以是一个有偏的估计,tokenizer 去拟合encoder,拟合的误差会被带回encoder,而且没有偏差纠正引入,所以微小偏差会通过闭环被 encoder 再次放大。

hubert vs beats 不同点的对比

  • beats 能用于通用音频任务(speech/singing/music 分类等)。hubert 主要用于asr 识别
  • 即使没有beats的tokenizer,两者也不一样
  • hubert
    • token init 方式:MFCC +kmeans,硬聚类,假设每个token 是一个phone,丢掉了长时相关性;在asr 任务中,phoneme ≈ 声学簇,这个先验假设是成立的;
    • 后续训练: m a x I ( Z e n c ; Z t o k e n ) maxI(Z_{enc};Z_{token}) maxI(Zenc;Ztoken),预测的token 去逼近
  • Beats
    • token init是刻意弱假设 的:随机投影、随机 codebook、没有试图表达"正确语义"。
相关推荐
物联网软硬件开发-轨物科技1 天前
【轨物洞见】定义“视觉语音时代”:轨物科技重塑人机交互新范式
人工智能·科技·人机交互
DX_水位流量监测1 天前
德希科技供水水质多参数 PLC 一体机
网络·人工智能·深度学习·水质监测·水质传感器·水质厂家·供水水质监测
艾莉丝努力练剑1 天前
System V IPC底层原理详解
linux·运维·服务器·网络·c++·人工智能·学习
ONLYOFFICE1 天前
ONLYOFFICE 全新 PDF 编辑器 API 上线,自动化处理 PDF 内容
前端·人工智能·pdf·编辑器·onlyoffice
放风筝的猪1 天前
从“逐字预测”到“全量并行”:深度拆解语音识别与合成的效率革命
人工智能·语音识别
chnyi6_ya1 天前
Beyond Language Modeling: An Exploration of Multimodal Pretraining
人工智能·语言模型·自然语言处理
腾视科技TENSORTEC1 天前
腾视科技重磅发布AD03行车记录仪DashCam!全维守护,智驭出行新生态
大数据·网络·人工智能·科技·ai·车载系统·车载监控
徐小夕@趣谈前端1 天前
借助AI,1周,0后端成本,我们开源了一款Office预览SDK
前端·人工智能·开源·node.js·编辑器·github·格式工厂
云境筑桃源哇1 天前
AI审核进入全维创新时代:合思如何重构企业合规与效率双壁垒
人工智能·重构
十八画圣1 天前
企业级AI Agent落地:我们用Openclaw实现了哪些自动化?
运维·人工智能·自动化