speech/music/sing 分离

文章目录

  • 模型对比
  • [PANNs: 相当于音频分类领域的imagenet](#PANNs: 相当于音频分类领域的imagenet)
  • [beats: Audio Pre-Training with Acoustic Tokenizers](#beats: Audio Pre-Training with Acoustic Tokenizers)
  • [hubert vs beats 不同点的对比](#hubert vs beats 不同点的对比)

模型对比

  • audioset 是一个多级标签的音频分类数据集,一共有527个标签。一般用mAP (mean average precision)评估分类的准确度。模型可以同时打多个标签(符合真实场景)
    • mAP 衡量的是:模型在"不同置信度阈值下,能否把真正相关的标签排在前面"
    • 普通的acc: 只要全预测 0,accuracy 也很高

PANNs: 相当于音频分类领域的imagenet

复制代码
- 创新点:
	- balanced sampling:不是"样本均衡",而是"类别均衡" 	, ≈ mAP +4~6 个点
	- Mixup(混合样本增强):log-mel 上混合多种音频,更加模拟真实环境
	- SpecAugment(时频遮挡),不依赖某一个瞬时帧,不死记某个固定频段,对各种来源的网络数据提升鲁棒性;
	- 大 embedding(2048 维):提隐藏空间表示能力

beats: Audio Pre-Training with Acoustic Tokenizers

  • paper
  • beats 两个模块:
    • SSL encoder : train 阶段输入mel patch,mask部分,预测token id;后续使用只输出embedding,用于下游任务
    • tokenizer: train / infer 阶段输入mel patch,预测token id;
  • 迭代优化
    • 线训练SSL encoder,然后作为teacher 训练tokenizer,tokenizer迭代几个轮次之后,token id的结果作为ssl encoder的预测目标
  • beats 模型优化2-3 个iter 即可,训练过深反而会语义坍缩
    • 因为token 初始化是随机的,因为前1-2 iter token的约束比较弱,encoder 自行探索出数据主导的结构,同时tokenizer的蒸馏效率比较高(学到的信息比较多)
    • 第2-3轮,encoder 已经把主要的语义学习到了,tokenizer 再蒸馏的时候学习的是encoder的细节偏好,而不是新的语义特征
    • 后续轮次:encoder的信息更新很少,token本身就是一种高度压缩,信息有损的表示,所以是一个有偏的估计,tokenizer 去拟合encoder,拟合的误差会被带回encoder,而且没有偏差纠正引入,所以微小偏差会通过闭环被 encoder 再次放大。

hubert vs beats 不同点的对比

  • beats 能用于通用音频任务(speech/singing/music 分类等)。hubert 主要用于asr 识别
  • 即使没有beats的tokenizer,两者也不一样
  • hubert
    • token init 方式:MFCC +kmeans,硬聚类,假设每个token 是一个phone,丢掉了长时相关性;在asr 任务中,phoneme ≈ 声学簇,这个先验假设是成立的;
    • 后续训练: m a x I ( Z e n c ; Z t o k e n ) maxI(Z_{enc};Z_{token}) maxI(Zenc;Ztoken),预测的token 去逼近
  • Beats
    • token init是刻意弱假设 的:随机投影、随机 codebook、没有试图表达"正确语义"。
相关推荐
zhuiyisuifeng22 分钟前
2026前瞻:GPTimage2镜像官网或将颠覆视觉创作
人工智能·gpt
徐健峰25 分钟前
GPT-image-2 热门玩法实战(一):AI 看手相 — 一张手掌照片生成专业手相分析图
人工智能·gpt
weixin_3709763526 分钟前
AI的终极赛跑:进入AGI,还是泡沫破灭?
大数据·人工智能·agi
Slow菜鸟29 分钟前
AI学习篇(五) | awesome-design-md 使用说明
人工智能·学习
冬奇Lab1 小时前
RAG 系列(五):Embedding 模型——语义理解的核心
人工智能·llm·aigc
深小乐1 小时前
AI 周刊【2026.04.27-05.03】:Anthropic 9000亿美元估值、英伟达死磕智能体、中央重磅定调AI
人工智能
码点滴1 小时前
什么时候用 DeepSeek V4,而不是 GPT-5/Claude/Gemini?
人工智能·gpt·架构·大模型·deepseek
狐狐生风1 小时前
LangChain 向量存储:Chroma、FAISS
人工智能·python·学习·langchain·faiss·agentai
波动几何1 小时前
CDA架构代码工坊技能cda-code-lab
人工智能
舟遥遥娓飘飘1 小时前
DeepSeek V4技术变革对社会结构与职业体系的重构
人工智能