【声音场景分类--论文阅读】

1.基于小波时频图特征在声音场景分类

基于小波时频图特征在声音场景分类任务中的表现

2.增强增强高效音频分类网络

https://arxiv.org/pdf/2204.11479v5

https://github.com/Alibaba-MIIL/AudioClassfication

音频分类网络如图4所示。在此阶段,主要重点是建立一个神经网络具有较大的感受野,同时保持较低的复杂性。可以将网络分解为两个主块、1D卷积堆栈和变换器编码器块。前者沿时间轴进行降采样

其中卷积层耦合到固定低通滤波器[29,30],然后是间歇残差块[18]。这个残差块根据[31]进行修改,由深度卷积和大核操作组成f(x)是跨通道操作的核大小等于1的卷积。此时,信号

使用一系列因子di除以总因子d进行抽取=Qdi例如,5秒的信号下采样序列的持续时间等于[4,4,4,4],执行256倍的缩减。这可能是为了在某种程度上与频谱图操作期间进行的下采样有关。以下构建块执行进一步减少,每次减少后都有一堆扩张的残余块[32]。这种改进能够提高在每帧的感受野中,因此对环境类中的可变持续时间事件更具鲁棒性声音场景。使用变压器编码器块实现了跨帧收集特征图,该块然后是全连接层,将嵌入向量投影到类空间。

3.PANNs:大规模预训练音频神经网络音频模式识别

https://arxiv.org/pdf/1912.10211v5

https://github.com/qiuqiangkong/audioset_tagging_cnn

Wavegram CNN和Wavegram Logmel CNN for AudioSet标签。我们提出的Wavegram CNN是一个时域音频标签系统。Wavegram是我们提出的一个功能这类似于log-mel频谱图,但使用神经网络。波形图被设计用来学习傅里叶变换的时频表示转变。波形图具有时间轴和频率轴。频率模式对于音频模式识别很重要,例如,具有不同音高偏移的声音属于同一个班级。波形图旨在学习频率一维CNN中可能缺少的信息系统。波形图也可能比手工制作的原木更好通过学习一种新的时频来获得mel谱图从数据转换。然后,波形图可以代替log-mel光谱图作为输入特征,形成我们的WavegramCNN系统。我们还结合了Wavegram和log-mel频谱图作为构建Wavegram-LogmelCNN系统的新功能.

相关推荐
二进制的Liao9 分钟前
【数据分析】什么是鲁棒性?
运维·论文阅读·算法·数学建模·性能优化·线性回归·负载均衡
思通数科多模态大模型15 分钟前
重构城市应急指挥布控策略 ——无人机智能视频监控的破局之道
人工智能·深度学习·安全·重构·数据挖掘·音视频·无人机
十三画者15 分钟前
【数据分析】R版IntelliGenes用于生物标志物发现的可解释机器学习
python·机器学习·数据挖掘·数据分析·r语言·数据可视化
Jamence9 小时前
多模态大语言模型arxiv论文略读(108)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
FrankHuang88810 小时前
使用高斯朴素贝叶斯算法对鸢尾花数据集进行分类
算法·机器学习·ai·分类
自由鬼12 小时前
数据分析图表类型及其应用场景
信息可视化·数据挖掘·数据分析
张较瘦_13 小时前
[论文阅读] 人工智能 | 用大语言模型解决软件元数据“身份谜题”:科研软件的“认脸”新方案
论文阅读·人工智能·语言模型
Jamence14 小时前
多模态大语言模型arxiv论文略读(106)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
崔高杰15 小时前
To be or Not to be, That‘s a Token——论文阅读笔记——Beyond the 80/20 Rule和R2R
论文阅读·笔记
张较瘦_15 小时前
[论文阅读] 人工智能+软件工程 | 用大模型优化软件性能
论文阅读·人工智能·软件工程