(done) 声音信号处理基础知识(6) (How to Extract Audio Features)

参考:https://www.youtube.com/watch?v=8A-W1xk7qs8\&t=2s


先复习之前分类的声学特征

时域特征流水线

如下是 441Khz 下一个采样点播放的时间。这比人类耳朵分辨率(10ms)还低。

所以,把多个采样点组合成一个 frame 的原因有,这是一个人类可识别的 audio chunk

还有一点是,frame 包含的采样点通常是 2 的幂次方。原因是:这个数量可以加快 傅里叶变换 等计算的速度

经典的采样点数量是 256 ~ 8192

下面有一个公式,能计算 1 frame 持续时长

时域特征流水线经过补充如下

频域特征需要在时域特征做了 framing 后,使用 FFT 转为频域特征。

FFT 有一个问题:频谱泄露 spectral leakage

问题发生原因:我们处理的信号的长度往往不是信号周期的整数倍

还有一个问题:采样信号的末端,在两段信号连接后并不连续

做 FFT 时,这种末端不连续会出现很多次,在频谱里看起来就是多了不存在的高频部分

频谱泄露现象如下图

解决方案:加窗函数

每个 frame 加一个窗,消除 frame 两端的样本点,随后重叠,产生一个周期信号

经典窗函数,汉明窗,两端瘦,中间肥

应用起来如下,每个样本点 k,处理后的信号是 s(k) x w(k)

一个 frame 处理后的信号如下

此时把这些信号连在一块,依然有些部分损失了,解决方案是把它们重叠在一起

所以,频域的特征流水线如下图,要加个汉明窗

相关推荐
shimly1234563 天前
(done) 声音信号处理基础知识(4) (Understanding Audio Signals for ML)
声音
shimly1234566 天前
(undone) 学习语音学中关于 i-vector 和 x-vector
声音
williamdsy2 个月前
【ubuntu】没有声音??连不上网络???
网络·ubuntu·声音·timout
weixin_422201302 个月前
手机如何播放电脑的声音?
电脑·手机·声音·播放·外放
亚图跨际5 个月前
Python神经网络提取音乐数据和开放C++音频图形框架
c++·python·神经网络·跨平台·信号·声音·傅里叶
放羊的牧码8 个月前
MacOS - 菜单栏上显示『音量』
macos·设置·声音·菜单栏·音量·显示 隐藏·控制中心
地理探险家9 个月前
鸟类分类、鸟类声音相关深度学习数据集大合集
人工智能·深度学习·分类·数据集·声音·鸟类·动物
地理探险家10 个月前
各类声音数据集大合集—乐器、车辆、鸟鸣、蜜蜂声音、歌曲、喇叭、人类声音不同等类型的声音数据集
深度学习·数据集·音频·声音·乐器·喇叭·叫声