参考:https://www.youtube.com/watch?v=8A-W1xk7qs8\&t=2s
先复习之前分类的声学特征
时域特征流水线
如下是 441Khz 下一个采样点播放的时间。这比人类耳朵分辨率(10ms)还低。
所以,把多个采样点组合成一个 frame 的原因有,这是一个人类可识别的 audio chunk
还有一点是,frame 包含的采样点通常是 2 的幂次方。原因是:这个数量可以加快 傅里叶变换 等计算的速度
经典的采样点数量是 256 ~ 8192
下面有一个公式,能计算 1 frame 持续时长
时域特征流水线经过补充如下
频域特征需要在时域特征做了 framing 后,使用 FFT 转为频域特征。
FFT 有一个问题:频谱泄露 spectral leakage
问题发生原因:我们处理的信号的长度往往不是信号周期的整数倍
还有一个问题:采样信号的末端,在两段信号连接后并不连续
做 FFT 时,这种末端不连续会出现很多次,在频谱里看起来就是多了不存在的高频部分
频谱泄露现象如下图
解决方案:加窗函数
每个 frame 加一个窗,消除 frame 两端的样本点,随后重叠,产生一个周期信号
经典窗函数,汉明窗,两端瘦,中间肥
应用起来如下,每个样本点 k,处理后的信号是 s(k) x w(k)
一个 frame 处理后的信号如下
此时把这些信号连在一块,依然有些部分损失了,解决方案是把它们重叠在一起
所以,频域的特征流水线如下图,要加个汉明窗