(done) 声音信号处理基础知识(6) （How to Extract Audio Features）

shimly1234562024-09-26 15:18

先复习之前分类的声学特征

时域特征流水线

如下是 441Khz 下一个采样点播放的时间。这比人类耳朵分辨率(10ms)还低。

所以，把多个采样点组合成一个 frame 的原因有，这是一个人类可识别的 audio chunk

还有一点是，frame 包含的采样点通常是 2 的幂次方。原因是：这个数量可以加快傅里叶变换等计算的速度

经典的采样点数量是 256 ~ 8192

下面有一个公式，能计算 1 frame 持续时长

时域特征流水线经过补充如下

频域特征需要在时域特征做了 framing 后，使用 FFT 转为频域特征。

FFT 有一个问题：频谱泄露 spectral leakage

问题发生原因：我们处理的信号的长度往往不是信号周期的整数倍

还有一个问题：采样信号的末端，在两段信号连接后并不连续

做 FFT 时，这种末端不连续会出现很多次，在频谱里看起来就是多了不存在的高频部分

频谱泄露现象如下图

解决方案：加窗函数

每个 frame 加一个窗，消除 frame 两端的样本点，随后重叠，产生一个周期信号

经典窗函数，汉明窗，两端瘦，中间肥

应用起来如下，每个样本点 k，处理后的信号是 s(k) x w(k)

一个 frame 处理后的信号如下

此时把这些信号连在一块，依然有些部分损失了，解决方案是把它们重叠在一起

所以，频域的特征流水线如下图，要加个汉明窗