(done) 声音信号处理基础知识(6) (How to Extract Audio Features)

参考:https://www.youtube.com/watch?v=8A-W1xk7qs8\&t=2s


先复习之前分类的声学特征

时域特征流水线

如下是 441Khz 下一个采样点播放的时间。这比人类耳朵分辨率(10ms)还低。

所以,把多个采样点组合成一个 frame 的原因有,这是一个人类可识别的 audio chunk

还有一点是,frame 包含的采样点通常是 2 的幂次方。原因是:这个数量可以加快 傅里叶变换 等计算的速度

经典的采样点数量是 256 ~ 8192

下面有一个公式,能计算 1 frame 持续时长

时域特征流水线经过补充如下

频域特征需要在时域特征做了 framing 后,使用 FFT 转为频域特征。

FFT 有一个问题:频谱泄露 spectral leakage

问题发生原因:我们处理的信号的长度往往不是信号周期的整数倍

还有一个问题:采样信号的末端,在两段信号连接后并不连续

做 FFT 时,这种末端不连续会出现很多次,在频谱里看起来就是多了不存在的高频部分

频谱泄露现象如下图

解决方案:加窗函数

每个 frame 加一个窗,消除 frame 两端的样本点,随后重叠,产生一个周期信号

经典窗函数,汉明窗,两端瘦,中间肥

应用起来如下,每个样本点 k,处理后的信号是 s(k) x w(k)

一个 frame 处理后的信号如下

此时把这些信号连在一块,依然有些部分损失了,解决方案是把它们重叠在一起

所以,频域的特征流水线如下图,要加个汉明窗

相关推荐
shandianchengzi4 天前
【记录】AU|什么是泛音和音高,在频谱上如何体现?人类和乐器的区别明显吗?走近基本知识:从泛音列到人声奥秘的声学探索
音频·媒体·声音·au
民乐团扒谱机5 个月前
【微实验】圆周运动的正弦信号发生仿真及其衍生(三)
经验分享·matlab·仿真·信号与系统·声音·微实验
ue星空1 年前
UE播放声音
ue5·声音
Augus1 年前
解决电脑突然没有声音
电脑·声音
shimly1234561 年前
(done) 声音信号处理基础知识(4) (Understanding Audio Signals for ML)
声音
shimly1234561 年前
(undone) 学习语音学中关于 i-vector 和 x-vector
声音
williamdsy1 年前
【ubuntu】没有声音??连不上网络???
网络·ubuntu·声音·timout
weixin_422201301 年前
手机如何播放电脑的声音?
电脑·手机·声音·播放·外放
亚图跨际2 年前
Python神经网络提取音乐数据和开放C++音频图形框架
c++·python·神经网络·跨平台·信号·声音·傅里叶