(done) 声音信号处理基础知识(6) (How to Extract Audio Features)

参考:https://www.youtube.com/watch?v=8A-W1xk7qs8\&t=2s


先复习之前分类的声学特征

时域特征流水线

如下是 441Khz 下一个采样点播放的时间。这比人类耳朵分辨率(10ms)还低。

所以,把多个采样点组合成一个 frame 的原因有,这是一个人类可识别的 audio chunk

还有一点是,frame 包含的采样点通常是 2 的幂次方。原因是:这个数量可以加快 傅里叶变换 等计算的速度

经典的采样点数量是 256 ~ 8192

下面有一个公式,能计算 1 frame 持续时长

时域特征流水线经过补充如下

频域特征需要在时域特征做了 framing 后,使用 FFT 转为频域特征。

FFT 有一个问题:频谱泄露 spectral leakage

问题发生原因:我们处理的信号的长度往往不是信号周期的整数倍

还有一个问题:采样信号的末端,在两段信号连接后并不连续

做 FFT 时,这种末端不连续会出现很多次,在频谱里看起来就是多了不存在的高频部分

频谱泄露现象如下图

解决方案:加窗函数

每个 frame 加一个窗,消除 frame 两端的样本点,随后重叠,产生一个周期信号

经典窗函数,汉明窗,两端瘦,中间肥

应用起来如下,每个样本点 k,处理后的信号是 s(k) x w(k)

一个 frame 处理后的信号如下

此时把这些信号连在一块,依然有些部分损失了,解决方案是把它们重叠在一起

所以,频域的特征流水线如下图,要加个汉明窗

相关推荐
民乐团扒谱机16 天前
【微实验】圆周运动的正弦信号发生仿真及其衍生(三)
经验分享·matlab·仿真·信号与系统·声音·微实验
ue星空7 个月前
UE播放声音
ue5·声音
Augus10 个月前
解决电脑突然没有声音
电脑·声音
shimly1234561 年前
(done) 声音信号处理基础知识(4) (Understanding Audio Signals for ML)
声音
shimly1234561 年前
(undone) 学习语音学中关于 i-vector 和 x-vector
声音
williamdsy1 年前
【ubuntu】没有声音??连不上网络???
网络·ubuntu·声音·timout
weixin_422201301 年前
手机如何播放电脑的声音?
电脑·手机·声音·播放·外放
亚图跨际1 年前
Python神经网络提取音乐数据和开放C++音频图形框架
c++·python·神经网络·跨平台·信号·声音·傅里叶
放羊的牧码2 年前
MacOS - 菜单栏上显示『音量』
macos·设置·声音·菜单栏·音量·显示 隐藏·控制中心