(done) 声音信号处理基础知识(4) (Understanding Audio Signals for ML)

来源:https://www.youtube.com/watch?v=daB9naGBVv4


模拟信号特点如下

时域连续(x轴)

振幅连续(y轴)

如下是模拟信号的一个例子:

数字信号特点如下:

一个离散值序列

数据点的值域是一系列有限的值

ADC:模拟信号到数字信号的转换

1.采样

2.量化

采样:对模拟信号进行采样

Locating Samples: 定位样本 T 指的是任意两个采样点之间间隔的时间

T 的倒数就是采样率

低采样率会得到低采样误差

高采样率会得到高采样误差

一个问题:为什么音频采样率大部分时候都是 44100hz ?

通常认为,采样频率至少得是信号频率的两倍以上,否则会发生信号混叠

所以,CD 的 nyquist frequency 是 22050

人类能听到的hz范围是 20~20Khz。因此,只要把 20Khz 的声音采样好就行。

因此,44100hz可以采样到 22050 hz 以下频率的声音而不发生混叠。

这就是音频CD选择 44100hz 采样率的原因

以下是发生混叠 aliasing 的一个例子:

为了把模拟信号转为数字信号,这里有一个步骤叫 "量化",把振幅的每一个小部分分配给一个离散值

量化的分辨率是上一张图的 bits 的数量,通常也叫做 bit depth。CD的分辨率一般是 16 bits

使用以上信息,可以计算出 CD 中 1min 的音频所需的存储大小是 5.49 MB

一个概念叫 Dynamic range 动态范围

可变化信号最大值和最小值的比值

一般而言,分辨率越大,我们使用的 bit depth 越多,dynamic range 也就越大

SQNR 约等于 6.02 x Q,Q 是 bit depth

对于 CD 来说,由于 bit depth = 16,经过计算,SQNR(16) 约等于 96dB

问一个问题:我们如何记录声音?

我们说话,空气产生震动,震动集中麦克风,麦克风组件开始震动,麦克风组件的震动产生电子模拟信号,模拟信号传给 ADC,ADC应用采样率和量化避免混叠(可能还有低通滤波器过滤掉超过 nyquist frequency 的信号),最终得到一个数字信号,存入电脑中

如下图是重建声音的过程,经过一个 DAC

相关推荐
shimly1234563 天前
(undone) 学习语音学中关于 i-vector 和 x-vector
声音
williamdsy2 个月前
【ubuntu】没有声音??连不上网络???
网络·ubuntu·声音·timout
weixin_422201302 个月前
手机如何播放电脑的声音?
电脑·手机·声音·播放·外放
亚图跨际5 个月前
Python神经网络提取音乐数据和开放C++音频图形框架
c++·python·神经网络·跨平台·信号·声音·傅里叶
放羊的牧码7 个月前
MacOS - 菜单栏上显示『音量』
macos·设置·声音·菜单栏·音量·显示 隐藏·控制中心
地理探险家9 个月前
鸟类分类、鸟类声音相关深度学习数据集大合集
人工智能·深度学习·分类·数据集·声音·鸟类·动物
地理探险家10 个月前
各类声音数据集大合集—乐器、车辆、鸟鸣、蜜蜂声音、歌曲、喇叭、人类声音不同等类型的声音数据集
深度学习·数据集·音频·声音·乐器·喇叭·叫声