(done) 声音信号处理基础知识(4) (Understanding Audio Signals for ML)

shimly1234562024-09-24 11:10

来源：https://www.youtube.com/watch?v=daB9naGBVv4

模拟信号特点如下

时域连续(x轴)

振幅连续(y轴)

如下是模拟信号的一个例子：

数字信号特点如下：

一个离散值序列

数据点的值域是一系列有限的值

ADC：模拟信号到数字信号的转换

1.采样

2.量化

采样：对模拟信号进行采样

Locating Samples: 定位样本 T 指的是任意两个采样点之间间隔的时间

T 的倒数就是采样率

低采样率会得到低采样误差

高采样率会得到高采样误差

一个问题：为什么音频采样率大部分时候都是 44100hz ？

通常认为，采样频率至少得是信号频率的两倍以上，否则会发生信号混叠

所以，CD 的 nyquist frequency 是 22050

人类能听到的hz范围是 20~20Khz。因此，只要把 20Khz 的声音采样好就行。

因此，44100hz可以采样到 22050 hz 以下频率的声音而不发生混叠。

这就是音频CD选择 44100hz 采样率的原因

以下是发生混叠 aliasing 的一个例子：

为了把模拟信号转为数字信号，这里有一个步骤叫 "量化"，把振幅的每一个小部分分配给一个离散值

量化的分辨率是上一张图的 bits 的数量，通常也叫做 bit depth。CD的分辨率一般是 16 bits

使用以上信息，可以计算出 CD 中 1min 的音频所需的存储大小是 5.49 MB

一个概念叫 Dynamic range 动态范围

可变化信号最大值和最小值的比值

一般而言，分辨率越大，我们使用的 bit depth 越多，dynamic range 也就越大

SQNR 约等于 6.02 x Q，Q 是 bit depth

对于 CD 来说，由于 bit depth = 16，经过计算，SQNR(16) 约等于 96dB

问一个问题：我们如何记录声音？

我们说话，空气产生震动，震动集中麦克风，麦克风组件开始震动，麦克风组件的震动产生电子模拟信号，模拟信号传给 ADC，ADC应用采样率和量化避免混叠（可能还有低通滤波器过滤掉超过 nyquist frequency 的信号），最终得到一个数字信号，存入电脑中

如下图是重建声音的过程，经过一个 DAC

上一篇：【FFT】信号处理——快速傅里叶变换【通俗易懂】

下一篇：【项目】多设计模式下的同步异步日志系统

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI科技热点日报 | 2026年07月01日 092026 年 AI 大模型 & AI 编程工具实战全总结 102026上半年大模型全景技术解读：推理融合、Agent 爆发与多模态统一