智能语音处理（一）

一、采集流程

声波捕捉

声音通过空气以纵波形式传播，专业电容麦克风通过振膜振动将声压变化转换为连续的模拟电信号。典型声波可表示为：
s(t)=Asin⁡(2πft+ϕ)s(t) = A \sin(2\pi ft + \phi)s(t)=Asin(2πft+ϕ)

其中：
- AAA 为振幅（单位：伏特），对应声音响度
- fff 为频率（单位：Hz），决定音高
- ϕ\phiϕ 为相位角（单位：弧度）
应用示例 ：

在会议室录音场景中，频率范围通常为300-3400Hz（语音主要频段），采样时需确保麦克风频响特性覆盖该范围。专业设备会附加防风罩减少气流噪声，并采用心形指向性模式抑制环境噪声。

信号处理步骤：
1. 声波使麦克风振膜产生位移
2. 电容极板间距变化引起电荷量改变
3. 前置放大器将微弱的皮安级电流转换为毫伏级电压信号
4. 抗混叠滤波器消除20kHz以上高频成分（根据奈奎斯特定理）
*### 信号调理

前置放大

麦克风输出的原始信号通常非常微弱（毫伏级别），无法直接进行数字化处理。前置放大器的作用是将信号放大至适合模数转换器（ADC）处理的电平范围（通常在1Vpp左右）。例如，驻极体麦克风的输出信号约为10mV，经过20-60dB（即10-1000倍）的增益放大后，信号幅度可提升至0.1-10V范围。设计时需注意选择低噪声运算放大器（如OPA1612），并采用差分放大电路以抑制共模干扰。

抗混叠滤波

采样前必须通过抗混叠滤波器（低通滤波器）限制信号带宽，避免高频成分因采样产生混叠失真。根据奈奎斯特采样定理，滤波器截止频率fcf_cfc必须满足fc≤fs2f_c \leq \frac{f_s}{2}fc≤2fs，其中fsf_sfs为采样率。例如，当系统采样率为44.1kHz时，通常设置fc=20kHzf_c=20kHzfc=20kHz的巴特沃斯或切比雪夫滤波器。实际设计中需考虑滤波器滚降特性（如48dB/octave），确保带外衰减足够。

模数转换（ADC）

采样

采样率fsf_sfs需至少为信号最高频率fmaxf_{max}fmax的2倍（fs≥2fmaxf_s \geq 2f_{max}fs≥2fmax）。语音信号带宽通常为300Hz-4kHz，故电话系统采用8kHz采样率；高保真音频（20kHz带宽）则需44.1kHz或48kHz采样率。过采样技术（如128倍过采样）可进一步提升信噪比。

量化

将连续幅值的采样点离散化为有限比特数的数字量。量化位数决定动态范围：16位ADC提供96dB理论动态范围（每比特≈6dB），24位可达144dB。量化误差引入的底噪可通过抖动（Dither）技术改善。例如，CD音频采用16位线性PCM，而专业录音设备常用24位量化。

编码

脉冲编码调制（PCM）是最基础的编码方式，将每个采样点直接转换为二进制码。其他编码方式如：

μ-law/A-law（电话系统使用的非线性压缩编码）
Delta-Sigma调制（过采样+噪声整形，常见于高性能ADC）

数据传输

接口类型

I²S（Inter-IC Sound）：专为音频设计的同步串行接口，包含SCK（时钟）、WS（字选择）、SD（数据）三线。例如，ESP32的I²S接口可支持16/24/32位数据，最高采样率192kHz。
USB Audio：支持UAC（USB Audio Class）协议，可直接传输PCM或压缩音频（如AAC）。例如，USB麦克风通过UAC1.0传输16位/48kHz音频。
蓝牙：采用A2DP（Advanced Audio Distribution Profile）传输压缩音频（如SBC、aptX），或BLE Audio的LC3编码。典型延迟为50-200ms。

数据格式

小端序/大端序
数据对齐方式（如I²S的左对齐/右对齐）
元数据嵌入（如时间戳、声道标记）

注：实际系统中需考虑时钟同步（如使用PLL消除jitter）、数据缓冲（FIFO防溢出）等工程细节。

二、核心硬件详解

麦克风
- 类型：
  - 驻极体电容麦克风（ECM）：成本低，广泛用于消费电子。
  - MEMS麦克风：体积小，抗干扰强，集成度高。
- 关键参数 ：
  - 灵敏度：−42±3dBV/Pa-42 \pm 3dBV/Pa−42±3dBV/Pa
  - 信噪比：≥64dB\geq 64dB≥64dB
  - 频率响应：20Hz−20kHz20Hz-20kHz20Hz−20kHz
前置放大器
- 运算放大器（如TI OPA1677）提供高增益、低噪声放大。
- 输入阻抗匹配：2−10kΩ2-10k\Omega2−10kΩ（匹配麦克风输出阻抗）。
抗混叠滤波器
- 主动滤波器（如Sallen-Key拓扑）：
  H(s)=11+R1C1s+R2C2s2H(s) = \frac{1}{1 + R_1C_1s + R_2C_2s^2}H(s)=1+R1C1s+R2C2s21
- 截止频率典型值：fc=4kHzf_c = 4kHzfc=4kHz（用于 8kHz8kHz8kHz 采样）。
ADC芯片
- 关键指标 ：
  - 采样率：8−192kHz8-192kHz8−192kHz
  - 分辨率：16−3216-3216−32 位（如ADI ADCS7476）
- 接口：I²S、PDM、SPI。
处理器接口
- I²S总线：传输双声道PCM数据，含BCLK（位时钟）、LRCK（帧同步）、DATA线。
- USB音频：符合UAC（USB Audio Class）协议标准。

三、高级配置

麦克风阵列
- 多麦克风空间分布（如线性/环形阵列），实现波束成形：
  y(t)=∑k=1Nwk⋅xk(t−τk)y(t) = \sum_{k=1}^{N} w_k \cdot x_k(t - \tau_k)y(t)=k=1∑Nwk⋅xk(t−τk)
  其中 wkw_kwk 为权重，τk\tau_kτk 为时延补偿。
降噪技术
- 硬件级：声学隔震腔体、防风罩。
- 算法级 ：自适应滤波（如LMS算法）：
  w(n+1)=w(n)+μ⋅e(n)⋅x(n)w(n+1) = w(n) + \mu \cdot e(n) \cdot x(n)w(n+1)=w(n)+μ⋅e(n)⋅x(n)

四、典型系统示例

plaintext 复制代码

麦克风 → 前置放大 → 抗混叠滤波 → ADC（16位/16kHz）→ I²S → MCU → 云端ASR

硬件选型参考：

MEMS麦克风：InvenSense ICS-43434
ADC：Texas Instruments PCM1808
MCU：STMicroelectronics STM32H7（带I²S接口）

通过上述流程与硬件协同，可实现高保真、低延迟的语音信号采集，为后续识别与处理奠定基础。