音频处理基础理论：从物理声波到数字信号完整知识体系

1 引言：音频信号的双重属性

音频处理作为数字信号处理（DSP）的重要分支，研究对象是机械振动在弹性介质中的传播 与电信号/数字序列之间的相互转换与 manipulation。理解音频处理需要建立跨学科的认知框架：在物理层面，它是声学（Acoustics）研究的机械波现象；在数学层面，它遵循信号与系统的分析理论；在感知层面，它又受到心理声学（Psychoacoustics）的约束。

本文将从物理声学基础出发，逐步构建采样量化理论、频域分析体系、滤波器设计原理以及心理声学模型，建立完整的音频处理理论框架。所有论述均基于连续域与离散域的数学描述，为后续的工程实践奠定理论基础。

2 物理声学基础：声波的数学描述

2.1 声波的传播方程与波动特性

声波本质上是纵波（Longitudinal Wave），表现为介质质点在传播方向上的疏密交替振动。在理想流体介质中，声压 p ( x , t ) p(x,t) p(x,t) 满足三维波动方程：

∇ 2 p − 1 c 2 ∂ 2 p ∂ t 2 = 0 \nabla^2 p - \frac{1}{c^2} \frac{\partial^2 p}{\partial t^2} = 0 ∇2p−c21∂t2∂2p=0

其中 c c c 为声速（空气中约 343 m/s 343\text{m/s} 343m/s， 20 ∘ C 20^\circ\text{C} 20∘C 时）， ∇ 2 \nabla^2 ∇2 为拉普拉斯算子。对于平面波情形，方程简化为一维波动方程：

∂ 2 p ∂ x 2 = 1 c 2 ∂ 2 p ∂ t 2 \frac{\partial^2 p}{\partial x^2} = \frac{1}{c^2} \frac{\partial^2 p}{\partial t^2} ∂x2∂2p=c21∂t2∂2p

其通解为 p ( x , t ) = f ( x − c t ) + g ( x + c t ) p(x,t) = f(x-ct) + g(x+ct) p(x,t)=f(x−ct)+g(x+ct)，表示沿 x x x 轴正向与反向传播的两个独立波。对于单频正弦声波，声压可表示为：

p ( x , t ) = P 0 cos ⁡ ( k x − ω t + ϕ ) p(x,t) = P_0 \cos(kx - \omega t + \phi) p(x,t)=P0cos(kx−ωt+ϕ)

其中 k = ω c = 2 π f c k = \frac{\omega}{c} = \frac{2\pi f}{c} k=cω=c2πf 为波数（Wave Number）， ω = 2 π f \omega = 2\pi f ω=2πf 为角频率， ϕ \phi ϕ 为初相位。

2.2 声压级与强度：对数量度的物理基础

人耳可感知的声压范围极宽（ 20 μ Pa 20\mu\text{Pa} 20μPa 至 20 Pa 20\text{Pa} 20Pa），因此引入对数标度描述声压级（Sound Pressure Level, SPL）：

L p = 20 log ⁡ 10 ( p rms p ref ) L_p = 20 \log_{10}\left(\frac{p_{\text{rms}}}{p_{\text{ref}}}\right) Lp=20log10(prefprms)

参考声压 p ref = 20 μ Pa p_{\text{ref}} = 20\mu\text{Pa} pref=20μPa（空气中听阈）。声强级（Sound Intensity Level）定义为：

L I = 10 log ⁡ 10 ( I I ref ) L_I = 10 \log_{10}\left(\frac{I}{I_{\text{ref}}}\right) LI=10log10(IrefI)

其中 I ref = 10 − 12 W/m 2 I_{\text{ref}} = 10^{-12}\text{W/m}^2 Iref=10−12W/m2。由于声强 I I I 与声压平方成正比（ I = p 2 ρ c I = \frac{p^2}{\rho c} I=ρcp2， ρ \rho ρ 为介质密度），两者数值相等但物理意义不同。

关键概念：分贝（dB）的叠加原理 。两个相同声压级 L L L 的相干声源叠加，总声压级为：

L total = L + 20 log ⁡ 10 ( 2 ) ≈ L + 6 dB L_{\text{total}} = L + 20 \log_{10}(2) \approx L + 6\text{dB} Ltotal=L+20log10(2)≈L+6dB

而非相干叠加则为 L + 3 dB L + 3\text{dB} L+3dB，这反映了相位关系对能量叠加的影响。

2.3 频谱与音色：傅里叶分解的物理意义

任何周期声波均可分解为基频与谐波的叠加（傅里叶级数）：

p ( t ) = ∑ n = 1 ∞ A n cos ⁡ ( n ω 0 t + ϕ n ) p(t) = \sum_{n=1}^{\infty} A_n \cos(n\omega_0 t + \phi_n) p(t)=n=1∑∞Ancos(nω0t+ϕn)

其中 ω 0 \omega_0 ω0 为基频， n ω 0 n\omega_0 nω0 为第 n n n 次谐波。**音色（Timbre）**正是由谐波成分的相对幅度 A n A_n An 与相位 ϕ n \phi_n ϕn 决定的感知属性。对于非周期信号（如瞬态打击声），需采用傅里叶变换扩展至连续频域：

P ( ω ) = ∫ − ∞ ∞ p ( t ) e − j ω t d t P(\omega) = \int_{-\infty}^{\infty} p(t) e^{-j\omega t} dt P(ω)=∫−∞∞p(t)e−jωtdt

频谱 P ( ω ) P(\omega) P(ω) 的模 ∣ P ( ω ) ∣ |P(\omega)| ∣P(ω)∣ 表示各频率分量的能量分布，相位谱 arg ⁡ ( P ( ω ) ) \arg(P(\omega)) arg(P(ω)) 则包含时间对齐信息。值得注意的是，人耳对相位谱的敏感度远低于幅度谱，这成为许多音频压缩算法的理论基础。

3 采样与量化：连续到离散的数学 bridge

3.1 奈奎斯特-香农采样定理

将连续时间信号 x ( t ) x(t) x(t) 转换为离散序列 x [ n ] x[n] x[n] 的核心操作是理想采样 （Ideal Sampling），数学上建模为与冲激串 ∑ n = − ∞ ∞ δ ( t − n T s ) \sum_{n=-\infty}^{\infty} \delta(t-nT_s) ∑n=−∞∞δ(t−nTs) 的乘积：

x s ( t ) = x ( t ) ⋅ ∑ n = − ∞ ∞ δ ( t − n T s ) = ∑ n = − ∞ ∞ x ( n T s ) δ ( t − n T s ) x_s(t) = x(t) \cdot \sum_{n=-\infty}^{\infty} \delta(t-nT_s) = \sum_{n=-\infty}^{\infty} x(nT_s)\delta(t-nT_s) xs(t)=x(t)⋅n=−∞∑∞δ(t−nTs)=n=−∞∑∞x(nTs)δ(t−nTs)

其中 T s T_s Ts 为采样周期， f s = 1 T s f_s = \frac{1}{T_s} fs=Ts1 为采样率。采样信号的频谱 X s ( f ) X_s(f) Xs(f) 是原信号频谱 X ( f ) X(f) X(f) 的周期延拓：

X s ( f ) = f s ∑ k = − ∞ ∞ X ( f − k f s ) X_s(f) = f_s \sum_{k=-\infty}^{\infty} X(f - kf_s) Xs(f)=fsk=−∞∑∞X(f−kfs)

奈奎斯特-香农采样定理 指出：若信号 x ( t ) x(t) x(t) 为带限信号（Band-limited），即 ∣ f ∣ > f max |f| > f_{\text{max}} ∣f∣>fmax 时 X ( f ) = 0 X(f) = 0 X(f)=0，则当采样率满足：

f s ≥ 2 f max f_s \geq 2f_{\text{max}} fs≥2fmax

时，原信号可从采样序列完美重建。 f N = 2 f max f_N = 2f_{\text{max}} fN=2fmax 称为奈奎斯特率 （Nyquist Rate）， f s / 2 f_s/2 fs/2 称为奈奎斯特频率（Nyquist Frequency）或折叠频率。

若采样率不足（ f s < 2 f max f_s < 2f_{\text{max}} fs<2fmax），高频分量将折叠至基带，产生混叠失真 （Aliasing）。抗混叠滤波器（Anti-aliasing Filter）需在采样前将信号带宽限制至 f s / 2 f_s/2 fs/2 以下。

3.2 量化误差与信噪比理论

采样后的离散时间信号幅度仍为连续值，量化（Quantization）将其映射至有限精度的离散电平。对于 B B B 位均匀量化（Uniform Quantization），量化步长 Δ = V ref 2 B \Delta = \frac{V_{\text{ref}}}{2^B} Δ=2BVref，其中 V ref V_{\text{ref}} Vref 为满量程电压。

量化误差 e [ n ] = x q [ n ] − x [ n ] e[n] = x_q[n] - x[n] e[n]=xq[n]−x[n] 在 [ − Δ / 2 , Δ / 2 ] [-\Delta/2, \Delta/2] [−Δ/2,Δ/2] 内近似均匀分布，其功率（方差）为：

σ e 2 = Δ 2 12 = V ref 2 12 ⋅ 2 2 B \sigma_e^2 = \frac{\Delta^2}{12} = \frac{V_{\text{ref}}^2}{12 \cdot 2^{2B}} σe2=12Δ2=12⋅22BVref2

假设输入信号为正弦波 x ( t ) = A sin ⁡ ( ω t ) x(t) = A\sin(\omega t) x(t)=Asin(ωt)，其功率 P s = A 2 2 P_s = \frac{A^2}{2} Ps=2A2。当信号幅度匹配满量程（ A = V ref / 2 A = V_{\text{ref}}/2 A=Vref/2）时，理论信噪比（Signal-to-Quantization-Noise Ratio, SQNR）为：

SQNR = P s σ e 2 = 3 2 ⋅ 2 2 B \text{SQNR} = \frac{P_s}{\sigma_e^2} = \frac{3}{2} \cdot 2^{2B} SQNR=σe2Ps=23⋅22B

转换为分贝形式：

SQNR dB ≈ 6.02 B + 1.76 dB \text{SQNR}_{\text{dB}} \approx 6.02B + 1.76\text{dB} SQNRdB≈6.02B+1.76dB

此公式揭示音频领域的核心规律：每增加1位量化深度，理论信噪比提升约6dB。16位量化的理论SQNR约为98dB，足以覆盖人耳动态范围（约96dB）；24位量化则达到146dB，满足专业录音的 headroom 需求。

抖动（Dither）技术：当量化低电平信号时，相关性量化误差会产生谐波失真。通过添加微小的高频噪声（通常为白噪声或三角概率密度噪声）再量化，可将相关性误差转化为不相关的宽带噪声，消除谐波失真并保留信号细节。

3.3 脉冲编码调制与差分编码

脉冲编码调制 （PCM, Pulse Code Modulation）是数字音频的基础格式，直接存储量化后的幅度值。其数据率 R = f s × B × N c R = f_s \times B \times N_c R=fs×B×Nc（ N c N_c Nc 为声道数）。CD音质标准为 44.1 kHz × 16 bit × 2 = 1411.2 kbps 44.1\text{kHz} \times 16\text{bit} \times 2 = 1411.2\text{kbps} 44.1kHz×16bit×2=1411.2kbps。

差分脉冲编码调制 （DPCM）利用音频信号的时域相关性，编码当前样本与预测值的差值而非绝对幅度。若采用线性预测 $\\hat{x}\[n\] = \\sum_{i=1}\^{p} a_i x\[n-i\]$ ，则传输残差 d [ n ] = x [ n ] − x ^ [ n ] d[n] = x[n] - \hat{x}[n] d[n]=x[n]−x^[n]。由于残差方差通常远小于原信号，可在相同比特数下获得更高SQNR，或降低比特率保持同等质量。

自适应量化 （Adaptive Quantization）根据信号局部特性动态调整量化步长：大信号时使用大步长避免削波，小信号时使用小步长减少噪声。这与 μ \mu μ-律/A-律压扩（Companding）共同构成早期电话系统的核心技术。

4 频域分析：从时域到频域的变换理论

4.1 离散时间傅里叶变换与DFT

离散时间信号 x [ n ] x[n] x[n] 的频域表示由离散时间傅里叶变换（DTFT）给出：

X ( e j ω ) = ∑ n = − ∞ ∞ x [ n ] e − j ω n X(e^{j\omega}) = \sum_{n=-\infty}^{\infty} x[n] e^{-j\omega n} X(ejω)=n=−∞∑∞x[n]e−jωn

X ( e j ω ) X(e^{j\omega}) X(ejω) 是周期为 2 π 2\pi 2π 的连续函数，对应模拟频率 f = ω f s 2 π f = \frac{\omega f_s}{2\pi} f=2πωfs。

实际计算中，对有限长序列 x [ n ] , n = 0 , ... , N − 1 x[n], n=0,\dots,N-1 x[n],n=0,...,N−1，采用离散傅里叶变换（DFT）：

X [ k ] = ∑ n = 0 N − 1 x [ n ] e − j 2 π N k n , k = 0 , ... , N − 1 X[k] = \sum_{n=0}^{N-1} x[n] e^{-j\frac{2\pi}{N}kn}, \quad k=0,\dots,N-1 X[k]=n=0∑N−1x[n]e−jN2πkn,k=0,...,N−1

DFT将时域 N N N 点序列映射为频域 N N N 点序列，频率分辨率为 Δ f = f s N \Delta f = \frac{f_s}{N} Δf=Nfs。快速傅里叶变换 （FFT）是DFT的快速算法，将复杂度从 O ( N 2 ) O(N^2) O(N2) 降至 O ( N log ⁡ N ) O(N\log N) O(NlogN)。

频谱泄漏与窗函数 ：DFT假设信号在时域周期延拓。若信号频率不正好落在DFT bin中心（即非整数周期截断），频谱能量将泄漏至相邻频率，产生旁瓣。通过加窗（Windowing） x w [ n ] = x [ n ] ⋅ w [ n ] x_w[n] = x[n] \cdot w[n] xw[n]=x[n]⋅w[n] 可抑制泄漏，常用窗函数包括汉宁窗（Hanning）、汉明窗（Hamming）、布莱克曼窗（Blackman）等，各自在主瓣宽度与旁瓣衰减间权衡。

4.2 短时傅里叶变换与语谱图

音频信号是非平稳信号 （Non-stationary），其频谱特性随时间变化。为分析局部频谱，采用短时傅里叶变换（STFT）：

X ( m , ω ) = ∑ n = − ∞ ∞ x [ n ] w [ n − m ] e − j ω n X(m,\omega) = \sum_{n=-\infty}^{\infty} x[n]w[n-m]e^{-j\omega n} X(m,ω)=n=−∞∑∞x[n]w[n−m]e−jωn

其中 w [ n ] w[n] w[n] 为有限长分析窗（通常为Hamming或Hann窗）， m m m 为窗中心位置。STFT在时频平面上形成二维表示，其模平方 ∣ X ( m , ω ) ∣ 2 |X(m,\omega)|^2 ∣X(m,ω)∣2 称为语谱图（Spectrogram），可视化频率成分的时间演化。

海森堡不确定性原理 在时频分析中的体现：时间分辨率 Δ t \Delta t Δt 与频率分辨率 Δ f \Delta f Δf 满足 Δ t ⋅ Δ f ≥ 1 4 π \Delta t \cdot \Delta f \geq \frac{1}{4\pi} Δt⋅Δf≥4π1。窄窗提供高时间分辨率但低频率分辨率，宽窗反之。这解释了为何瞬态信号（如打击乐）需要短窗，而谐波分析需要长窗。

4.3 Z变换与系统函数

Z变换是分析离散时间系统的有力工具，定义为：

X ( z ) = ∑ n = − ∞ ∞ x [ n ] z − n X(z) = \sum_{n=-\infty}^{\infty} x[n]z^{-n} X(z)=n=−∞∑∞x[n]z−n

其中 z = r e j ω z = re^{j\omega} z=rejω 为复变量。当 ∣ z ∣ = 1 |z| = 1 ∣z∣=1（单位圆）时，Z变换退化为DTFT。

线性时不变（LTI）系统由冲激响应 h [ n ] h[n] h[n] 完全表征，其输出为输入与冲激响应的卷积：

y [ n ] = x [ n ] ∗ h [ n ] = ∑ k = − ∞ ∞ x [ k ] h [ n − k ] y[n] = x[n] * h[n] = \sum_{k=-\infty}^{\infty} x[k]h[n-k] y[n]=x[n]∗h[n]=k=−∞∑∞x[k]h[n−k]

Z域中，卷积变为乘积 Y ( z ) = H ( z ) X ( z ) Y(z) = H(z)X(z) Y(z)=H(z)X(z)，其中 H ( z ) H(z) H(z) 为系统函数 或传递函数。系统的频率响应即 H ( e j ω ) H(e^{j\omega}) H(ejω)。

极零点分析 ：将 H ( z ) H(z) H(z) 因式分解：

H ( z ) = ∏ k = 1 M ( 1 − c k z − 1 ) ∏ k = 1 N ( 1 − d k z − 1 ) H(z) = \frac{\prod_{k=1}^{M}(1-c_kz^{-1})}{\prod_{k=1}^{N}(1-d_kz^{-1})} H(z)=∏k=1N(1−dkz−1)∏k=1M(1−ckz−1)

c k c_k ck 为零点（使 H ( c k ) = 0 H(c_k)=0 H(ck)=0）， d k d_k dk 为极点（使 H ( d k ) → ∞ H(d_k)\to\infty H(dk)→∞）。极点位置决定系统稳定性（因果稳定要求所有极点位于单位圆内），极零点位置共同决定频率响应的峰谷特性。

5 数字滤波器理论：频谱塑造的数学工具

5.1 滤波器分类与技术指标

数字滤波器按频率选择特性分为低通（LPF）、高通（HPF）、带通（BPF）、带阻（BEF）和全通（APF）。技术指标包括：

通带截止频率 ω p \omega_p ωp 与阻带截止频率 ω s \omega_s ωs
通带最大衰减 α p \alpha_p αp（通常 0.5 dB 0.5\text{dB} 0.5dB 或 1 dB 1\text{dB} 1dB）与阻带最小衰减 α s \alpha_s αs（通常 40 dB 40\text{dB} 40dB 至 60 dB 60\text{dB} 60dB）
过渡带宽度 Δ ω = ω s − ω p \Delta\omega = \omega_s - \omega_p Δω=ωs−ωp
相位响应：线性相位 vs 非线性相位

吉布斯现象：理想滤波器（矩形频率响应）的冲激响应为sinc函数，无限长且非因果。用有限长窗截断时，频域出现过冲（Overshoot）和振铃（Ringing），通带与阻带边缘产生约9%的波动。

5.2 FIR滤波器与线性相位特性

有限冲激响应（FIR）滤波器的输出仅依赖有限个输入样本：

y [ n ] = ∑ k = 0 N − 1 h [ k ] x [ n − k ] y[n] = \sum_{k=0}^{N-1} h[k]x[n-k] y[n]=k=0∑N−1h[k]x[n−k]

其系统函数为 z − 1 z^{-1} z−1 的多项式 H ( z ) = ∑ k = 0 N − 1 h [ k ] z − k H(z) = \sum_{k=0}^{N-1} h[k]z^{-k} H(z)=∑k=0N−1h[k]z−k，冲激响应长度 N N N，阶数 N − 1 N-1 N−1。

线性相位条件 ：若系数满足对称性 h [ k ] = ± h [ N − 1 − k ] h[k] = \pm h[N-1-k] h[k]=±h[N−1−k]，则滤波器具有严格线性相位 ϕ ( ω ) = − N − 1 2 ω \phi(\omega) = -\frac{N-1}{2}\omega ϕ(ω)=−2N−1ω，群延迟 τ = N − 1 2 \tau = \frac{N-1}{2} τ=2N−1 为常数。这对音频处理至关重要，因为非线性相位会导致不同频率成分时间对齐失真（相位失真），表现为声音"模糊"或"空间感"丧失。

FIR设计方法包括窗函数法（Window Method）、频率采样法（Frequency Sampling）和最优等波纹法（Parks-McClellan算法，Remez交换算法）。

5.3 IIR滤波器与递归结构

无限冲激响应（IIR）滤波器引入反馈回路，差分方程包含输出项：

y [ n ] = ∑ k = 0 M b k x [ n − k ] − ∑ k = 1 N a k y [ n − k ] y[n] = \sum_{k=0}^{M} b_k x[n-k] - \sum_{k=1}^{N} a_k y[n-k] y[n]=k=0∑Mbkx[n−k]−k=1∑Naky[n−k]

系统函数为有理分式：

H ( z ) = ∑ k = 0 M b k z − k 1 + ∑ k = 1 N a k z − k = B ( z ) A ( z ) H(z) = \frac{\sum_{k=0}^{M} b_k z^{-k}}{1 + \sum_{k=1}^{N} a_k z^{-k}} = \frac{B(z)}{A(z)} H(z)=1+∑k=1Nakz−k∑k=0Mbkz−k=A(z)B(z)

IIR滤波器可用较低阶数实现陡峭过渡带，但存在稳定性问题（极点必须位于单位圆内）且相位非线性。常用设计方法是模拟原型法（巴特沃斯、切比雪夫、椭圆滤波器）经双线性变换（Bilinear Transform）映射至数字域：

s = 2 T ⋅ 1 − z − 1 1 + z − 1 s = \frac{2}{T} \cdot \frac{1-z^{-1}}{1+z^{-1}} s=T2⋅1+z−11−z−1

该变换将模拟域的整个 j Ω j\Omega jΩ 轴映射至数字域单位圆，避免了混叠，但引入频率畸变（Frequency Warping），需在模拟域预畸变补偿。

6 心理声学：感知编码的理论基石

6.1 听觉阈值与临界频带

人耳可听频率范围约 20 Hz 20\text{Hz} 20Hz 至 20 kHz 20\text{kHz} 20kHz，但对不同频率敏感度差异巨大。等响度曲线 （Fletcher-Munson曲线/ISO 226标准）显示，人耳对 2 kHz 2\text{kHz} 2kHz 至 5 kHz 5\text{kHz} 5kHz 最敏感（外耳道共振与基底膜特性），对高低频需更高声压级才能感知同等响度。

临界频带 （Critical Band）是心理声学的核心概念，指耳蜗基底膜上特定区域，其内的声音在感知上无法区分频率差异。带宽约 100 Hz 100\text{Hz} 100Hz（低频）至 4 kHz 4\text{kHz} 4kHz（高频），对应巴克刻度 （Bark Scale）， z = 13 arctan ⁡ ( 0.00076 f ) + 3.5 arctan ⁡ ( ( f / 7500 ) 2 ) z = 13\arctan(0.00076f) + 3.5\arctan((f/7500)^2) z=13arctan(0.00076f)+3.5arctan((f/7500)2)。共24个临界频带，每个带宽约 1.3 mm 1.3\text{mm} 1.3mm 基底膜长度。

同时掩蔽 （Simultaneous Masking）：强信号（掩蔽者）使其临界频带内及附近 weaker 信号（被掩蔽者）的听觉阈值提高。掩蔽量取决于频率距离与声压级差。频域掩蔽模型是MP3/AAC等感知编码的基础，编码器分配比特时，对掩蔽阈值以下的频率分量使用较少比特或完全丢弃。

6.2 时域掩蔽与感知熵

时域掩蔽 （Temporal Masking）分为前向掩蔽（Premasking，掩蔽者出现前 5 ms 5\text{ms} 5ms 至 20 ms 20\text{ms} 20ms）和后向掩蔽（Postmasking，掩蔽者消失后 50 ms 50\text{ms} 50ms 至 200 ms 200\text{ms} 200ms）。前向掩蔽机制尚不完全清楚，可能与神经信号处理延迟有关；后向掩蔽则源于听觉神经的恢复时间。

感知熵 （Perceptual Entropy）量化了人耳可感知的信息量下限。对于特定音频信号，感知熵 P E = − ∑ i p i log ⁡ 2 p i PE = -\sum_{i} p_i \log_2 p_i PE=−∑ipilog2pi（ p i p_i pi 为各临界频带的感知概率），通常远低于原始比特率，证明无损压缩之外的巨大压缩潜力。

6.3 立体声感知与双耳效应

双耳线索 （Binaural Cues）包括耳间时间差 （ITD，Interaural Time Difference）和耳间强度差 （IID，Interaural Intensity Difference），是声源定位（Localization）的基础。ITD对低频（ < 1.5 kHz <1.5\text{kHz} <1.5kHz）定位有效，IID对高频有效（高频波长小于头部尺寸，产生声影效应）。

立体声混叠（Binaural Unmasking）：单耳掩蔽阈值下的信号，若通过立体声呈现且与掩蔽者具有不同空间位置，可能变得可闻。这解释了为何单声道编码的立体声信号质量往往差于真正的立体声编码（如AAC的M/S立体声编码与强度立体声编码）。

7 音频质量评估：客观度量与主观感知

7.1 总谐波失真与噪声

总谐波失真 （THD+N, Total Harmonic Distortion plus Noise）是衡量线性系统保真度的关键指标。对于正弦输入 x ( t ) = A cos ⁡ ( ω 0 t ) x(t) = A\cos(\omega_0 t) x(t)=Acos(ω0t)，系统输出除基频外还包含谐波 n f 0 nf_0 nf0 与噪声：

THD+N = ∑ n = 2 ∞ A n 2 + Noise Power A 1 × 100 % \text{THD+N} = \frac{\sqrt{\sum_{n=2}^{\infty} A_n^2 + \text{Noise Power}}}{A_1} \times 100\% THD+N=A1∑n=2∞An2+Noise Power ×100%

高质量音频设备的THD+N通常低于 0.01 % 0.01\% 0.01%（ − 80 dB -80\text{dB} −80dB），而数字系统量化噪声引入的THD+N理论极限由前文SQNR公式决定。

互调失真 （IMD, Intermodulation Distortion）：当输入包含 f 1 f_1 f1 与 f 2 f_2 f2 两个频率时，非线性系统产生 f 1 ± f 2 f_1 \pm f_2 f1±f2 等和差频。人耳对IMD比THD更敏感，因其产生非谐波频率（不和谐音）。

7.2 动态范围与有效比特

动态范围（Dynamic Range, DR）指系统可处理的最大不失真信号与最小可辨信号（噪声底）之比。对于数字系统：

DR = 20 log ⁡ 10 ( Full Scale Quantization Step ) ≈ 6.02 B + 1.76 dB \text{DR} = 20\log_{10}\left(\frac{\text{Full Scale}}{\text{Quantization Step}}\right) \approx 6.02B + 1.76\text{dB} DR=20log10(Quantization StepFull Scale)≈6.02B+1.76dB

16位系统理论DR约 96 dB 96\text{dB} 96dB，考虑抖动与噪声整形（Noise Shaping）后实际可达 120 dB 120\text{dB} 120dB 等效感知动态范围。

等效比特数（ENOB, Effective Number of Bits）通过实际测量SNR反推：

ENOB = SNDR dB − 1.76 6.02 \text{ENOB} = \frac{\text{SNDR}_{\text{dB}} - 1.76}{6.02} ENOB=6.02SNDRdB−1.76

其中SNDR（Signal-to-Noise and Distortion Ratio）包含量化噪声、热噪声与非线性失真。

7.3 感知音频质量评估

信纳比 （SINAD）与主观评估 （MUSHRA、ITU-R BS.1116）构成完整评估体系。MUSHRA（MUltiple Stimuli with Hidden Reference and Anchor）测试中，听者对比隐藏参考与处理后的信号，给出 0 0 0 至 100 100 100 分评分， 80 80 80 分以上通常认为"透明"（与无损不可区分）。

感知客观度量 如PEAQ（Perceptual Evaluation of Audio Quality）和POLQA（Perceptual Objective Listening Quality Analysis）通过模拟人耳听觉系统（外耳、中耳、耳蜗、神经编码）预测主观评分，与真实MOS（Mean Opinion Score）相关性可达 0.9 0.9 0.9 以上。

8 总结：理论体系的工程映射

本文构建的音频处理理论框架包含五个层级：

物理层：声波作为机械波的传播特性，声压级与强度的对数描述
数字化层：采样定理确立的时域离散化与量化理论确立的幅度离散化
信号处理层：DTFT/DFT提供的频域分析能力，FIR/IIR滤波器的频谱塑造
感知层：临界频带与掩蔽效应揭示的感知冗余
评估层：THD、SNR、DR等客观指标与MUSHRA等主观方法的互补

理解这些理论基础的深层价值在于：任何音频处理算法（均衡、压缩、混响、降噪）本质上都可在上述框架中找到对应------均衡器是参数可调的滤波器组，动态范围压缩是非线性幅度映射，降噪利用统计信号处理或掩蔽阈值，混响模拟声学空间的冲激响应卷积。

当工程实践遇到瓶颈（如混叠失真、相位问题、压缩 artifacts）时，回归这些基础理论往往能提供根本性的解决思路，而非仅凭经验调整参数。这正是音频处理从"技艺"走向"科学"的必经之路。