音视频学习（四十八）：PCM和WAV

PCM

基本原理

脉冲编码调制（PCM）是一种将模拟音频信号转换为数字信号的编码方法，其核心是通过采样、量化和编码三个步骤实现信号的数字化。

采样（Sampling）
采样是将连续的模拟音频信号在时间轴上离散化的过程。根据奈奎斯特-香农采样定理，采样频率需至少为信号最高频率的两倍，以避免混叠效应。例如，CD音频采用44.1kHz采样率，可捕捉最高22.05kHz的音频信号，覆盖人耳可感知的20Hz-20kHz范围。
量化（Quantization）
量化是将采样的模拟信号幅度映射到离散的数字级别。量化级别数由位深度（Bit Depth）决定，例如16位量化可表示(2^{16} = 65,536)个级别。位深度越高，量化误差越小，音频保真度越高。
编码（Encoding）
编码将量化后的值转换为二进制数据，通常以线性PCM（Linear PCM，LPCM）形式存储。LPCM直接记录每个采样点的幅度值，未经压缩，保留了原始信号的完整信息。

PCM的数学模型可表示为： $x\[n$ = Q $S(t_n)$ ] 其中，(x $n$ )为数字信号，(S(t_n))为采样时刻的模拟信号值，(Q $\\cdot$ )为量化函数。

采样率44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的码率为44.1K * 16 * 2 = 1411.2Kb/s。

位深（Bit Depth）

音频位深（Bit Depth）是数字音频中衡量每次采样所使用的位数，它决定了每个采样点可以表示的幅度精度。通俗来讲，位深越大，声音的动态范围越广，音质越好。

概念

在模数转换（ADC）过程中，模拟信号被采样成离散的时间点，然后每个时间点的振幅值被量化成一个数字。位深就是这个量化过程中，用来记录每个振幅值的"数字位数"。

更高的位深意味着更高的分辨率。就像用更高像素的相机拍照，位深越高，可以用来描述振幅的"阶梯"就越多，每个阶梯之间的距离就越小，从而能更精确地记录原始模拟信号的微小变化。

工作原理

位深的值通常是2的幂次方。例如：

8位：可以表示 256 个不同的振幅值。
16位（常见）：可以表示 65,536 个不同的振幅值。
24位：可以表示 16,777,216 个不同的振幅值。

这意味着，16位音频能以65,536个"阶梯"来表示声音的振幅，而24位音频则能用超过1600万个"阶梯"来表示。这个巨大的差距直接影响了音频的质量。

对音频的影响

位深主要影响两个关键的音频质量指标：动态范围 和量化噪声。

动态范围（Dynamic Range）

动态范围是指音频信号中，最大音量（峰值）与最小音量（底噪）之间的差距。位深越高，动态范围就越大。

动态范围计算公式：每增加1位，动态范围大约增加6分贝（dB）。动态范围（dB）≈ 位深 × 6.02 + 1.76

位深	动态范围（理论）
8位	48 dB
16位	96 dB
24位	144 dB

人耳的听觉动态范围约为 120 dB ，所以 16 位可满足一般听音需求 ，而 24 位适合高保真录音与母带处理。

量化噪声（Quantization Noise）

量化是不可避免地会引入误差，因为模拟信号是连续的，而数字信号是离散的。这种误差被称为量化噪声。

位深越低，量化步长（两个相邻振幅值之间的距离）越大，量化误差就越明显，听起来就像是一种底层的"嘶嘶声"或"嗡嗡声"，尤其是在声音非常微弱的部分。
位深越高，量化步长越小，量化误差就越不明显，量化噪声也随之降低。这使得高位深的音频在播放安静的音乐片段或捕捉细腻的声音时，听起来更加干净和纯净。

用途

位深	文件大小	音质	应用场景
8 位	小	低	旧游戏、电话语音、老硬件
16 位	中	中	CD、MP3、日常听音
24 位	大	高	专业录音、混音、母带制作
32 位 float	更大	超高	广播级录音、工程保留浮点数据，避免削波

位深 vs 采样率

项目	位深（Bit Depth）	采样率（Sampling Rate）
表示内容	每个采样的精度	每秒采样的次数
单位	位（bit）	赫兹（Hz）
影响	动态范围、细节保留	频率响应范围（是否保留高音）
类比	像素的"色深"	像素的"数量/分辨率"

常见格式与支持的位深

音频格式	支持的位深
WAV	8、16、24、32 位整数/浮点
FLAC	支持压缩的 16/24 位音频
MP3/AAC	支持 16 位 PCM 编码
DSD	位深为 1 位（特殊编码方式）
PCM（原始）	任意整数位深

采样率

定义

音频采样率（Sampling Rate）是指在模数转换过程中，每秒对模拟音频信号采样的次数，单位为赫兹（Hz）或千赫兹（kHz）。例如，44.1kHz的采样率表示每秒采集44,100个样本。采样率决定了数字音频在时间轴上的分辨率，直接影响重现信号的频率范围和音质。

原理

音频采样率基于奈奎斯特-香农采样定理（Nyquist-Shannon Sampling Theorem），该定理指出：要无失真地重现模拟信号，采样频率必须至少为信号最高频率的两倍。数学表达为： $f_s \\geq 2 \\cdot f_{\\text{max}}$ 其中，( f_s )为采样频率，( f_{\text{max}} )为信号的最高频率。

例如，人耳可感知的音频频率范围为20Hz至20kHz，因此采样率至少需为40kHz。实际应用中，常用44.1kHz或48kHz以覆盖人耳听觉范围，并留有余量以减少混叠效应（Aliasing）。

采样过程通常由采样保持电路（Sample-and-Hold Circuit）完成，该电路在固定时间间隔内捕获模拟信号的瞬时幅度，并将其转换为离散的数字值。采样率越高，时间分辨率越高，数字信号越接近原始模拟信号。

常见标准

音频采样率因应用场景不同而有多种标准，以下是常见的采样率及其用途：

8kHz
- 用途：电话通信、语音录音。
- 特点：足以捕捉300Hz-3.4kHz的语音频率范围，数据量小，适合低带宽传输。
- 示例：传统电话系统、VoIP。
16kHz
- 用途：语音识别、语音合成。
- 特点：提供更高的语音清晰度，适合人工智能语音处理。
- 示例：语音助手（如Siri、Alexa）。
22.05kHz
- 用途：低质量多媒体音频、早期数字音频设备。
- 特点：能够捕捉部分音乐信号，但高频细节丢失，音质较差。
- 示例：早期计算机音频、游戏音效。
44.1kHz
- 用途：CD音频、音乐录制与播放。
- 特点：覆盖人耳听觉范围（20Hz-20kHz），是消费级音频的标准采样率。
- 示例：音乐CD、MP3、流媒体平台。
48kHz
- 用途：专业音频、视频制作、广播。
- 特点：略高于44.1kHz，提供更好的高频响应和抗混叠性能，广泛用于影视音效。
- 示例：数字视频（DVD、蓝光）、专业录音设备。
96kHz
- 用途：高解析度音频（Hi-Res Audio）、专业音乐制作。
- 特点：捕捉更高频率的细节，适合高端音频设备和母带处理。
- 示例：高保真音乐、录音室混音。
192kHz及以上
- 用途：超高解析度音频、科学分析、沉浸式音频。
- 特点：提供极高的时间分辨率，适合专业领域和发烧友设备，但数据量大。
- 示例：高端DAC、空间音频、音频研究。

声道数

音频声道数（Audio Channel Count），简称声道，指的是在音频录制、混音和回放过程中，独立声音信号的数量。它决定了声音的定位感、空间感和环绕效果。

声道类型

单声道（Mono）

单声道音频只有一个独立的音频信号通道。无论声音源自何处，所有的声音信息都会被合并到这一个通道中。因此，当播放单声道音频时，无论你使用多少个扬声器，听到的声音都是相同的，没有方向感和空间感，声音仿佛都来自同一个点。

应用场景：早期的广播、电话通信、以及一些为了保证声音清晰度的播客和录音。

立体声（Stereo）

立体声是目前最常见的音频格式，它使用两个独立的音频通道（左声道和右声道）。通过在左、右声道中调整声音的响度或时间延迟，可以模拟出声音在左右空间中的位置感，从而营造出更具空间感和真实感的听觉体验。当声音在两个扬声器之间移动时，我们能感知到其方向的变化。

应用场景：几乎所有的音乐、电影、电视节目和广播都采用立体声格式。

多声道（Multichannel）

多声道系统使用三个或更多独立的音频通道，以实现更具沉浸感的环绕声效果。最经典的多声道格式是5.1声道。

5.1声道 ：由六个独立的声道组成：
- 左声道（Left） 和 右声道（Right）：提供前方的立体声效果。
- 中置声道（Center）：主要负责对白和位于画面中央的声音，确保人声清晰且稳定。
- 左环绕（Left Surround） 和 右环绕（Right Surround）：提供后方或侧面的环绕效果。
- 低音增强声道（LFE, Low-Frequency Effects）：俗称".1声道"，专门负责重低音效果，如爆炸声或背景音乐中的低频部分。
7.1声道：在5.1声道的基础上增加了两个声道，通常是"左后环绕"和"右后环绕"，进一步增强了后方的空间感和声音的精确度。
应用场景：电影院、家庭影院系统、游戏等，旨在提供身临其境的听觉体验。

全景声（Immersive Audio）

全景声是多声道技术的最新发展，它不再局限于固定的声道数量，而是将声音作为**独立的"声音对象"**来处理。例如，杜比全景声（Dolby Atmos）或DTS:X。

工作原理 ：全景声系统不仅仅将声音分配到固定的扬声器，而是记录下声音对象在三维空间中的位置信息。当播放时，系统会根据扬声器的数量和位置，动态地渲染这些声音对象，让声音可以在听众的周围甚至头顶上移动，形成真正的三维立体声场。
应用场景：现代影院、高端家庭影院、高端游戏和音乐制作，带来前所未有的沉浸感。

原理

音频声道数的实现涉及音频信号从录制到播放的整个流程：

录制：通过多个麦克风捕获不同方向或位置的声音信号，每个麦克风对应一个声道。例如，立体声录音使用两个麦克风分别捕捉左右声场，多声道录音（如5.1）使用多个麦克风布置在不同位置以记录环绕声。
模数转换（ADC）：每个声道的模拟信号通过采样、量化和编码转换为数字信号。采样率决定时间分辨率，位深度决定幅度分辨率，声道数决定空间分辨率。
存储：数字音频格式（如PCM、WAV、FLAC）将每个声道的采样数据独立存储。例如，立体声的WAV文件包含两个独立的数据流。
数模转换（DAC）与播放：播放时，DAC将每个声道的数字信号转换为模拟信号，驱动对应的扬声器。扬声器的数量和位置需与声道数匹配，以重现空间效果。

声道数的数学表示与数据量相关。以PCM格式为例，数据速率计算公式为： $\\text{数据速率} = \\text{采样率} \\times \\text{位深度} \\times \\text{声道数}$ 例如，44.1kHz采样率、16位深度、立体声（2声道）的PCM数据速率为： $44,100 \\times 16 \\times 2 = 1,411,200 , \\text{bps} = 1.41 , \\text{Mbps}$

特性

无损性：PCM是无损编码方式，理论上可完美重现原始模拟信号（在奈奎斯特频率范围内）。
高保真：通过高采样率和高位深度，PCM能够提供接近原始信号的音质。
数据量大：未压缩的PCM数据占用存储空间较大。例如，CD品质（44.1kHz，16位，立体声）的PCM数据速率为(44,100 \times 16 \times 2 = 1.41 , \text{Mbps})。
简单性：PCM编码过程简单，无需复杂算法，易于硬件实现。
通用性：PCM是许多音频格式（如WAV、AIFF）和设备的基础编码方式，具有广泛兼容性。

WAV

基本原理

WAV是一种由微软和IBM联合开发的音频文件格式，基于资源交换文件格式（RIFF，Resource Interchange File Format）。WAV文件通常存储未压缩的PCM数据，但也支持其他编码格式（如ADPCM、MP3）。WAV文件由多个数据块（Chunk）组成，主要包括：

文件头（Header）
文件头包含文件格式信息，如"RIFF"标识、文件大小和"WAVE"类型标志。
格式块（Format Chunk）
格式块描述音频数据的编码参数，包括采样率、位深度、声道数、编码方式（如PCM）等。
数据块（Data Chunk）
数据块存储实际的音频数据，通常为PCM格式的采样值序列。

WAV文件的结构如下：

text 复制代码

RIFF Header
  - Chunk ID: "RIFF"
  - Chunk Size
  - Format: "WAVE"
Format Chunk
  - Chunk ID: "fmt "
  - Audio Format (e.g., 1 for PCM)
  - Number of Channels
  - Sample Rate
  - Byte Rate
  - Block Align
  - Bits Per Sample
Data Chunk
  - Chunk ID: "data"
  - Chunk Size
  - Audio Data (PCM samples)

特性

高保真：WAV通常存储未压缩的PCM数据，能够提供与原始音频信号几乎无差别的音质。
灵活性：WAV支持多种编码格式（如PCM、ADPCM、IEEE浮点数）和参数配置（如采样率、位深度、声道数）。
兼容性：WAV是跨平台的标准音频格式，被几乎所有音频软件和硬件设备支持。
文件体积大：由于存储未压缩数据，WAV文件占用空间较大。例如，1分钟CD品质的立体声WAV文件约为10MB。
简单性：WAV文件结构简单，易于解析和处理，适合专业音频编辑和实时处理。

PCM与WAV的对比

特性	PCM	WAV
定义	数字音频编码方式	音频文件格式
本质	信号表示方法，存储采样数据	容器格式，通常存储PCM数据
压缩性	无压缩，原始数据	通常无压缩，但支持压缩格式
文件结构	无特定文件结构，仅为数据流	基于RIFF，包含文件头、格式块和数据块
应用场景	音频信号处理、传输、存储	音频文件存储、编辑、播放
存储空间	数据量大，无元信息	包含元信息，文件稍大
兼容性	作为数据格式，广泛用于多种文件格式	标准文件格式，跨平台支持