音视频学习(四十八):PCM和WAV

PCM

基本原理

脉冲编码调制(PCM)是一种将模拟音频信号转换为数字信号的编码方法,其核心是通过采样、量化和编码三个步骤实现信号的数字化。

  • 采样(Sampling)
    采样是将连续的模拟音频信号在时间轴上离散化的过程。根据奈奎斯特-香农采样定理,采样频率需至少为信号最高频率的两倍,以避免混叠效应。例如,CD音频采用44.1kHz采样率,可捕捉最高22.05kHz的音频信号,覆盖人耳可感知的20Hz-20kHz范围。
  • 量化(Quantization)
    量化是将采样的模拟信号幅度映射到离散的数字级别。量化级别数由位深度(Bit Depth)决定,例如16位量化可表示(2^{16} = 65,536)个级别。位深度越高,量化误差越小,音频保真度越高。
  • 编码(Encoding)
    编码将量化后的值转换为二进制数据,通常以线性PCM(Linear PCM,LPCM)形式存储。LPCM直接记录每个采样点的幅度值,未经压缩,保留了原始信号的完整信息。

PCM的数学模型可表示为: [ x[n] = Q[S(t_n)] ] 其中,(x[n])为数字信号,(S(t_n))为采样时刻的模拟信号值,(Q[\cdot])为量化函数。

采样率44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的码率为44.1K * 16 * 2 = 1411.2Kb/s。

位深(Bit Depth)

音频位深(Bit Depth)是数字音频中衡量每次采样所使用的位数,它决定了每个采样点可以表示的幅度精度。通俗来讲,位深越大,声音的动态范围越广,音质越好。

概念

在模数转换(ADC)过程中,模拟信号被采样 成离散的时间点,然后每个时间点的振幅值被量化成一个数字。位深就是这个量化过程中,用来记录每个振幅值的"数字位数"。

  • 更高的位深意味着更高的分辨率。就像用更高像素的相机拍照,位深越高,可以用来描述振幅的"阶梯"就越多,每个阶梯之间的距离就越小,从而能更精确地记录原始模拟信号的微小变化。

工作原理

位深的值通常是2的幂次方。例如:

  • 8位:可以表示 256 个不同的振幅值。
  • 16位(常见):可以表示 65,536 个不同的振幅值。
  • 24位:可以表示 16,777,216 个不同的振幅值。

这意味着,16位音频能以65,536个"阶梯"来表示声音的振幅,而24位音频则能用超过1600万个"阶梯"来表示。这个巨大的差距直接影响了音频的质量。

对音频的影响

位深主要影响两个关键的音频质量指标:动态范围量化噪声

动态范围(Dynamic Range)

动态范围是指音频信号中,最大音量(峰值)与最小音量(底噪)之间的差距。位深越高,动态范围就越大。

动态范围计算公式: 每增加1位,动态范围大约增加6分贝(dB)。 动态范围(dB)≈ 位深 × 6.02 + 1.76

位深 动态范围(理论)
8位 48 dB
16位 96 dB
24位 144 dB

人耳的听觉动态范围约为 120 dB ,所以 16 位可满足一般听音需求 ,而 24 位适合高保真录音与母带处理

量化噪声(Quantization Noise)

量化是不可避免地会引入误差,因为模拟信号是连续的,而数字信号是离散的。这种误差被称为量化噪声

  • 位深越低,量化步长(两个相邻振幅值之间的距离)越大,量化误差就越明显,听起来就像是一种底层的"嘶嘶声"或"嗡嗡声",尤其是在声音非常微弱的部分。
  • 位深越高,量化步长越小,量化误差就越不明显,量化噪声也随之降低。这使得高位深的音频在播放安静的音乐片段或捕捉细腻的声音时,听起来更加干净和纯净。

用途

位深 文件大小 音质 应用场景
8 位 旧游戏、电话语音、老硬件
16 位 CD、MP3、日常听音
24 位 专业录音、混音、母带制作
32 位 float 更大 超高 广播级录音、工程保留浮点数据,避免削波

位深 vs 采样率

项目 位深(Bit Depth) 采样率(Sampling Rate)
表示内容 每个采样的精度 每秒采样的次数
单位 位(bit) 赫兹(Hz)
影响 动态范围、细节保留 频率响应范围(是否保留高音)
类比 像素的"色深" 像素的"数量/分辨率"

常见格式与支持的位深

音频格式 支持的位深
WAV 8、16、24、32 位整数/浮点
FLAC 支持压缩的 16/24 位音频
MP3/AAC 支持 16 位 PCM 编码
DSD 位深为 1 位(特殊编码方式)
PCM(原始) 任意整数位深

采样率

定义

音频采样率(Sampling Rate)是指在模数转换过程中,每秒对模拟音频信号采样的次数,单位为赫兹(Hz)或千赫兹(kHz)。例如,44.1kHz的采样率表示每秒采集44,100个样本。采样率决定了数字音频在时间轴上的分辨率,直接影响重现信号的频率范围和音质。

原理

音频采样率基于奈奎斯特-香农采样定理(Nyquist-Shannon Sampling Theorem),该定理指出:要无失真地重现模拟信号,采样频率必须至少为信号最高频率的两倍。数学表达为: [ f_s \geq 2 \cdot f_{\text{max}} ] 其中,( f_s )为采样频率,( f_{\text{max}} )为信号的最高频率。

例如,人耳可感知的音频频率范围为20Hz至20kHz,因此采样率至少需为40kHz。实际应用中,常用44.1kHz或48kHz以覆盖人耳听觉范围,并留有余量以减少混叠效应(Aliasing)。

采样过程通常由采样保持电路(Sample-and-Hold Circuit)完成,该电路在固定时间间隔内捕获模拟信号的瞬时幅度,并将其转换为离散的数字值。采样率越高,时间分辨率越高,数字信号越接近原始模拟信号。

常见标准

音频采样率因应用场景不同而有多种标准,以下是常见的采样率及其用途:

  1. 8kHz
    • 用途:电话通信、语音录音。
    • 特点:足以捕捉300Hz-3.4kHz的语音频率范围,数据量小,适合低带宽传输。
    • 示例:传统电话系统、VoIP。
  2. 16kHz
    • 用途:语音识别、语音合成。
    • 特点:提供更高的语音清晰度,适合人工智能语音处理。
    • 示例:语音助手(如Siri、Alexa)。
  3. 22.05kHz
    • 用途:低质量多媒体音频、早期数字音频设备。
    • 特点:能够捕捉部分音乐信号,但高频细节丢失,音质较差。
    • 示例:早期计算机音频、游戏音效。
  4. 44.1kHz
    • 用途:CD音频、音乐录制与播放。
    • 特点:覆盖人耳听觉范围(20Hz-20kHz),是消费级音频的标准采样率。
    • 示例:音乐CD、MP3、流媒体平台。
  5. 48kHz
    • 用途:专业音频、视频制作、广播。
    • 特点:略高于44.1kHz,提供更好的高频响应和抗混叠性能,广泛用于影视音效。
    • 示例:数字视频(DVD、蓝光)、专业录音设备。
  6. 96kHz
    • 用途:高解析度音频(Hi-Res Audio)、专业音乐制作。
    • 特点:捕捉更高频率的细节,适合高端音频设备和母带处理。
    • 示例:高保真音乐、录音室混音。
  7. 192kHz及以上
    • 用途:超高解析度音频、科学分析、沉浸式音频。
    • 特点:提供极高的时间分辨率,适合专业领域和发烧友设备,但数据量大。
    • 示例:高端DAC、空间音频、音频研究。

声道数

音频声道数(Audio Channel Count),简称声道,指的是在音频录制、混音和回放过程中,独立声音信号的数量。它决定了声音的定位感、空间感和环绕效果。

声道类型

单声道(Mono)

单声道音频只有一个独立的音频信号通道。无论声音源自何处,所有的声音信息都会被合并到这一个通道中。因此,当播放单声道音频时,无论你使用多少个扬声器,听到的声音都是相同的,没有方向感和空间感,声音仿佛都来自同一个点。

  • 应用场景:早期的广播、电话通信、以及一些为了保证声音清晰度的播客和录音。
立体声(Stereo)

立体声是目前最常见的音频格式,它使用两个独立的音频通道(左声道和右声道)。通过在左、右声道中调整声音的响度或时间延迟,可以模拟出声音在左右空间中的位置感,从而营造出更具空间感和真实感的听觉体验。当声音在两个扬声器之间移动时,我们能感知到其方向的变化。

  • 应用场景:几乎所有的音乐、电影、电视节目和广播都采用立体声格式。
多声道(Multichannel)

多声道系统使用三个或更多独立的音频通道,以实现更具沉浸感的环绕声效果。最经典的多声道格式是5.1声道

  • 5.1声道 :由六个独立的声道组成:
    • 左声道(Left)右声道(Right):提供前方的立体声效果。
    • 中置声道(Center):主要负责对白和位于画面中央的声音,确保人声清晰且稳定。
    • 左环绕(Left Surround)右环绕(Right Surround):提供后方或侧面的环绕效果。
    • 低音增强声道(LFE, Low-Frequency Effects):俗称".1声道",专门负责重低音效果,如爆炸声或背景音乐中的低频部分。
  • 7.1声道:在5.1声道的基础上增加了两个声道,通常是"左后环绕"和"右后环绕",进一步增强了后方的空间感和声音的精确度。
  • 应用场景:电影院、家庭影院系统、游戏等,旨在提供身临其境的听觉体验。
全景声(Immersive Audio)

全景声是多声道技术的最新发展,它不再局限于固定的声道数量,而是将声音作为**独立的"声音对象"**来处理。例如,杜比全景声(Dolby Atmos)或DTS:X。

  • 工作原理 :全景声系统不仅仅将声音分配到固定的扬声器,而是记录下声音对象在三维空间中的位置信息。当播放时,系统会根据扬声器的数量和位置,动态地渲染这些声音对象,让声音可以在听众的周围甚至头顶上移动,形成真正的三维立体声场
  • 应用场景:现代影院、高端家庭影院、高端游戏和音乐制作,带来前所未有的沉浸感。

原理

音频声道数的实现涉及音频信号从录制到播放的整个流程:

  • 录制:通过多个麦克风捕获不同方向或位置的声音信号,每个麦克风对应一个声道。例如,立体声录音使用两个麦克风分别捕捉左右声场,多声道录音(如5.1)使用多个麦克风布置在不同位置以记录环绕声。
  • 模数转换(ADC):每个声道的模拟信号通过采样、量化和编码转换为数字信号。采样率决定时间分辨率,位深度决定幅度分辨率,声道数决定空间分辨率。
  • 存储:数字音频格式(如PCM、WAV、FLAC)将每个声道的采样数据独立存储。例如,立体声的WAV文件包含两个独立的数据流。
  • 数模转换(DAC)与播放:播放时,DAC将每个声道的数字信号转换为模拟信号,驱动对应的扬声器。扬声器的数量和位置需与声道数匹配,以重现空间效果。

声道数的数学表示与数据量相关。以PCM格式为例,数据速率计算公式为: [ \text{数据速率} = \text{采样率} \times \text{位深度} \times \text{声道数} ] 例如,44.1kHz采样率、16位深度、立体声(2声道)的PCM数据速率为: [ 44,100 \times 16 \times 2 = 1,411,200 , \text{bps} = 1.41 , \text{Mbps} ]

特性

  • 无损性:PCM是无损编码方式,理论上可完美重现原始模拟信号(在奈奎斯特频率范围内)。
  • 高保真:通过高采样率和高位深度,PCM能够提供接近原始信号的音质。
  • 数据量大:未压缩的PCM数据占用存储空间较大。例如,CD品质(44.1kHz,16位,立体声)的PCM数据速率为(44,100 \times 16 \times 2 = 1.41 , \text{Mbps})。
  • 简单性:PCM编码过程简单,无需复杂算法,易于硬件实现。
  • 通用性:PCM是许多音频格式(如WAV、AIFF)和设备的基础编码方式,具有广泛兼容性。

WAV

基本原理

WAV是一种由微软和IBM联合开发的音频文件格式,基于资源交换文件格式(RIFF,Resource Interchange File Format)。WAV文件通常存储未压缩的PCM数据,但也支持其他编码格式(如ADPCM、MP3)。WAV文件由多个数据块(Chunk)组成,主要包括:

  • 文件头(Header)
    文件头包含文件格式信息,如"RIFF"标识、文件大小和"WAVE"类型标志。
  • 格式块(Format Chunk)
    格式块描述音频数据的编码参数,包括采样率、位深度、声道数、编码方式(如PCM)等。
  • 数据块(Data Chunk)
    数据块存储实际的音频数据,通常为PCM格式的采样值序列。

WAV文件的结构如下:

text 复制代码
RIFF Header
  - Chunk ID: "RIFF"
  - Chunk Size
  - Format: "WAVE"
Format Chunk
  - Chunk ID: "fmt "
  - Audio Format (e.g., 1 for PCM)
  - Number of Channels
  - Sample Rate
  - Byte Rate
  - Block Align
  - Bits Per Sample
Data Chunk
  - Chunk ID: "data"
  - Chunk Size
  - Audio Data (PCM samples)

特性

  • 高保真:WAV通常存储未压缩的PCM数据,能够提供与原始音频信号几乎无差别的音质。
  • 灵活性:WAV支持多种编码格式(如PCM、ADPCM、IEEE浮点数)和参数配置(如采样率、位深度、声道数)。
  • 兼容性:WAV是跨平台的标准音频格式,被几乎所有音频软件和硬件设备支持。
  • 文件体积大:由于存储未压缩数据,WAV文件占用空间较大。例如,1分钟CD品质的立体声WAV文件约为10MB。
  • 简单性:WAV文件结构简单,易于解析和处理,适合专业音频编辑和实时处理。

PCM与WAV的对比

特性 PCM WAV
定义 数字音频编码方式 音频文件格式
本质 信号表示方法,存储采样数据 容器格式,通常存储PCM数据
压缩性 无压缩,原始数据 通常无压缩,但支持压缩格式
文件结构 无特定文件结构,仅为数据流 基于RIFF,包含文件头、格式块和数据块
应用场景 音频信号处理、传输、存储 音频文件存储、编辑、播放
存储空间 数据量大,无元信息 包含元信息,文件稍大
兼容性 作为数据格式,广泛用于多种文件格式 标准文件格式,跨平台支持
相关推荐
wefly201721 小时前
告别本地环境!m3u8live.cn一键实现 M3U8 链接预览与调试
前端·后端·python·音视频·m3u8·前端开发工具
却道天凉_好个秋1 天前
音视频学习(九十七):自适应码率(ABR)
学习·音视频·abr
foenix661 天前
我的第一个 Vibe Coding 项目:我做了一个能自动剪视频、写字幕、配音、生成文案的 AI 工作流
人工智能·音视频
却道天凉_好个秋1 天前
音视频学习(九十六):PLC
学习·音视频·plc
软件资深者1 天前
MTools开源工具箱12-beta使用教程 音视频/图片/文本/编码全能处理 免安装无广告
音视频
却道天凉_好个秋1 天前
音视频学习(九十五):FEC
学习·音视频·fec
愚公搬代码1 天前
【愚公系列】《剪映+DeepSeek+即梦:短视频制作》019-声音:让短视频更加动听(添加音乐、音效和录音)
音视频
wefly20172 天前
m3u8live.cn 在线M3U8播放器,免安装高效验流排错
前端·后端·python·音视频·前端开发工具
却道天凉_好个秋2 天前
音视频学习(九十四):NACK和RTX
音视频·nack·rtcp·rtx
NGBQ121382 天前
Adobe-Premiere-Pro-2026-26.0.2.2-m0nkrus 全解析:专业视频编辑软件深度指南
前端·adobe·音视频