音视频入门知识（三）：音频篇

⭐三、音频篇

音频基本要素：采样率、通道数、位宽、采样格式、采样点（像素）

采样率：单位时间内对模拟信号采样的次数

通道数：音频信号的独立声道数量（单通道，双通道（立体声））

位宽：每个采样点使用的位数，通常以 比特（bits） 表示。（8 位、16 位（CD 音质）、24 位（专业音频））

采样格式：描述音频采样点的数据表示方式。（整型，浮点型）

PCM（原始格式）

模拟信号数字化的编码方法，用于将模拟音频信号转化为数字数据。

主要包括采样，量化，编码三个主要过程。

特点：

无压缩：PCM 是一种无损编码方式，音质较高，因为它直接保存音频信号的幅度值。

文件较大：由于不做压缩处理，PCM 音频数据量较大，一般用于音质要求高且存储空间足够的场景。

采样率与量化位数：PCM 文件音质主要由采样率和量化位数决定。采样率越高、量化位数越高，音质越好，但数据量也越大。

采样：将连续的模拟音频信号按一定频率（即采样率）进行取样【8kHz(电话)、44.1kHz(CD)、48kHz(DVD)】
量化：将每个采样点的幅度值转化为一个离散的数字值 。
- 量化深度（如 8 位电话、16 位CD、24 位等）决定了编码的精度。量化位数越高，声音细节越丰富，噪声越小。
编码：将量化后的离散值编码为二进制数字，以便存储或传输。

PCM的六个参数

采样率、量化位数、声道数（单声道、立体声）、Sign : 表示样本数据是否是有符号位、字节序（大端、小端）、整形或浮点型

AAC（编码格式）

AAC（Advanced Audio Coding，高级音频编码）是一种有损音频压缩格式，

AAC编码步骤：

分帧：将音频数据分成小帧进行处理，以便压缩。
变换编码：使用 MDCT（修正离散余弦变换）等技术将音频信号转换到频域，以捕捉音频的频谱特征。
量化与熵编码：对频域数据量化并压缩，移除冗余数据以减少文件大小。
心理声学模型：利用人耳对频率的感知特点，去除人耳难以察觉的部分音频数据，从而实现有损压缩。

存储格式

用于组织和传输 AAC 编码的音频数据。各自适用于不同的应用场景

ADIF

定义：ADIF 是适合存储在文件中 的 AAC 格式。适用于需要一次性下载和完整存储音频文件的情况，如存储在本地的音频文件。

特征：ADIF 格式通常在开头包含一个文件头，其中包含解码所需的基本信息，但没有帧头的同步信息 。解码必须在明确定义的开始处进行。

优点：由于没有帧头和同步字节，ADIF 比 ADTS 具有更高的压缩效率。

ADTS

定义：ADTS 是适合流式传输 的 AAC 格式。它在每个帧的前面加上一个同步头信息，适合实时传输和播放。

特征：ADTS 包含多个连续的帧，每个帧都带有帧头信息，其中包括同步字节和解码信息，可以在任意位置开始解码。

优点：因为每个帧都有同步字节，可以在流中任意位置开始解码，非常适合于不连续的网络传输。

应用场景

流媒体平台普遍使用 AAC 提供高效且高音质的音频体验。

视频格式：AAC 常被集成在 MP4、MOV 和 MKV 等视频文件格式中。

数字广播：在广播和电视领域，AAC 被用于数字广播系统（如 DAB、DVB）。