音频知识基础

声音属性

响度

响度是人耳对声音强弱的主观感受；

主要和声波的振幅相关，同时也和频率有一定关系；

音调

音调是人耳对声音高低的主观感受；

主要与频率相关；

音色

音色主要和频谱相关

纯音：单一频率，自然界多为复合音；

复合音：由频率、振幅、相位正弦波叠加而成（基音、谐音）

复制代码

声音测试中根据声音属性进行主观评测；

人耳声音特性：

听觉范围：20Hz~20000Hz；
掩蔽效应
频域掩蔽：强音会掩蔽其频率附近的弱音；
时域掩蔽：由于人脑处理信息耗时，时间上相邻声音之间的掩蔽现象
哈斯效应：延迟音小于30ms，感觉声音都来自未延迟的声源，延迟音大于30ms，但小于50ms，可感知延时的声源，但其方向仍在未延迟声源的方向，延迟音大于50ms，可清晰感知回音；
双耳定位：利用双耳收到声音的强度差、时间差、相位差判断声源的方向

应用：根据人耳特性，进行音频编码压缩，音效处理，剧场影院布置等；

单声道

立体声：左右2个声道

四声环绕：4个发音点，前左、前右、后左、后右

5.1声道：中置、左前、右前、左后环绕、右后环绕，外加一个低音炮（0.1）；

7.1声道：增加左、右环绕

一个自然接的声音是模拟信号，通过MIC收录，将声音（如说话声、乐器声、环境声等）转换为电信号，经ADC对模拟电信号进行PCM编码转换成数字信号，常用的是PCM编码，可以将PCM编码后的数据，存储成wav音频文件，所有音频数据的传输，处理都是编码后的，其中PCM编码过程如下：
1. 采样：

按照一定的采样率（如44.1kHz或48kHz）对模拟信号进行采样，得到一系列时间上离散的样点。

2. 量化：

将每个采样点的幅度值转换为有限数量的离散值。量化位数决定了量化级别的数量，例如16位量化可以表示65,536个不同的幅度级别。

3. 编码：

将量化后的每个离散幅度值转换为二进制代码。这个过程称为编码。编码后的数据是数字信号，可以被数字系统存储、处理和传输。通常会有一定的比特深度（如 8-bit、16-bit、24-bit 等），比特深度决定了数字值的范围和精度。

假设我们有一个模拟信号，采样率为44.1kHz，量化位数为16位：

上述PCM编码过程一般都在codec中完成，输出的是PCM数据，而PCM 数据的实际传输可通过多种协议实现，如 I2S、TDM、AES/EBU 等。想将PCM数据进行音频算法处理，或者存储成音频文件，都需要传输到CPU，这就需要codec芯片和CPU芯片之间使用硬件传输接口，比如PCM接口：

PCM编码：是一种将模拟信号转换为数字信号的方法，负责将模拟信号转换为数字信号。

PCM接口：是一种用于传输PCM编码数据的硬件或协议接口，负责将PCM编码的数字音频数据从一个设备传输到另一个设备。

传输协议一般都包含物理层的实现，它会定义需要几组gpio，引脚的电气特性等，比如PCM、I2S、TDM在有些硬件平台上，会设计成gpio兼容（都需要时钟信号，帧同步信号，数据信号引脚）