零基础入门多媒体音频（1）-音频基础

声音的本质是波动，波形图能直观体现声音的特征。我们常用于描述音频的属性有下面这些：

1.采样率：声音中每秒包含的采样点个数。

2.位宽：每个采样点需要多少个bit进行存储。

3.声道数：声音进行回放需要喇叭的个数。

4.频率：声波每秒中包含的周期数。

5.周期：声波两个波峰之间的时间差。

我们看到的波形图一般都是连续的，但在计算机中用于描述声音的是离散的点，连续的波形是通过对这些离散的点进行插值得到。这些点就是常说的采样点。

做音频领域的开发经常能看到PCM这个词。PCM指的是数据脉冲编码调制。具体定义可以从网络上获取，很好理解。一句话概括就是将模拟信号的声音直接编码成数字信号，最原始的音频数据。从软件角度看，PCM数据就是能直接进行播放的最基础的音频格式。与PCM格式相对应的是各种编码格式。包括DDP，DD，AAC，MP3，DTS，AVS3-P3.

当我们知道一段音频 PCM数据的数据量（bytes），声道数（channels），位宽（bitwidth），采样率（samplerate）时，

就可以计算出这段音频数据能播放多长时间。播放时长time = bytes / (bitwidth / 8) / samplerate / channels.

播放时长主要可以用于以下这两种场景：

1.判断数据发送端是否欠载：若数据发送端在时间time_real发送到数据接收端的音频PCM数据对应的时长time_data存在下面的情况时，则数据发送端发送数据不及时。time_real > time_data。

2.算法处理性能不足：若算法处理模块处理一段时长time_data的音频数据花费time_alg存在下面的情况时，则算法性能不足。time_alg > time_data。

我们不仅要知道播放时长的用途，还需要知道这背后的原理。播放一条特定的码流，硬件需要根据采样率，位宽，声道数进行配置，然后按照相应的速率进行数据的传输，转化。也就是硬件会在时长time内消耗掉bytes的数据量。为什么要按照这个速率处理呢？数据的录制媏就是按照这个进行数据录制的。如果播放媏数据输出太快，听到的声音就是加速播放的效果。反之，则是低速播放效果。因为硬件播放媏以恒定速度进行数据的处理，那么整个软件处理通路也必须保持相对稳定的数据处理速度。考虑到CPU调度的波动性，软件处理是不可能维持恒定处理速度。可以通过在不同处理节点增加缓存buffer进行抗抖动处理。（CPU调度不及时，则数据缓存至buffer。获得CPU调度时，则尽快消耗buffer里面的数据。在宏观层面上达到一个稳定的处理速度）

音频名词介绍：

merge:多路音频数据拼凑成一路音频数据，总数据量不变。

mix:多路音频数据混音成一路音频数据，总数据量减倍。

slot:一路TDM音频输出

BE:back end 一路硬件音频输出

FE:front end 一路软件音频输入