音频基础知识和音频指标

音频基础知识

声音

声音（sound)是由物体振动产生的声波。物体在一秒钟之内振动的次数叫做频率，单位是赫兹，字母Hz。人耳可以识别的声音频率在 20 Hz~20000 Hz之间；

声音三要素：

响度

响度，又称声强或音量，它表示的是声音能量的强弱程度，主要取决于声波振幅的大小。

音调

音高也称音调，表示人耳对声音调子高低的主观感受。客观上音高大小主要取决于声波基频的高低，频率高则音调高，反之则低。

音色

音色又称音品，由声音波形的谐波频谱和包络决定。声音波形的基频所产生的听得最清楚的音称为基音，各次谐波的微小振动所产生的声音称泛音。

DAC与喇叭

DAC: 将数字信号转换成模拟信号的电路，称为数模转换器（简称D/A转换器或DAC，Digital to Analog Converter），D/A转换的作用是将时间离散、幅值也离散的数字信号转换为时间连续、幅值也连续的模拟信号。

**喇叭:**是一种将电能转换成声音的一种转换设备。当喇叭接收到由音源设备输出的电信号时，电流会通过喇叭上的线圈，并产生磁场反应。利用磁场的吸引或者排斥使振膜产生振动，发出声音。

ADC与麦克风

麦克风是将声音信号转换为电信号的能量转换器件。(声波带动振膜振动使两极板间的距离改变，即电容C改变，会引起电压的变化，这种电压变化频率反映了外界声音的频率，这就是驻极体传声器地工作原理。)

**ADC:**将模拟信号转换成数字信号的电路，称为模数转换器（简称A/D转换器或ADC，Analog to Digital Converter），A/D转换的作用是将时间连续、幅值也连续的模拟信号转换为时间离散、幅值也离散的数字信号。

模拟信号-直流与交流

音频的系统的输入和输出的有效信号都是交流信号。直流信号是不能使喇叭发声振动的，也不能传送声音信号。轻微的直流偏移会使耳机/喇叭的音圈不在磁隙的最佳位置，对音效有影响。严重的直流偏置，使音圈剧烈发热，音圈胶融化，线圈烧毁，振膜在巨大的磁推力和音圈的热量作用下变形损坏

偏置电压

输入输出的偏置电压:

因为大部分芯片没有负电压，所以如果直流偏置点在 0V电平，信号的压值负半轴部分将会丢失。所以如果要完整地输入/输出一段交流信号，需要抬升一定的偏置电压作为信号输入/输出的参考 0 点，此时理论上能输入/输出的信号最大不失真幅度为偏置电压的 2 倍.

DAC隔直输出

隔直输出时，在 DAC 输出端与喇叭间串一个电容可以起到隔绝直流的作用。电抗分感抗和容抗，与电阻一样都起到阻碍电流通过的作用单位也都用欧姆，不同的是:电阻对所有频率的电流都有相同的阻碍作用，感抗与频率成正比，电流的频率越大，相应的感抗就越大容抗与频率成反比，电流的频率越大，相应的容抗就越小，

DAC差分输出

差分输出时，喇叭两端各接DAC的一端输出，其中一段输出偏置直流加信号，另一端输出偏置直流加反向信号，所以喇叭的电压等于DAC两端电压之差，同时偏置直流被抵消，所以差分输出时最大幅度为单端最大输出幅度的两倍。

DAC直推输出

直推输出时，喇叭两端分别DAC的一端输出和一个输出DAC直流偏置的公共地，所以喇叭的电压等于DAC端与公共地间电压之差，同时偏置直流被抵消，所以直推输出时最大幅度与单端隔直最大输出幅度相同.

MIC隔直输入

MIC隔直输入时，电源串联电阻分压得到一个使麦克风正常工作状态的偏置电压，该偏置电压与芯片引脚偏置电压不一定相等，所以电容起到了隔绝两边偏置电压的作用，使MIC_IN可以正常输入麦克风的交流信号.

MIC省电容输入

MIC省电容方式输入时，麦克风直接正端接 MIC_IN 引脚，负端接模拟地。芯片内部会给麦克风提供一个满足正常工作的偏置电压，并产生一个与偏置电压相同压值的参考电压，在后级处理中把 MIC_IN 的直流分量处理掉，得到麦克风采集到的交流信号

LINEIN隔直输入

LINEIN隔直输入时，在输出设备的输出端与芯片的输入端间串联一个电阻，可以起到隔绝两个不同系统的偏置电压作用。

LINEIN选模拟输入时，可以简单理解为芯片通过模拟电路把LINEIN输入端口的信号直接连接到DAC输出端。优点是延时短，信噪比好。

LINEIN选数字输入时，则是通过ADC采集成数字信号，再通过DAC把数字信号转为模拟信号输出。优点是CPU可以获取到输入的音频数据流，并可以进行一些效果处理再输出.

数字信号调制方式

PCM：脉冲编码调制(Pulse Code Modulation)

PDM：脉冲密度调制(Pulse Density Modulation)

PWM：脉冲宽度调制(Pulse Width Modulation)

PPM：脉冲位置调制(Pulse Position Modulation)

...

脉冲编码调制(PCM)

脉冲编码调制(Pulse Code Modulation,PCM)就是把一个时间连续，取值连续的模拟信号变换成时间离散，取值离散的数字信号后在信道中传输。脉冲编码调制就是对模拟信号先抽样，再对样值幅度量化，编码的过程。

PCM数据格式

PCM数据格式可以理解成把采样后每个点的量化值按时间顺序一直排列。多声道时候也是把每个点的量化值按通道顺序和时间顺序交叉排列。

采样位数为 8 时，每个点占 1 个字节，数值范围 -128 ~ 127。

采样位数为16时，每个点占 2 个字节，数值范围 -32768 ~ 32767。

采样位数为24时，每个点占 3 个字节，数值范围 -16777216 ~ 16777215。

采样位数为32时，每个点占 4 个字节，数值范围 -2147483648 ~ 2147483647。

时域信号与频域信号

音频数字信号的属性

一、采样率

每秒从连续信号中提取并组成离散信号的采样个数，单位赫兹（Hz）。在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，采样频率越高，声音的质量也就越好，声音的还原也就越真实，但同时它占的资源比较多。采样频率必须大于等于需要采集音频信号的最大频率的两倍。

例如：8KHz 16KHz 44.1KHz 48KHz
二、采样位数

样位数也叫采样大小或量化位数，用来衡量声音波动变化的一个参数，也可以理解为采样的分辨率或者声音的解析度。数值越大，量化分辨率也就越高，采集到的数字信号越能还原实际的模拟信号。

例如：8bit：256级 16bit：65536级 32bit：4294967296级
三、通道数

声音的通道的数目。常见的单声道和立体声（双声道），现在发展到了四声环绕（四声道）和5.1声道。

傅里叶变换

时域与频域

常见的各种噪声

白噪声

白噪声（white noise）是指功率谱密度在整个频域内是常数的噪声。所有频率具有相同能量密度的随机噪声称为白噪声。白噪声是一种功率谱密度为常数的随机信号。换句话说，此信号在各个频段上的功率谱密度是一样的，由于白光是由各种频率（颜色）的单色光混合而成，因而此信号的这种具有平坦功率谱的性质被称作是"白色的"，此信号也因此被称作白噪声。

粉红噪声

粉红噪声（pink noise）是物理学概念，它在每个倍频程的强度相等，即在一定的范围(倍频程)内具有相同或类似的能量。粉红噪音虽然是一个功率谱密度与频率成反比的频谱的信号或过程。但由于听觉是对数(倍频程)感知，在高频处每个倍频程带宽更大，功率谱密度与带宽抵消，所以每个倍频程的强度其实是相等的

频率噪声

频率噪声是一种有频率信息的噪声，噪声的频率往往和瞬时强度与干扰源的工作频率和瞬时功率相关，可以根据噪声的频率和瞬时强弱关系去排除干扰的来源（例如有些短短续续的干扰，可以从干扰出现时正在工作的模块去分析）。噪声有可能来自于外部的电磁辐射干扰，电源干扰，接地回路干扰。

po声

po声是一种短暂的爆破性杂音，是由于幅度不连续，变化太大导致。很多情况都会产生这个声音，例如DAC偏置电压上抬太快、数据突然中断、音频数据不连续等等情况都会导致po声的产生。

常用的音频指标

峰峰值与有效值

峰峰值（peak-to-peak value）是指一个周期内信号最高值和最低值之间的距离，描述了信号值的变化范围的大小。

有效值是根据电流的热效应规定的，让交变电流和直流电通过同样的电阻，如果它们在同一时间内产生的热量相等，就把这一直流电的数值叫做这一交流电的有效值。直流的有效值就是其本身。

信噪比(SNR)

信噪比（SIGNAL NOISE RATIO，SNR or S/N）是指信号电平与噪声电平之比，单位为分贝（dB）。音频信噪比是指音响设备播放时，正常声音信号强度与噪声信号强度的比值。当信噪比低，小信号输入时噪音严重，严重影响音质。信噪比的大小是用有用信号功率（或电压）和噪声功率（或电压）比值的对数来表示的。

频率响应范围

频率响应是对MP3播放器的数模/模数转换器频率响应能力的一个评价标准。好的频率响应，是在每一个频率点都能输出稳定足够的信号，不同频率点彼此之间的信号大小均一样。然而在低频与高频部分，信号的重建比较困难，所以在这两个频段通常都会有衰减的现象。输出品质越好的装置，频率响应曲线就越平直，反之不但在高低频处衰减得很快，在一般频段，也可能呈现抖动的现象。

总谐波失真加噪声(THD+N)

THD+N 是英文Total Harmonic Distortion +Noise 的缩写，译成中文是"总谐波失真加噪声"。它是音频功率放大器的一个主要性能指标，也是音频功率放大器的额定输出功率的一个条件。

THD（Total Harmonic Distortion）总谐波失真是指输出信号比输入信号多出的谐波成分。谐波失真是系统不完全线性造成的。所有附加谐波电平之和称为总谐波失真。总谐波失真与频率有关。一般说来，1000Hz频率处的总谐波失真最小，因此不少产品均以该频率的失真作为它的指标。一般产品的总谐波失真都小于1%@1000Hz，但这个数值越小，表明产品的品质越高。

动态范围(Dynamic Range)

动态范围(Dynamic Range)是指音响系统重放时最大不失真输出功率与静态时系统噪声输出功率之比的对数值，又指一个多媒体硬盘播放器输出图像的最亮和最暗部分之间的相对比值。一般性能较好的音频设备动态范围在100dB以上。最大不失真时候失真度的取值有所不同，常见的有1%、3%、5%、和10%，在多媒体音箱中一般都取值为10%，而在高保真放大器中一般取值为1%。

动态范围是指设备能够处理的最大信号与最小信号的比值。这个概念容易与"信噪比"的概念混淆，那么二者有什么区别呢？可以理解，小于噪声幅度的信号是无法正确还原的，但是有的设备能够在无信号或信号特别低时从某些环节将噪声连同小信号切除，从而得出更好的信噪比指标（这就是"动态降噪"的基本原理）。这时实质上还是无法正确处理小信号的，而动态范围的测量就可以避免这样的人为优化。动态范围的测量是用一个小信号（一般用-60dB/1000Hz的正弦波）输给设备，然后滤除信号，测量其余频率的噪声和谐波水平，再用最大信号与之相比，结果就是动态范围。可以预见动态范围一般要低于信噪比，但在没有特殊电路或软件处理噪声的情况下，一般二者差距不大，可以互相参考。