1.音频基础知识

音频数字化的全过程

1.采样:以一定采样率,在时间轴上对模拟信号进行数字化

将模拟数据以固定的时间间隔对声音进行采样,按照固定的时间间隔 T(假设 T=0.1s),依次取多个点(如图中 1~10 所对应波上的点)。此时 T 称为取样周期,T 的倒数为本次取样的采样率(f=1/T=10Hz),f 即表示每秒钟进行采样的次数,单位为赫兹(Hz)。

人耳能听到的频率范围为20HZ~20KHZ,根据香农奈奎斯特采样定理(为了不失真地恢复模拟信号,采样频率应该大于等于模拟信号频谱中最高频率的2倍。f s≥2f max),采样频率一般为44.1Khz。然后对音频进行采样,测量音频电平,计算机每隔几微秒就会抓拍一次信号,比如44.1KHz,即每秒采集44100次。

2.量化:以一定精度,在幅度轴上对模拟信号进行数字化

完成采样后,接下来进行音频数字化的第二步,量化。采样是在时间轴上对音频信号进行数字化,得到多个采样点;而量化,则是在幅度方向上进行数字化,得到每个采样点的幅度值。

如上图中所示,设定纵轴的坐标取值范围为 0 ~8,得到每个采样点的纵坐标(向上取整),这里的坐标值即为量化后的幅度值。 因为我们将幅度轴分为了 8 段,有 8 个值用于量化取整,即本次量化的精度为 8。显然,如果分段越多,则幅度的量化取值将越准确(取整带来的误差就越小),也能越好的表示原波形。对于幅度的量化精度,有一个专有术语描述 ------ 位深。

计算机将这些抓拍到的信号转换成数字,定义振幅的变化。然后对获取到的数字进行二进制编码,代表被测瞬间波形的电压值,完成量化的过程。

3 编码:按特定格式,记录采样/量化后的数据

那么如果我们想要将这些声音再播放出来,需要通过数模转换器,将数字信号转换会模拟信号,再由反折叠滤波器对模拟信号内的极差加以平滑,还原成初始的模拟信号。

经过量化后,我们得到了每个采样点的幅度值。接下来,就是音频信号数字化的最后一步,编码。编码是将每个采样点的幅度量化值,转化为计算机可理解的二进制字节序列。

如上图,参照编码部分的表格,样本序号为样本采样顺序,样本值(十进制)为量化的幅度值。而样本值(二进制)即为幅度值转换后的编码数据。最终得到了"0"、"1"形式的二进制字节序列,也即离散的数字信号。这里得到的,是未经压缩的音频采样数据裸流,也叫做PCM 音频数据(Pulse Code Modulation,脉冲编码调制)。实际应用中,往往还会使用其他编码算法做进一步压缩。

音频数字信号质量三要素

1 采样率

音频采样率,指的是单位时间内(1s)对声音信号的采样次数。

对于最大频率为 f 的音频信号,当我们分别采用 f、2f、4f/3 的采样率进行采样时,所得到的采样结果参考下图。显然,只有当采样率为 2f 时,才能有效的保留原信号特征。采样率 f 和3f/4 下得到的结果,都和原波形差别很大。

2 采样位深

在学习音频数字化过程的"量化"步骤时,就提及了量化精度-位深的概念。采样位深,指的是在音频采集量化过程中,每个采样点幅度值的取值精度,一般使用bit作为单位。比如,当采样位深为 8bit,则每个采样点的幅度值可以用 2^8=256 个量化值表示;采样位深为 16bit 时,则每个采样点的幅度值可以用 2^16=65536 个量化值表示。显然,16bit 比 8bit 可存储、表示的数据更多、更精细,量化时产生的误差损失就越小。位深影响声音的解析精度、细腻程度,我们可以将其理解为声音信号的"分辨率",位深越大,音色也越真实、生动。

采样位深选择和采样率的选择类似,虽然理论上来说位深越大越好,但是综合带宽、存储、实际听感的考虑,我们应该为不同场景选用不同的位深。

16bit指的是采样位深,意思是原始模拟信号被采样后,每一个采样点在计算机中用16位(两个字节)来表示。采样精度越高越能精细地表示模拟信号的差异。

3 声道数

我们常说的单声道、双声道,其实就是在描述一个音频信号的声道数.声道数一般指声音采集录制时的音源数量或播放时的扬声器数量。

如果是单声道的音频文件,采样数据按时间的先后顺序依次存入(有的时候也会采用LRLRLR方式存储,只是另一个声道的数据为0),如果是双声道的话就按照LRLRLR的方式存储,存储的时候还和机器的大小端有关。大端模式如下图所示:

4 音谱码率(比特率)

音频码率,又称为比特率,指的是单位时间内(一般为1s)所包含的音频数据量,可以通过公式计算。比如采样率 44.1K Hz,位深16bit的双声道音频PCM数据,它的原始码率为:原始码率 = 采样率/s x 位深/bit x 声道数 x 时长(1s)

44.1 * 1000 * 16 * 2 * 1 = 1411200 bps = 1411.2 kbps = 1.411 Mbps (bit per second,位/秒)

如果一个PCM文件时长为1分钟,则传输/存储这个文件需要的数据量为:1.411 Mbps * 60s = 86.46Mb。

采样率、采样位数、比特率三者之间的关系

例:根据一个文件的大小推算出文件时长

譬如 "Windows XP 启动.wav" 的文件长度是 424,644 字节, 它是 "22050HZ / 16bit / 立体声" 格式(这可以从其 "属性->摘要" 里看到),

那么它的每秒的传输速率(位速, 也叫比特率、取样率)是 2205016 2 = 705600(bit/s), 换算成字节单位就是 705600/8 = 88200(字节/秒),

播放时间:424644(总字节数) / 88200(每秒字节数) ≈ 4.8145578(秒)。

但是这还不够精确, 包装标准的 PCM 格式的 WAVE 文件( .wav)中至少带有 42 个字节的头信息, 在计算播放时间时应该将其去掉,
所以就有:(424644-42) / (22050
16*2/8) ≈ 4.8140816(秒). 这样就比较精确了。也就是:

(文件总大小 - 头信息)/ (采样率 * 采样位数 * 通道数 / 8) [也就是比特率] ≈ 文件时长。

相关推荐
轩情吖3 小时前
模拟实现Bash
linux·c语言·开发语言·c++·后端·bash·环境变量
李昊哲小课3 小时前
springboot整合hive
大数据·数据仓库·hive·spring boot·后端·数据分析
uhakadotcom4 小时前
Java JDK 23 最新更新:功能亮点与开发者必备指南
后端
uhakadotcom4 小时前
AI搜索引擎的尽头是电商?从perplexity开始卖货说起...
前端·人工智能·后端
uhakadotcom4 小时前
Java中的代码简化技巧:让开发更轻松
后端
uhakadotcom4 小时前
WAF绕过的10种技术:技术细节与代码详解
后端·程序员·架构
张声录14 小时前
使用client-go在命令空间test里面对pod进行操作
开发语言·后端·golang
新智元5 小时前
AI卷翻科研!DeepMind 36页报告:全球实验室被「AI科学家」指数级接管
人工智能·后端
Adolf_19935 小时前
Django 自定义路由转换器
后端·python·django
ᝰꫝꪉꪯꫀ3616 小时前
JavaWeb——Mybatis
java·开发语言·后端·mybatis