【入门音视频】音视频基础知识

🌈前言🌈

这个系列在我学习过程中，对音视频知识归纳总结的笔记。因为音视频相关讲解非常稀少，所以我希望通过这个音视频系列，跟大家一起学习音视频，希望减少初学者在学习上的压力。同时希望也欢迎指出文章的不足。

本期内容主要讲解音视频基础知识，包含了音视频是如何保存成文件，以及如何通过文件播放的，通过这个流程讲解音视频编解码，封装解封装相关的协议。

📁 音视频录制和播放原理

上图是音视频录制和播放整体的流程，通过这个流程，我们对音视频的格式和协议进行整体的了解。

📁 视频

一个连续播放的视频文件就是有一串连续的，前后存在相关关系的图像构成的，通过图像中的内存和它们之间的相互关闭表达整个视频文件所包含的消息。

📂 图像

一般是指静态图像。图像是指一种在二维平面上通过排列像素（pix）来表达信息的数据组织格式。

1. 位深（度）

色位深度可以简单理解为表示一个像素的二进制位数，决定了每个像素可以呈现的颜色数量。位深度越高，表示的颜色种类就越多。常用的位深度有 8bit 或 10bit两种。

● 8 bit：即用8bit / 1 Byte 表示一个像素值，取值范围是 [0,255]。

● 10 bit：用10个bit表示一个像素值，取值范围是[0,1023]。

上面场景只是单个颜色分量，即灰度图像；如果是彩色图像，每个像素可能包含多个颜色分量（通道）。例如RGB格式的彩色图像，一个完整的图像被分割成蓝绿红三个基色的单色图。

每个通道位深是8 bit，则RGB格式图像中每个像素需要24 bit （8 bit * 3）表示。

确定颜色位深后，根据图像的宽高尺寸确定图像数据体积。

例如1920px * 1080px的RGB图像，位深是8 bit，则数据体积 = 192 * 1080 * 3 约等于 6.22MB左右。

2. 颜色空间

彩色图像在实际应用场景下发挥了广泛作用，如图像显示和处理等，针对不同的场景，对图像色彩的表达方式有不同的要求。针对不同场景有不同的颜色数据表达方式，即颜色空间。

颜色空间是一种利用整数区间来表示颜色的模型，其维度可以分为一维，二维，三维等。三维空阿金应用最为广泛，常见的三维颜色空间有RGB格式，YUV格式。本文重点讲解YUV格式。

YUV格式是一种用于表示图像或视频颜色的色彩空间，它将颜色分为三个分量：亮度（Y）和两个色度（U和V）。这种格式广泛应用于视频压缩和视频传输，因为它与人眼对亮度和色彩的感知特性更为契合。

y:明度；u:蓝色色度与亮度的差；v:红色色度与亮度的差，图像的每个像素点由yuv三个值来确定。

3. 压缩算法

无算压缩方法：压缩率比较低，压缩后体积较大，没有信息损失，可通过压缩信息完全恢复原始信息。

有损压缩方法：压缩率较高，压缩后体积较小，存在信息缺失，压缩后只能近似逼近原始信息，无法完全还原原始信息。

📂 YUV格式

组成视频的基本单元图像称为帧，本质与普通静态图没有任何区别。视频中每秒内容所包含的视频帧的数量称为帧率，单位是fps（frame per seoncd）。在各帧图像质量相近的情况下，帧率越高的视频播放越流畅，但是体积，码率也会更高。

在视频压缩编码中，图像颜色空间通常使用YUV颜色空间。

YUV采样格式的有：4:4:4、4:2:2、4:2:0。

1. 4:4:4

每个亮度像素Y对应一个色度像素U和V，色度分量图的尺寸与亮度分量图的相同。

2. 4:2:2

每两个亮度像素Y对应一个色度像素U和V，色度分量图的尺寸为亮度分量图的1/2。

3. 4:2:0

每四个亮度像素Y对应一个色度像素U和V，色度分量图的尺寸为亮度分量图的1/4。

YUV排列格式

packet：打包格式，先存储一个yuv，在存储下一个yuv。
planar：平面格式，先存储y平面，再存储u平面，在存储v平面。
semi-planar：先存储y平面，在存储uv平面。

📂 H.264协议

应用较为广范的视频编码格式。通过之前我们了解如何计算图像大小，视频就是有一连串的图像组成的，因此如果不对视频进行压缩，那么视频文件就会很大，因此需要对音视频进行编解码。

📂 IBP帧

● I帧（帧内编码图像帧）：表示关键帧，不需要其他的画面而生成，解码靠自己就能重构完整的图像。

● P帧（前向预测编码图像帧）：表示跟前一个关键帧或P帧的差别，P帧是参考帧，利用与前一帧不同点压缩本帧数据，利用空间和时间上的相关性。

● B帧（双向预测编码图像帧）：本帧与前后帧（I帧、P帧）的差别，B帧压缩率更高，但解码耗费CPU。

● GOP（图像序列）：两个I帧之间一个图像序列，一个GOP中包含一个I帧。

📂 解码时间戳和显示时间戳

● DTS（解码时间戳）：这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。

● PTS（显示时间戳）：这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。

音视频同步方式：

Audio Master：同步视频到音频。

Video Master：同步音频到视频。

External Clock Master：同步音频和视频到外部时钟。

📂 视频主要概念补充

视频码率：kb/s，是指视频文件在单位时间内使用的数据流量，也叫码流率。码率越大，说明单位时间内取样率越大，数据流精度就越高。

视频帧率：fps，通常说一个视频的25帧，指的就是这个视频帧率，即1秒中会显示25帧。帧率越高，给人的视觉就越流畅。

视频分辨率：分辨率就是我们常说的640x480分辨率、1920x1080分辨率，分辨率影响视频图像的大小。

📁 音频

在音频中，有两个概念比较重要，一个是采集到的原始音频数据PCM，和压缩后的音频数据AAC。

📂 PCM格式

为了将模拟信号（声音）数字化，需要进行采样，量化，编码三个过程。

根据Nyguist采样定律，要从采样中完全恢复原始信号波形，采样频率必须至少是信号中最高频率的两倍 。前面提到人耳能听到的频率范围是[20H~20kHz]，所以采样频率一般为44.1Khz ，这样就能保证声音到达20Khz也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。

采样是在离散的时间点上进行的，采样值本身在计算机中也是离散的；采样值的精度取决于它的的多少位表示，即量化。