音频基础知识（一）

音视频技术在现代互联网中扮演着至关重要的角色，无论是短视频、直播、在线会议还是流媒体服务，都离不开音视频的采集、编码、传输和播放。本文将从基础概念入手，带你了解音视频处理的核心知识。

音视频基础：基础知识

一、音视频的基本组成

1. 视频数据来源

摄像头采集到的原始图像数据通常是 YUV 格式（如 YUV420P、NV12 等），这是一种常见的图像表示方式，具有较高的颜色保真度，适合后续的压缩处理。

2. 音频数据来源

麦克风捕获的是 PCM 格式的音频数据，这是未经压缩的原始音频信号，通常以一定的采样率（如 44.1kHz）和位深（如 16bit）进行存储。

二、编码与压缩

1. 编码的目的

编码的本质是为了 压缩数据量，使得音视频文件更小，便于在网络上传输或本地存储。

2. 常见的视频编码标准

编码名称	别名	特点	应用场景
H.264	MPEG-4 AVC	压缩效率高，兼容性强	流媒体、安防监控
H.265	HEVC	比H.264压缩率提升约50%	超高清视频
VP8	-	Google推出，开源	WebRTC、视频通话
VP9	-	类似于H.265，支持HDR	YouTube等平台

补充说明：

H.264/MPEG-4 AVC 是目前最广泛使用的视频编码格式。
VP8 和 VP9 是 Google 主导开发的开源编码器，常用于实时通信场景，如视频会议。

三、封装格式（容器）

封装格式的作用是将 视频流、音频流、字幕、元数据等 组合在一起，并按照一定规则排列，形成一个可播放的文件。

常见的封装格式：

封装格式	全称	特点	应用场景
MP4	MPEG-4 Part 14	通用性强，支持多种编码	移动端、网页播放
AVI	Audio Video Interleave	微软老格式，兼容性好但体积大	旧系统或设备
FLV	Flash Video	支持流媒体传输	早期直播平台
RMVB	RealMedia Variable Bitrate	可变码率，节省空间	早期内存较小设备
MKV	Matroska	开源、支持多轨道	高清蓝光片源

示例：一个 .mp4 文件可能包含 H.264 编码的视频流和 AAC 编码的音频流。

四、标准化组织

音视频编码的发展主要由两个国际组织推动：

1. ITU-T（国际电信联盟）

负责制定通信相关的标准，代表性视频编码标准包括：

H.261（最早的视频编码标准）
H.262（MPEG-2 视频部分）
H.263 → H.264（逐步演进的标准）

2. ISO/IEC（国际标准化组织）

负责制定多媒体相关标准，代表性标准包括：

MPEG-4（含 AVC 即 H.264）
HEVC（即 H.265）

这两个组织的标准经常交叉使用，例如 H.264 = MPEG-4 AVC。

五、音视频处理流程

音视频系列（二）-为什么视频编码中不选用 rgb 而是用 yuv？YUV 一、YUV原理 YUV格式是一种颜色编码方法， - 掘金https://juejin.cn/post/7504178383199649831WebCodecs 音视频：

WebCodecs 音视频（一）基础知识阅读后续文章或开始使用 WebAV 处理音视频数据之前，需要一点点背景知识。本 - 掘金

音视频基础：采集

音视频的本质

视频本质上就是一系列图片的时间序列，由于人眼的视觉残留，形成了动态的效果。

而音频本质上就是一个声波的时间序列，这些声波组成了音频。

通过上面的分析，我们可以知道：音视频实际上是一系列静态的图片/声波的以时间为顺序的组合

所以在这里，我们通过采集频率（时间）和采集物两方面来介绍采集

图片

图片是我们非常熟悉的一种文件格式，我们都知道对于一个图片而言，它有分辨率、色彩等重要的属性。

这里主要介绍一下视频中图片的色彩格式：YUV,这与我们常用的RGB色彩格式有区别。

YUV简介

YUV的出现有一定的历史原因：早期电视都是黑白电视，即只有亮度信息而没有色彩信息。而之后才支持彩色信号。传统的RGB中并没有单独的亮度通道，所以不能直接支持黑白画面。所以早期电视使用单独的只有亮度值的图片的序列。后来为了在此基础上同时支持彩色电视，引入了U和V通道。你可以简单的理解为： 黑白画面（单Y） + U & V = 彩色画面（RGB格式）

而YUV则分为了三个通道：

Y：亮度，就是灰度值。除了表示亮度信号外，还含有较多的绿色通道量。

U：蓝色通道与亮度的差值。

V：红色通道与亮度的差值。

我们可以简单的使用下列公式对YUV和RGB进行换算：

复制代码

YUV格式

YUV的出现是出于历史原因，但是为什么在彩色视频的今天还继续使用YUV而不是RGB呢？这就要说到YUV格式的一个优势了：人类的眼睛天然的对亮度更加敏感而对色度不那么敏感

这主要是因为人眼中负责感知亮度的视杆细胞多于感知色度的视锥细胞

所以我们可以减少一部分U和V，在不影响观感的前提下，减少视频的体积。通常而言，YUV的分配方案有以下几种，这就是我们常说的YUV格式 。其中最常用的是YUV 4:2:0

YUV 4:4:4采样，每一个Y对应一组UV分量。

YUV 4:2:2采样，每两个Y共用一组UV分量。

YUV 4:2:0采样，每四个Y共用一组UV分量。

当然，对于YUV中Y、U、V的排列不一定是固定的，以YUV420来说，可以分为YUV420P和YUV420SP两种排列方式：

YUV420P：三平面存储。数据组成为YYYYYYYYUUVV（如I420）或YYYYYYYYVVUU（如YV12）。

YUV420SP：两平面存储。分为两种类型YYYYYYYYUVUV（如NV12）或YYYYYYYYVUVU（如NV21）

但这部分就太过底层了，仅作了解

虽然这些减少的U和V对人眼不敏感，但却是也是缺失了图片的细节，为什么我们需要使用这种方法呢？主要的原因就是 图片太大了

我们可以做一个简单的计算：

对于一个色彩深度为24的图片来说，每一个像素都需要24个二进制位来存储颜色信息，前端常用的HEX颜色编码就可以看出：

比如对于绿宝石色#40E0D0，它实际上存储为：01000000 11100000 11010000，也就是3个字节

红色的值：二进制01000000，十六进制40

绿色的值：二进制11100000，十六进制E0

蓝色的值：二进制11010000，十六进制D0

而对于YUV420格式来说，在色深不变的情况下，4个像素有4个Y一个U一个V，也就是6个字节，也就是平均一个像素1.5个字节， 只有RGB图片一半的大小

音频

音频数据的承载方式最常用的是脉冲编码调制 ，即PCM。

在自然界中，声音是连续不断的，是一种模拟信号，那怎样才能把声音保存下来呢？那就是把声音数字化，即转换为数字信号。

我们知道声音是一种波，有自己的振幅和频率，那么要保存声音，就要保存声音在各个时间点上的振幅。在量化振幅时，需要取一个近似的值来记录，这个值就是采样深度，通常为8位、16位、24位等

和色彩深度一样，这个值越高就越还原

而数字信号并不能连续保存所有时间点的振幅，事实上，并不需要保存连续的信号，就可以还原到人耳可接受的声音。所以我们呢可以在固定时间内采集有限的样本，我们可以用 采样率，即一秒钟采集多少样本来描述。

根据奈奎斯特-香农采样定理：为了不失真地恢复模拟信号，采样频率应该不小于模拟信号频谱中最高频率的2倍。人耳能够听到的最高频率是20kHz，所以无损的采样频率就是44.1kHz

根据以上分析，PCM的采集步骤分为以下步骤：

模拟信号->采样->量化->编码->数字信号

这里的编码与下文讲的压缩编码不同，就是简单的将量化数据按顺序转换为二进制格式

当然，很多时候我们需要同时采集多个声音源来更好的还原声音，我们用不同的声道来记录。

为什么需要编码

以上文的音频文件为例，一个44.1kHz，双声道，位深度为16的声音文件一分钟的大小是多少？

复制代码

一分钟10MB，放在今天的带宽下看好像还好，但是视频呢？对一个YUV420，1080P（1080 * 1920 ）,24帧的视频，1分钟是多大呢？

复制代码

这个大小很明显是不现实也不符合我们认知的，为什么会出现这样的情况呢？那就是因为音频和视频都采用了编码进行进一步加工和压缩，让它们变成更小的格式，才让它们能在互联网上传播。

音视频基础（二）上：编码之AAC解析音视频基础（二）上：编码之AAC解析上文我们分析了音视频的本质，并且了解了其基本的 - 掘金

音视频基础能力之 Android 音频篇（一）：音频采集AudioRecord 是 Android 平台比较重要的类， - 掘金

音视频学习 (一) C 语言入门现在 Android 初中级开发工程师想找一份满意的工作是越来越难了，当然有实力的是不愁 - 掘金

音视频开发之旅（四）Camera视频采集Camera 有几个重要的基础概念。 facing相机的方向，一般后置摄像头和前 - 掘金

音视频基础：视频播放原理、文件封装格式、编码方式

一、视频播放器原理：

我们播放的视频文件一般都是用一种封装格式 封装起来的，封装格式的作用是什么呢？一般视频文件里不光有视频，还有音频，封装格式的作用就是把视频和音频打包起来。所以我们先要解封装格式 ，看有哪些视频流和哪些音频流，此时的音频流和视频流都还是压缩数据 ，不能直接用于显示的，这就需要解码。下面是播放一个视频文件时的流程图。我们播放的视频文件一般都是用一种封装格式 封装起来的，封装格式的作用是什么呢？一般视频文件里不光有视频，还有音频，封装格式的作用就是把视频和音频打包起来。所以我们先要解封装格式 ，看有哪些视频流和哪些音频流，此时的音频流和视频流都还是压缩数据 ，不能直接用于显示的，这就需要解码。下面是播放一个视频文件时的流程图。我们播放的视频文件一般都是用一种封装格式 封装起来的，封装格式的作用是什么呢？一般视频文件里不光有视频，还有音频，封装格式的作用就是把视频和音频打包起来。所以我们先要解封装格式 ，看有哪些视频流和哪些音频流，此时的音频流和视频流都还是压缩数据 ，不能直接用于显示的，这就需要解码。下面是播放一个视频文件时的流程图。

根据上面流程图中的流程，我们从上至下一步步的来了解下每步骤的原理和实现方式。先来看下 视频封装格式。

二、视频文件封装格式

封装格式（也叫容器） ，就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中，也就是说仅仅是一个外壳，或者大家把它当成一个放视频轨和音频轨的文件夹也可以。说得通俗点，视频轨相当于饭，而音频轨相当于菜，封装格式就是一个碗，或者一个锅，用来盛放饭菜的容器。下面是几种常用的 视频文件后缀类型 与其相对应的 封装格式。

视频文件格式	视频封装格式
.avi	AVI（Audio Video Interleaved）
.wmv、.asf	WMV（Windows Media Video）
.mpg、.mpeg、.vob、.dat、.3gp、.mp4	MPEG（Moving Picture Experts Group）
.mkv	Matroska
.rm、.rmvb	Real Video
.mov	QuickTime File Format
.flv	Flash Video

下面详细介绍几个视频的封装格式：

1、AVI 格式，对应的文件格式为 .avi ，全称 Audio Video Interleaved ，是由 Microsoft 公司于 1992 年推出。这种视频格式的优点是图像质量好，无损 AVI 可保存 alpha 通道。缺点是体积过于庞大，并且压缩标准不统一，存在较多的高低版本兼容问题。
2、DV-AVI 格式，对应的文件格式为 .avi ，英文全称 Digital Video Format ，是由索尼、松下、JVC 等多家厂商联合提出的一种家用数字视频格式。常见的数码摄像机就是使用这种格式记录视频数据的。它可以通过电脑的 IEEE 1394 端口传输视频数据到电脑，也可以将电脑中编辑好的的视频数据回录到数码摄像机中。
3、WMV 格式，对应的文件格式是 .wmv、.asf ，英文全称 Windows Media Video ，是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。在同等视频质量下，WMV 格式的文件可以边下载边播放，因此很适合在网上播放和传输。3、WMV 格式，对应的文件格式是 .wmv、.asf ，英文全称 Windows Media Video ，是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。在同等视频质量下，WMV 格式的文件可以边下载边播放，因此很适合在网上播放和传输。3、WMV 格式，对应的文件格式是 .wmv、.asf ，英文全称 Windows Media Video ，是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。在同等视频质量下，WMV 格式的文件可以边下载边播放，因此很适合在网上播放和传输。
4、MPEG 格式，对应的文件格式有 .mpg、.mpeg、.mpe、.dat、.vob、.asf、.3gp、.mp4 等等，英文全称 Moving Picture Experts Group ，是由运动图像专家组制定的视频格式，该专家组于 1988 年组建，专门负责视频和音频标准制定，其成员都是视频、音频以及系统领域的技术专家。MPEG 格式目前有三个压缩标准，分别是 **MPEG-1、MPEG-2、**和 MPEG-4 。MPEG-4 是现在用的比较多的视频封装格式，它为了播放流式媒体的高质量视频而专门设计的，以求使用最少的数据获得最佳的图像质量。
5、Matroska 格式，对应的文件格式是 .mkv，Matroska 是一种新的视频封装格式，它可将多种不同编码的视频及 16 条以上不同格式的音频和不同语言的字幕流封装到一个 Matroska Media 文件当中。
6、Real Video 格式，对应的文件格式是 .rm、.rmvb ，是 Real Networks 公司所制定的音频视频压缩规范称为 Real Media 。用户可以使用 RealPlayer 根据不同的网络传输速率制定出不同的压缩比率，从而实现在低速率的网络上进行影像数据实时传送和播放。
7、QuickTime File Format 格式，对应的文件格式是 .mov ，是 Apple 公司开发的一种视频格式，默认的播放器是苹果的 QuickTime 。这种封装格式具有较高的压缩比率和较完美的视频清晰度等特点，并可以保存 alpha 通道。
8、Flash Video 格式，对应的文件格式是 .flv ，是由 Adobe Flash 延伸出来的一种网络视频封装格式。这种格式被很多视频网站所采用。

三、音视频编码方式简介

1、视频编码方式

视频编码的作用： 将视频像素数据（RGB，YUV 等）压缩成视频码流，从而降低视频的数据量。

名称	推出机构	推出时间	目前使用领域
HEVC（H.265）	MPEG/ITU-T	2013	研发中
H.264	MPEG/ITU-T	2003	各个领域
MPEG4	MPEG	2001	不温不火
MPEG2	MPEG	1994	数字电视
VP9	Google	2013	研发中
VP8	Google	2008	不普及不普及不普及
VC-1	Microsoft Inc.	2006	微软平台

（1）H.26X 系列

H.26X 由国际电传视讯联盟远程通信标准化组织（ITU-T ）主导，包括 H.261、H.262、H.263、H.264、H.265。

H.261，主要用于老的视频会议和视频电话系统。是第一个使用的数字视频压缩标准。实质上说，之后的所有的标准视频编解码器都是基于它设计的。

H.262 ，等同于 MPEG-2 第二部分，使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统中。H.262 ，等同于 MPEG-2 第二部分，使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统中。H.262 ，等同于 MPEG-2 第二部分，使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统中。

H.263 ，主要用于视频会议、视频电话和网络视频相关产品。在对逐行扫描的视频源进行压缩的方面，H.263 比它之前的视频编码标准在性能上有了较大的提升。尤其是在低码率端，它可以在保证一定质量的前提下大大的节约码率。

H.264 ，等同于 MPEG-4 第十部分，也被称为高级视频编码（Advanced Video Coding ，简称 AVC），是一种视频压缩标准，一种被广泛使用的高精度视频的录制、压缩和发布格式。该标准引入了一系列新的能够大大提高压缩性能的技术，并能够同时在高码率端和低码率端大大超越以前的诸标准。

H.265 ，被称为高效率视频编码（High Efficiency Video Coding ，简称 HEVC ）是一种视频压缩标准，是 H.264 的继任者。HEVC 被认为不仅提升图像质量，同时也能达到 H.264 两倍的压缩率（等同于同样画面质量下比特率减少了 50% ），可支持 4K 分辨率甚至到超高画质电视，最高分辨率可达到 8192×4320 （8K 分辨率），这是目前发展的趋势。

（2）MPEG 系列

MPEG 系列由国际标准组织机构（ISO ）下属的运动图象专家组（MPEG）开发。

MPEG-1 第二部分，主要使用在 VCD 上，有些在线视频也使用这种格式。该编解码器的质量大致上和原有的 VHS 录像带相当。

MPEG-2 第二部分，等同于 H.262 ，使用在 DVD 、SVCD 和大多数数字视频广播系统和有线分布系统中。

MPEG-4 第二部分，可以使用在网络传输、广播和媒体存储上。比起 MPEG-2 第二部分和第一版的 H.263，它的压缩性能有所提高。

MPEG-4 第十部分，等同于 H.264，是这两个编码组织合作诞生的标准。

2、音频编码方式

音频编码的作用： 将音频采样数据（PCM 等）压缩成音频码流，从而降低音频的数据量。常用的音频编码方式有以下几种：

名称	推出机构	推出时间	目前使用领域
AAC	MPEG	1997	各个领域（新）
MP3	MPEG	1993	各个领域（旧）
WMV	Microsoft Inc.	1999	微软平台
AC-3	Dolby Inc.	1992	电影

（1）MP3

MP3 ，英文全称 MPEG-1 or MPEG-2 Audio Layer III ，是曾经非常流行的一种数字音频编码和有损压缩格式，它被设计来大幅降低音频数据量。它是在 1991 年，由位于德国埃尔朗根的研究组织 Fraunhofer-Gesellschaft 的一组工程师发明和标准化的。MP3 的普及，曾对音乐产业造成极大的冲击与影响。

（2）AAC

AAC ，英文全称 Advanced Audio Coding ，是由 Fraunhofer IIS 、杜比实验室、AT&T 、Sony 等公司共同开发，在 1997 年推出的基于 MPEG-2 的音频编码技术。2000 年，MPEG-4 标准出现后，AAC 重新集成了其特性，加入了 SBR 技术和 PS 技术，为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC 。 AAC 比 MP3 有更高的压缩比，同样大小的音频文件，AAC 的音质更高。AAC ，英文全称 Advanced Audio Coding ，是由 Fraunhofer IIS 、杜比实验室、AT&T 、Sony 等公司共同开发，在 1997 年推出的基于 MPEG-2 的音频编码技术。2000 年，MPEG-4 标准出现后，AAC 重新集成了其特性，加入了 SBR 技术和 PS 技术，为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC 。 AAC 比 MP3 有更高的压缩比，同样大小的音频文件，AAC 的音质更高。AAC ，英文全称 Advanced Audio Coding ，是由 Fraunhofer IIS 、杜比实验室、AT&T 、Sony 等公司共同开发，在 1997 年推出的基于 MPEG-2 的音频编码技术。2000 年，MPEG-4 标准出现后，AAC 重新集成了其特性，加入了 SBR 技术和 PS 技术，为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC 。AAC 比 MP3 有更高的压缩比，同样大小的音频文件，AAC 的音质更高。

（3）WMA

WMA ，英文全称 Windows Media Audio，由微软公司开发的一种数字音频压缩格式，本身包括有损和无损压缩格式。

四、视频像素数据

1、视频像素数据简介

视频像素数据作用： 保存了屏幕上每个像素点的像素值。

格式： 常见的像素格式有 RGB24，RGB32，YUV420P，YUV422P，YUV444P 等。压缩编码中一般使用的是 YUV 格式的像素数据，最常见的格式为 YUV420P。

特点：视频像素数据体积很大，一个 1 小时电影的RGB24 格式的数据体积为： 3600 * 25 * 1920 * 1080 * 3 = 559.872GByte （PS ：这里嘉定频率为 25Hz ，取样精度 8bit）

2、颜色模型

（1）RGB 颜色编码

我们开发场景中使用最多的应该是 RGB 模型，R、G、B 分别代表了红、绿、蓝，这三种颜色称为三原色，将它们以不同的比例相加，可以产生任何颜色。

RGB 图像中，每个像素点都有红、绿、蓝三个原色，其中每种原色都占用 8 bit ，也就是一个字节，那么一个像素点也就占用 24 bit ，也就是三个字节。那么一张 1280 * 720 大小的图片，就占用 1280 * 720 * 3 / 1024 / 1024 = 2.63 MB 存储空间。有没有更高效的颜色模型能够用更少的 bit 来表示颜色呢？那就是 YUV 颜色编码。

（2）YUV （YCbCr）颜色编码

相关实验表明，人眼对亮度敏感而对色度不敏感。因而可以将亮度信息和色度信息分离，并对色度信息采用更"狠"一点的压缩方案，从而提高压缩效率。

YUV 颜色编码采用的是 明亮度 Y 和 色度 UV 来指定像素的颜色。 "Y"表示明亮度（Luminance 或 Luma ），也就是灰阶值。 "U" 和 "V" 表示的则是色度（Chrominance 或Chroma），作用是描述影像色调和饱和度。

和 RGB 表示图像类似，每个像素点都包含 Y、U、V 分量。但是它的 Y 和 UV 分量是可分离的，没有 UV 分量一样可以显示完整的图像，但是是黑白的。

YCbCr 颜色空间是 YUV 的国际标准化变种，在数字电视和图像压缩（比如JPEG）方面都有应用。 YCbCr 其实是 YUV 经过缩放和偏移的翻版。其中 Y 与 YUV 中的 Y 含义一致, Cb ，Cr 同样都指色彩, 只是在表示方法上不同而已。在 YUV 家族中, YCbCr 是在计算机系统中应用最多的成员，其应用领域很广泛，JPEG 、MPEG 均采用此格式。一般人们所讲的 YUV 大多是指YCbCr 。 **Cb：**反映的是 RGB 输入信号蓝色部分与 RGB 信号亮度值之间的差异。 **Cr：**反映了 RGB 输入信号红色部分与 RGB 信号亮度值之间的差异。 YCbCr 颜色空间是 YUV 的国际标准化变种，在数字电视和图像压缩（比如JPEG）方面都有应用。 YCbCr 其实是 YUV 经过缩放和偏移的翻版。其中 Y 与 YUV 中的 Y 含义一致, Cb ，Cr 同样都指色彩, 只是在表示方法上不同而已。在 YUV 家族中, YCbCr 是在计算机系统中应用最多的成员，其应用领域很广泛，JPEG 、MPEG 均采用此格式。一般人们所讲的 YUV 大多是指YCbCr 。 **Cb：**反映的是 RGB 输入信号蓝色部分与 RGB 信号亮度值之间的差异。 **Cr：**反映了 RGB 输入信号红色部分与 RGB 信号亮度值之间的差异。

RGB 转换为 Ycbcr 公式
复制代码
Ycbcr 转换为 RGB 公式
复制代码

（3）YUV 采样格式

为节省带宽，大多数 YUV 格式平均使用的每像素位数都少于24位。主要的抽样（subsample ）格式有 YCbCr4:2:0、YCbCr4:2:2、YCbCr4:1:1 和 YCbCr4:4:4。

4:2:0 4:2:0 是目前用的毕竟广泛的一种采样格式。4:2:0 表示 2:1 的水平取样，垂直 2：1 采样。比 RGB 小了二分之一。我们以4:2:0 为例详细看一下这种采样格式。

从上图中可以看 YUV4:2:0 先存储个整张图像的 Y 信息，然后存储 U 信息，最后存储 V 信息。但存储的比例是不同的，可以看出是每存储两行 Y ，才会存储半行 U 和半行 V 。

4:4:4 4:4:4 表示完全取样。和 RGB 大小一样。

4:2:2 表示 2:1 的水平取样，垂直完全采样。比 RGB 小了三分之一。

零基础入门：实时音视频技术基础知识全面盘点本文引用自公众号"开发的猫"，本次收录时有改动，感谢原作者"开发的猫"的分享。 - 掘金

音视频入门基础理论知识-阿里云开发者社区https://developer.aliyun.com/article/1338774 音视频基础知识-阿里云开发者社区https://developer.aliyun.com/article/1454849?spm=a2c6h.12873639.article_relatearticle.d_article_relatearticle_8.1e205f66ucpBkc&scm=20140722.ID_community@@article@@1454849._.ID_community@@article@@1454849-OR_rec-PAR1_0b87b79d17660535025814993e5ffb-V_1-RL_community@@article@@1338774

音频混音编码压缩原理到深度学习应用全面解析-开发者社区-阿里云https://developer.aliyun.com/article/1338816?spm=a2c6h.12873639.article_relatearticle.d_article_relatearticle_2.1e205f66ucpBkc&scm=20140722.ID_community@@article@@1338816._.ID_community@@article@@1338816-OR_rec-PAR1_0b87b79d17660535025814993e5ffb-V_1-RL_community@@article@@1338774 视频基础知识 3-阿里云开发者社区https://developer.aliyun.com/article/1338852?spm=a2c6h.12873639.article_relatearticle.d_article_relatearticle_1.1e205f66ucpBkc&scm=20140722.ID_community@@article@@1338852._.ID_community@@article@@1338852-OR_rec-PAR1_0b87b79d17660535025814993e5ffb-V_1-RL_community@@article@@1338774

音频基础知识（一）

音视频基础：基础知识

一、音视频的基本组成

1. 视频数据来源

2. 音频数据来源

二、编码与压缩

1. 编码的目的

2. 常见的视频编码标准

三、封装格式（容器）

常见的封装格式：

四、标准化组织

1. ITU-T（国际电信联盟）

2. ISO/IEC（国际标准化组织）

五、音视频处理流程

音视频基础：采集

音视频的本质

图片

YUV简介

YUV格式

音频

为什么需要编码

音视频基础：视频播放原理、文件封装格式、编码方式

一、视频播放器原理：

二、视频文件封装格式

三、 音视频编码方式简介

1、视频编码方式

（1）H.26X 系列

（2）MPEG 系列

2、音频编码方式

（1）MP3

（2）AAC

（3）WMA

四、 视频像素数据

1、视频像素数据简介

2、颜色模型

（1）RGB 颜色编码

（2）YUV （YCbCr）颜色编码

（3）YUV 采样格式

三、音视频编码方式简介

四、视频像素数据