文章目录
音视频编码格式
音频编码
音频编码是一种将音频信号转换为数字形式的过程,目的是减少数据中的冗余,以便存储和传输。
音频编码的实质是通过抽样、量化和编码三个步骤,将连续变化的模拟信号转换为数字编码。
- PCM
目前计算机应用中,最高保真水平的音频编码格式。PCM约定俗成了无损编码能做到最大程度的无限接近绝对保真。被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用,优点是音质好,缺点是体积大。 - MP3
MPEG1 or MPEG2 Audio LayerIII经常被称作MP3,是目前最流行的音频编码格式,有损压缩,相关的规范标准在ISO/EC11723, ISOAIEC13818-3。它是在1991年,由位于德国埃尔朗根的研究组织 Fraunhofer-Gesellschaft的一组工程师发明和标准化的,它设计用来大幅度地降低音频数据量,将音乐以1:10甚至1:12的压缩率,压缩成容量较小的文件 - AAC
- 基于MPEG2的音频编码技术。
- 加入了SBR技术和PS技术
- 高压缩比的音频压缩算法,AAC压缩比通常为18:1,也有数据说为20:1,远胜mp3;
- 采用多声道,和使用低复杂性的描述方式
- 支持多达48个音轨,15个低频(LFE)音轨,51多声道支持
- 更高的采样率(最高可达96kH,音频CD为441kH)
- 更高的采样精度(支持8it、16it、24bit、3bi,音频CD为16t)
- 更高的解码效率
- OPUS
Opus是一个有损声音编码的格式,由Xiph.Org基金会开发,之后由IETF(互联网工程任务组)进行标准化,目标是希望用单一格式包含声音和语音,取代Speex和Vorbis,且适用于网络上低延迟的即时声音传输,标准格式定义于RFC 6716文件。Opus格式是一个开放格式,使用上没有任何专利或限制
视频编码
视频是连续的图像序列,由连续的帧构成,一帧即为一幅图像。由于人眼的视觉暂留效应,当帧序列以一定的速率播放时,我们看到的就是动作连续的视频。由于连续的帧之间相似性极高,为便于储存传输,我们需要对原始的视频进行编码压缩,以去除空间、时间维度的冗余。
视频编码是将视频数据从一种格式转换为另一种格式的过程
- MPEG-1/2
- MPEG-1标准主要针对SIF标准分辨率(NTSC制为352X240;PAL制为352X288)的图像进行压缩. 压缩位率主要目标为1.5Mb/s.较MJPEG技术,MPEG1在实时压缩、每帧数据量、处理速度上有显著的提高。但MPEG1也有较多不利地方:存储容量还是过大、清晰度不够高和网络传输困难。
- MPEG-2 在MPEG-1基础上进行了扩充和提升,和MPEG-1向下兼容,主要针对存储媒体、数字电视、高清晰等应用领域,分辨率为:低(352x288),中(720x480),次高(1440x1080),高(1920x1080)。MPEG-2视频相对MPEG-1提升了分辨率,满足了用户高清晰的要求,但由于压缩性能没有多少提高,使得存储容量还是太大,也不适和网络传输。
- MPEG-4
- MPEG-4视频压缩算法相对于MPEG-1/2在低比特率压缩上有着显著提高,在CIF(352288)或者更高清晰度(768576)情况下的视频压缩,无论从清晰度还是从存储量上都比MPEG1具有更大的优势,也更适合网络传输。另外MPEG-4可以方便地动态调整帧率、比特率,以降低存储量。
- MPEG-4由于系统设计过于复杂,使得MPEG-4难以完全实现并且兼容,很难在视频会议、可视电话等领域实现,这一点
有点偏离原来地初衷。
- H.261
- H.261标准是为ISDN设计,主要针对实时编码和解码设计,压缩和解压缩的信号延时不超过150ms,码率px64kbps(p=1~30)。
- H.261标准主要采用运动补偿的帧间预测、DCT变换、自适应量化、熵编码等压缩技术。 只有I帧和P帧,没有B帧,运动估计精度只精确到像素级。支持两种图像扫描格式:QCIF和CIF。
- H.263
- H.263标准是甚低码率的图像编码国际标准,它一方面以H.261为基础,以混合编码为核心,其基本原理框图和H.261十分相似,原始数据和码流组织也相似;另一方面,H.263也吸收了MPEG等其它一些国际标准中有效、合理的部分,如:半像素精度的运动估计、PB帧预测等,使它性能优于H.261。
- H.263使用的位率可小于64Kb/s,且传输比特率可不固定(变码率)。
- H.263支持多种分辨率: SQCIF(128x96)、 QCIF、CIF、4CIF、16CIF。
- H.264/AVC
- H.264集中了以往标准的优点,在许多领域都得到突破性进展,使得它获得比以往标准好得多整体性能:
- 和H.263+和MPEG-4 SP相比最多可节省50%的码率,使存储容量大大降低;
- H.264在不同分辨率、不同码率下都能提供较高的视频质量;
- 采用"网络友善"的结构和语法,使其更有利于网络传输。 - H.264采用简洁设计,使它比MPEG4更容易推广,更容易在视频会议、视频电话中实现,更容易实现互连互通,可以简便地和G.729等低比特率语音压缩组成一个完整的系统。
- H.264/AVC在压缩编码效率、视频内容自适性处理能力方面及网络层面,特别是对IP网络及移动网络的自适应处理能力、抗干扰能力与顽健性等方面,相比H.263/MPEG-4均有大幅度提高,也就造成了H.264被热炒的局面。应该说,H.264/AVC的应用确属相当广泛,包括固定或移动的可视电话、移动电话、实时视频会议、视频监控、流媒体、多媒体视频、Internet视频及多媒体、IPTV、手机电视、宽带电话以及视频信息存储等,这也是业内普遍看好它的重要原因。
- H.264集中了以往标准的优点,在许多领域都得到突破性进展,使得它获得比以往标准好得多整体性能:
- H.265
高效视频编码(HEVC),也称为H.265和MPEG-H part 2,是视频压缩标准,是广泛使用的AVC(H.264或MPEG-4第10部分)的几个潜在后继者之一。 与AVC相比,HEVC在相同的视频质量水平下提供大约两倍的数据压缩比,或者以相同的比特率显著提高视频质量。 它支持高达8192×4320的分辨率,包括8K UHD.
音视频封装格式
-
AVI
- AVI(Audio Video Interleaved)是一种成熟的音视频交错格式。
- AVI符合RIFF(Resource Interchange File Format)文件规范,使用四字符码FOURCC(four-character code)来表示数据类型。
- AVI文件的结构分为头部、主体和索引三个部分。主体中的图像数据和声音数据是交错存放的,通过尾部的索引可以定位到所需的位置。
- AVI本身只提供了一个框架,内部的图像数据和声音数据格式可以是任意编码形式。
- 由于索引位于文件尾部,因此在播放网络流媒体时可能效果不佳.
-
MKV
- 开放标准的自由的容器和文件格式,多媒体封装格式
- 能够在一个文件中容纳无限数量的视频、音频、图片或字幕轨道
- 能容纳多种不同类型编码的视频、音频及字幕流
-
MP4
- MP4(MPEG-4 Part 14)是一种常见的多媒体容器格式,它在ISO/IEC 14496-14标准文件中定义,并属于MPEG-4的一部分。
- MP4是一种较为全面的容器格式,被认为可以嵌入任何形式的数据。通常见到的大多数MP4文件存储使用AVC(H.264)或MPEG-4(Part 2)编码的视频以及使用AAC编码的音频。
- MP4文件中的所有数据都存储在box(盒子)中,也就是说,MP4由多个box组成,每个box都有类型和长度,并包含不同的信息,可以将box理解为数据对象块。box中可以嵌套另一个box,这种嵌套的box称为容器盒子(container box)。
-
FLV
- FLV(Flash Video)是一种流行的流媒体格式,广泛用于网络视频应用。
- 文件体积轻巧、封装播放简单
- FLV文件由文件头(File Header)和文件体(File Body)两部分组成。文件头包含了关于文件的基本信息,如文件类型标识、版本号等。文件体是由一系列的标签(Tag)和标签大小(Tag Size)组成的。每个标签代表了视频或音频数据的一个时间段,并包含了与该时间段相关的数据和元数据。
-
MPEG2-TS
- 一种标准的容器格式,用于传输和存储音视频、节目和系统信息协议数据
- 广泛应用于数字广播系统
- MPEG-2码流基本上都采用TS格式
- TS流具有固定长度的传输包和较强的传输误码抵抗能力