音视频学习（八十二）：mp4v

MP4V 编码

MP4V 通常指 MPEG-4 Part 2 Video （ISO/IEC 14496-2）视频编码标准，是 MPEG-4 体系中最早被广泛应用的视频压缩格式之一。在工程实践中，MP4V 常作为 MP4 容器中的视频编码格式 出现，对应的 FourCC 通常为 mp4v，早期也见于 AVI、ASF 等封装中。

在 H.264/AVC 普及之前，MP4V 曾广泛应用于 移动终端、嵌入式设备、监控系统、流媒体早期方案中。其核心目标是在有限算力和带宽条件下，实现较高的压缩效率和可接受的视频质量。

MP4V 的标准结构与 Profiles

MPEG-4 Part 2 采用 Profile + Level 的方式定义能力集，不同 Profile 对编码工具的支持程度不同。

常见 Profile 包括：

Simple Profile（SP）
- 不支持 B 帧
- 无全局运动补偿（GMC）
- 面向低复杂度设备
Advanced Simple Profile（ASP）
- 支持 B 帧
- 支持 Quarter Pixel（Qpel）
- 支持 GMC
- 常见于 DivX / Xvid
Core / Main / Scalable Profile
- 应用较少，多见于标准定义

在工程实践中，ASP 是最常用的 MP4V Profile，在画质和复杂度之间取得了较好平衡。

MP4V 编码整体流程

总体框架

MP4V 编码的核心目标是：

利用时间冗余 + 空间冗余 + 人眼视觉特性，在保证可接受画质的前提下降低码率

整体流程可抽象为：

复制代码

原始视频帧
   ↓
颜色空间转换（RGB → YUV）
   ↓
帧类型决策（I / P / B）
   ↓
宏块划分（16×16）
   ↓
帧内 / 帧间预测
   ↓
残差计算
   ↓
DCT 变换（8×8）
   ↓
量化
   ↓
Zig-Zag 扫描
   ↓
熵编码（VLC）
   ↓
码流封装（VOP / VOL）

输入预处理阶段

1. 颜色空间转换

MP4V 编码器通常要求输入为 YUV 4:2:0 格式：

Y：亮度（全分辨率）
U / V：色度（水平、垂直均降采样）

RGB → YUV 转换公式（简化）：

复制代码

Y = 0.299R + 0.587G + 0.114B
U = -0.169R - 0.331G + 0.5B
V = 0.5R - 0.419G - 0.081B

原因：

人眼对亮度更敏感
色度降采样几乎不影响主观画质
大幅降低数据量

2. 帧缓存与时间排序

编码器维护：

前向参考帧缓存
后向参考帧缓存（B 帧）

显示顺序 ≠ 编码顺序（B 帧存在重排）。

帧类型决策（Picture Type Decision）

MP4V 支持三类帧：

帧类型	编码方式	特点
I 帧	帧内	无参考，码率高
P 帧	前向预测	主流
B 帧	双向预测	压缩率最高

决策原则：

场景切换 → I 帧
普通连续画面 → P / B 帧
GOP 结构示例：

I B B P B B P B B P

宏块划分（Macroblock）

1. 宏块结构

MP4V 使用 16×16 像素宏块：

亮度：16×16
色度：8×8 U + 8×8 V（4:2:0）

每个宏块独立进行：

预测
变换
量化
编码

2. 宏块类型

Intra MB（帧内）
Inter MB（帧间）
Skip MB（残差很小，直接跳过）

预测编码阶段

1. 帧内预测（I 帧）

MP4V 的帧内预测 较简单：

基于相邻宏块像素
不像 H.264 有多方向预测
主要用于：
- 场景切换
- 随机访问点

预测后计算残差：

复制代码

Residual = Original - Prediction

2. 帧间预测（P / B 帧）

（1）运动估计（Motion Estimation）

以宏块为单位：

在参考帧中搜索最佳匹配块
最小化代价函数（SAD / SSE）

SAD = Σ |Current(x,y) - Ref(x+dx,y+dy)|

支持精度：

整像素
半像素
四分之一像素（ASP）

（2）运动补偿（Motion Compensation）

使用运动向量 (dx, dy)：

复制代码

Predicted_MB = Reference_MB(dx, dy)

B 帧支持：

前向预测
后向预测
双向加权预测

残差计算

预测完成后，计算 残差信号：

复制代码

Residual_MB = Original_MB - Predicted_MB

残差通常能量很小，集中在低频区域，为变换和量化创造条件。

DCT 变换（空间 → 频域）

1. 8×8 DCT

每个宏块被拆成多个 8×8 块：

亮度：4 个 8×8
色度：2 个 8×8

DCT 作用：

去除空间相关性
能量集中

低频系数（左上角）最重要。

2. DCT 系数意义

DC 系数：块平均亮度
AC 系数：细节信息

量化

1. 量化原理

量化公式（简化）：

复制代码

Quantized = round(DCT / Qstep)

Qstep 由 QP 决定
高频系数更容易被量化为 0

2. 量化影响

QP ↑ → 码率 ↓、画质 ↓
容易产生：
- 块效应
- 细节丢失

MP4V 的量化 比 H.264 粗，低码率下更明显。

Zig-Zag 扫描与游程编码

1. Zig-Zag 扫描

按从低频到高频顺序排列
提高连续零的概率

2. Run-Level 编码

将：

复制代码

0 0 0 5 0 0 1

编码为：

复制代码

(run=3, level=5), (run=2, level=1)

熵编码（VLC）

MP4V 使用 可变长度编码（VLC）：

基于 Huffman 表
编码内容：
- DCT 系数
- 运动向量
- 宏块类型

特点：

实现简单
解码复杂度低
压缩效率有限

码流组织与输出

1. 码流层次结构

VOL（Video Object Layer）
- 分辨率
- Profile / Level
- 编码参数
VOP（Video Object Plane）
- 一帧视频数据

2. 起始码

VOL Start Code：0x00000120
VOP Start Code：0x000001B6

帧类型与预测机制

1. 帧类型

MP4V 支持三种基本帧类型：

I 帧（Intra Frame）
- 独立编码
- 用于随机访问
- 压缩率最低
P 帧（Predictive Frame）
- 基于前向参考帧
- 通过运动补偿预测
B 帧（Bi-directional Frame）
- 同时参考前后帧
- 压缩效率最高

在 ASP Profile 中，B 帧的引入显著提升了压缩效率，但也增加了编码与解码延迟。

2. 运动估计与补偿

MP4V 使用 块匹配运动估计：

基于宏块的整数像素运动搜索
ASP Profile 支持：
- Half Pixel
- Quarter Pixel（Qpel）
支持 全局运动补偿（GMC）
- 用于摄像机平移、缩放等场景

运动向量通过差分方式编码，以降低码率。

音视频系统中的 MP4V 特点

优点：

编码和解码实现简单
对硬件资源要求低
老旧设备兼容性好
适合低端嵌入式系统

缺点：

压缩效率明显低于 H.264 / H.265
高码率下画质优势不明显
流媒体生态支持逐渐减少
不适合低延迟高质量场景

MP4V 与 H.264 技术参数对比

维度	MP4V (MPEG-4 Part 2)	H.264 (MPEG-4 Part 10 / AVC)	差异点分析
发布年份	1999 年	2003 年	H.264 是其进化版
压缩效率	较低（基于经典 DCT）	极高（引入多参考帧、内预测）	相同画质下，H.264 体积缩小约 40%-50%
最小处理单元	16x16 宏块 (Macroblock)	4x4 子块（更灵活的分块）	H.264 能更细腻地处理图像边缘
运动估计精度	半像素 (Half-pixel)	1/4 像素 (Quarter-pixel)	H.264 对运动物体的追踪更精准，画面更稳
帧内预测	基本没有（仅 DC 系数预测）	支持多种模式的预测	H.264 在处理大面积平滑区域（如天空）时色块更少
熵编码方式	VLC (可变长度编码)	CABAC / CAVLC	H.264 的算术编码能压榨出更多比特流空间
解码复杂度	低（对 CPU 要求极轻）	高（需要专用解码芯片或高性能 CPU）	H.264 牺牲计算力换取带宽
最大分辨率	主要针对标清/720p 优化	原生支持 4K 及更高	MP4V 在高分辨率下会出现明显马赛克
硬件加速支持	仅老旧芯片支持	现代所有显卡、手机 SoC 标配	现在 H.264 的硬件解码比 MP4V 还要普及
常见编码器	DivX, Xvid	x264, OpenH264, NVENC	H.264 的开源生态（x264）极其成熟

总结

MP4V（MPEG-4 Part 2）是视频编码发展史上的重要一环，它在压缩原理、运动补偿、DCT 量化等方面奠定了现代视频编码的基础。尽管在效率和功能上已明显落后于 H.264 及之后的标准，但其结构清晰、实现简单、历史兼容性强，在工程维护、老系统改造和编码原理学习中仍具有价值。