音视频学习（八十）：离散余弦变换(DCT)

DCT 在视频有损压缩中的地位

在现代视频编码技术中（如 H.261 / MPEG-1/2 / H.263 / MPEG-4 / H.264 / H.265 ），离散余弦变换（Discrete Cosine Transform, DCT）是最核心的能量变换工具之一。
其主要作用是：将空间域中高度相关的像素信号，转换为频率域中能量高度集中的系数表示，从而为后续的量化（Quantization）和熵编码创造条件。

可以说：

DCT 是视频有损压缩中"损失发生之前的准备阶段"，决定了压缩效率的上限。

为什么视频压缩需要 DCT

1. 视频信号的空间冗余

视频帧本质是二维图像，存在大量冗余特性：

相邻像素灰度高度相关
大块区域亮度变化平缓
人眼对高频细节不敏感

如果直接对像素编码：

数据量巨大
冗余无法消除
压缩效率极低

2. 变换编码的基本思想

DCT 属于正交变换编码，其核心思想是：

将像素值 → 一组频率分量
低频：图像主体信息
高频：纹理、噪声、细节

经过 DCT 后：

能量集中在低频系数
高频系数大量接近 0
非常适合进行"有损舍弃"

离散余弦变换的基本原理

1. 一维 DCT 定义

对长度为 N 的离散信号 x(n)，一维 DCT 定义为：

2. 二维 DCT（图像/视频实际使用）

视频编码中使用的是 二维 DCT：

常见变换块大小：

JPEG / MPEG-2：8×8
H.264：4×4、8×8（整数 DCT）
H.265：可变变换单元（4×4～32×32）

DCT 的核心特性

1. 能量集中特性（Energy Compaction）

这是 DCT 被广泛采用的最重要原因：

图像中 90% 以上能量集中在低频
左上角 DC、低频 AC 系数占主导
高频系数趋近于 0

示意（频率分布）：

复制代码

低频 →  →  高频
[ DC | AC | AC | ... ]
[ AC |    |    |     ]
[ AC |    |    |     ]

2. 去相关能力强

空间域像素相关性高
DCT 后频率系数近似独立
非常适合后续熵编码（CABAC / CAVLC）

3. 正交、可逆（量化前）

正交矩阵
无失真反变换（IDCT）
损失只来自量化阶段，而非 DCT 本身

DCT 在视频编码流程中的位置

以 H.264 为例：

复制代码

预测（帧内/帧间）
      ↓
残差计算（当前块 - 预测块）
      ↓
DCT / 整数变换
      ↓
量化（产生有损）
      ↓
熵编码

关键点：

DCT 编码的是"残差"，不是原图
残差能量更集中，DCT 效果更好
视频编码是"预测 + DCT"的组合压缩

DCT 与量化：有损压缩的真正发生点

1. 量化是"有损"的根源

DCT 本身不丢信息，真正的损失发生在：

低频：Qstep 小，保留精度
高频：Qstep 大，直接归零

2. 人眼视觉特性支撑有损

对亮度比色度敏感
对低频比高频敏感
对边缘方向更敏感

因此：

高频系数舍弃 → 视觉损失不明显
压缩比大幅提升

整数 DCT 与现代视频编码

1. 浮点 DCT 的问题

计算复杂
硬件实现困难
误差累积影响一致性

2. H.264 的整数变换

H.264 采用：

整数近似 DCT
完全可逆
编解码器结果一致

示例特点：

4×4 整数变换矩阵
位移和加法实现
极大提升实时性

DCT 带来的典型失真现象

1. 块效应（Blocking Artifact）

原因：

DCT 以块为单位
高频被强量化
相邻块边界不连续

表现：

方块状边缘明显
低码率视频尤为突出

2. 振铃效应（Ringing）

原因：

高频截断
反变换产生波纹

表现：

边缘附近出现"水波纹"

现代编码通过：

去块滤波（Deblocking）
SAO、ALF（H.265）
进行缓解。

总结

离散余弦变换是视频有损压缩的基石技术，其成功源于：

优秀的能量集中特性
与人眼视觉模型高度契合
与预测编码完美结合
计算复杂度与压缩效率平衡良好

虽然现代编码引入了更复杂的工具（自适应预测、可变块、环路滤波），但 DCT 及其整数变种依然是视频编码不可替代的核心模块。

没有 DCT，就没有高效的视频有损压缩。