音视频学习（七十）：SVC编码

在视频编码领域，H.264/AVC（Advanced Video Coding） 是一种具有高压缩效率和广泛应用的编码标准。然而，随着视频业务的多样化发展（如多终端自适应播放、网络带宽波动、视频会议等），传统的单层视频码流难以同时满足不同带宽、分辨率和性能条件下的播放需求。

为解决这一问题，ITU-T 与 ISO/IEC 在 H.264 基础上提出了 SVC（Scalable Video Coding，可伸缩视频编码） 扩展，即 H.264/AVC Annex G。

SVC 允许在单一比特流中提供多层次的编码结构，使得视频能够在 空间（分辨率） 、时间（帧率） 和 质量（信噪比） 等维度上灵活伸缩，从而实现"一码多用"。

基本概念

1. 可伸缩编码的定义

可伸缩视频编码是指：

一个视频码流可以通过提取部分子码流（称为子集码流）来解码出不同质量的视频，而不必重新编码。

换言之：

SVC 在一个码流中同时包含多个"层"（Layer），每一层代表一种特定的编码质量或分辨率。

这种结构能让解码端根据网络状况或设备能力，选择解码部分层数据，从而实现自适应播放。

2. 层的结构

SVC 通常由两类层组成：

基础层（Base Layer）：最低分辨率、最低帧率或最低质量，能够单独解码；
增强层（Enhancement Layer）：在基础层上进一步提高分辨率、帧率或质量。

多层码流之间存在依赖关系。增强层利用基础层的预测信息，实现编码效率与可伸缩性的平衡。

三种伸缩类型

SVC 的核心是三种伸缩方式：时间伸缩、空间伸缩和质量伸缩。

1. 时域伸缩（Temporal Scalability）

（1）定义

时域伸缩是指在同一视频码流中，通过分层设计支持不同帧率的视频解码。

（2）原理

编码器将视频帧划分为多个时间层（Temporal Layer）：

T0 层：包含关键帧（I/P 帧），代表最低帧率；
T1/T2 层：加入更多 B 帧或中间帧，提升帧率。

若网络带宽不足，解码器可以仅解出 T0 层，从而降低帧率以维持流畅播放。

（3）示例

以 30fps 的视频为例，若设计为三层时域结构：

仅解 T0 → 7.5fps
解 T0 + T1 → 15fps
解全部层 → 30fps

这种方式适合实时视频会议和移动网络自适应播放。

2. 空域伸缩（Spatial Scalability）

（1）定义

空域伸缩是指在同一码流中包含多个不同分辨率的视频层（如 480p、720p、1080p），实现"分辨率可伸缩"。

（2）原理

编码器在空间上对视频进行多分辨率编码：

基础层（Base Layer） 采用低分辨率编码；
增强层（Enhancement Layer） 在编码时引用基础层的上采样图像作为参考帧。

增强层利用基础层的信息预测残差，从而提高编码效率并保持层间一致性。

（3）优点

同一视频流可在不同终端直接播放；
服务器可根据网络条件动态选择输出层；
避免重复转码，节省带宽与计算资源。

3. 质量伸缩（Quality 或 SNR Scalability）

（1）定义

质量伸缩是指在相同分辨率下提供不同的图像质量层，通过多层量化控制实现。

（2）原理

编码器在相同空间分辨率下，对残差系数进行多层量化：

基础层使用较高的量化参数（QP 大，质量低）；
增强层对相同像素进行更精细的量化修正（QP 小，质量高）。

这样，低带宽时可以仅传输基础层；带宽充足时则可叠加增强层，获得更高画质。

（3）类型

粗粒度质量伸缩（CGS）：整帧以固定 QP 差值分层；
细粒度质量伸缩（FGS）：对系数按比特级扩展，可更灵活调整质量。

SVC 的分层结构

在编码结构上，SVC 通常采用三维层级模型：

scss 复制代码

        ┌───────────────┐
        │ 质量层 (Quality Layer)
        ├───────────────┤
        │ 空间层 (Spatial Layer)
        ├───────────────┤
        │ 时间层 (Temporal Layer)
        └───────────────┘

每个视频帧可以同时隶属于这三个维度的层之一或多层，形成多层依赖体系。

在比特流中，SVC 使用 NALU (Network Abstraction Layer Unit) 的扩展头（包含 dependency_id、temporal_id、quality_id）来标识帧的层次信息。

SVC 的关键技术

1. 分层预测（Inter-layer Prediction）

增强层在编码时，不仅可参考本层的历史帧（时间预测），还可参考基础层的上采样结果（跨层预测），从而提高编码效率。

主要包括：

跨层像素预测（Inter-layer Texture Prediction）
跨层运动矢量预测（Motion Prediction）
跨层残差预测（Residual Prediction）

2. 码流提取（Bitstream Extraction）

解码端或中间节点可根据需求提取指定层的子码流进行解码。

例如，只提取 base layer 或 base+temporal layer，即可实现带宽自适应。

3. NALU 层级扩展

SVC 扩展了 H.264 的 NAL 头部，引入了三个标识字段：

dependency_id：空间层标识；
temporal_id：时间层标识；
quality_id：质量层标识。

这些信息帮助解码器正确解析层间依赖关系。

SVC 的优势与不足

1. 优势

多终端适配：同一视频流支持多种分辨率与帧率，手机、PC、电视均可直接使用。
带宽自适应：弱网环境下可自动降低层级，维持播放连续性。
高效传输：多播/组播场景中，一个码流满足多用户需求，节约网络资源。
容错性好：低层丢失后仍可保证基本视频质量。
转码成本低：无需为不同终端重复编码。

2. 不足

编码复杂度高：层间预测与依赖管理增加编码计算量。
码流封装复杂：需要维护层间映射与依赖表。
解码压力增大：解码器需具备多层解析能力。
标准实现少：主流硬件和传输协议（如 HLS、RTMP）对 SVC 支持有限。

总结

H.264 SVC 是一种在单一码流中实现多层视频质量的高效编码技术。

其核心思想是通过时间、空间和质量三个维度的分层结构，实现码流的灵活裁剪与自适应播放。

SVC 的出现使视频服务更具灵活性和带宽适应性，但也带来了编码复杂度与标准兼容性的挑战。

随着计算能力和网络环境的提升，SVC 及其后续标准（如 AV1 SVC、HEVC SHVC）将在多终端视频通信、云渲染和智能监控等领域发挥越来越重要的作用。