摘要
H.266/VVC(Versatile Video Coding)作为最新一代视频编码标准,于2020年7月正式发布,相比HEVC实现了约50%的码率节省。然而,编码复杂度增加7-31倍、解码复杂度增加约2倍的代价,使得VVC的实际部署面临巨大挑战。本文综述了近年来针对VVC优化的主要研究成果,从编码复杂度优化、环路滤波增强、分区决策加速、解码器优化以及工具链实现等五个方面,总结了学术界和工业界提出的解决方案及其核心观点。
相关论文下载 :H266优化论文
一、编码复杂度优化研究
1.1 复杂度控制的精确化方法
Huang等人(2022) 在IEEE Transactions on Broadcasting发表的研究首次提出了VVC编码复杂度的精确控制方法。该研究的核心观点是:传统的复杂度降低方法在不同视频内容和QP下性能不稳定,难以精确指定每个序列的目标编码时间,限制了编码器的实际应用。
研究团队借鉴码率控制的思想,将编码时间预算视为一种资源,设计了自顶向下的分配和自底向上的反馈机制。该方法的核心贡献包括:
- 线性模型(L Model):发现帧编码时间与LCU时间之间存在线性关系,通过该模型实现复杂度分配的完全级联
- 时间-代价模型(T-C Model):利用Planar Cost与编码时间的关系,实现I帧LCU编码时间的准确预测
- 多粒度控制方案:在GOP/帧/LCU三个级别实现复杂度分配和反馈
实验结果表明,在目标编码时间比例为80%、60%和40%时,平均编码时间误差分别控制在0.24%、0.03%和0.06%以内,BD-rate损失仅为0.28%、0.83%和2.24%。这是首个支持直接指定目标编码时间或FPS,并在单次编码中准确实现的VVC复杂度控制方法。
1.2 基于深度学习的分区决策优化
Zhao等人(2022) 提出了基于深度特征融合和概率估计的两阶段框架,用于优化VVC帧内预测的复杂度。该研究的核心观点是:VVC的嵌套分层CTU结构极其复杂,需要从时空相邻编码特征中提取有用信息来预测最优编码深度和分区模式。
研究的主要贡献包括:
- 深度特征融合模型(D-DFF):使用轻量级CNN融合不同尺度的时空参考特征,预测最优编码深度,准确率达到91.29%
- 概率估计模型(P-PBE):初始化候选分区模式,跳过不必要的分区搜索
- 在HD和UHD视频序列上实现显著的时间节省,同时保持可接受的RD性能损失
该研究证明了深度学习在VVC复杂度优化中的有效性,特别是对于高分辨率视频序列。
1.3 基于视觉感知的快速分区决策
Chen等人(2022) 在IEEE Access发表的研究提出了基于视觉感知和机器学习的快速分区决策方法。该研究的核心观点是:现有VVC快速编码算法很少考虑感知冗余,而人类视觉系统的特性可以用于加速编码过程。
研究的关键创新包括:
- 恰可察觉差异(JND)模型:提取影响视觉感知的可区分像素
- 投影分布特征:发现可区分像素的水平和垂直投影分布与MTT分区模式相关
- 随机森林分类器:使用投影分布作为输入特征,快速选择分区模式
实验结果表明,该方法在保持良好码率和视频质量的前提下,有效加速了帧内编码过程,性能优于之前的工作。
二、环路滤波增强研究
2.1 单一模型处理多QP和帧类型的CNN滤波器
Huang等人(2022) 提出了一种创新的变分CNN(VCNN)环路滤波器,该研究的核心观点是:现有基于CNN的环路滤波器倾向于为不同QP和帧类型训练和部署多个网络,极大地增加了训练资源消耗和编解码器的内存负担。
研究的主要贡献包括:
- 注意力模块:根据QP或帧类型自适应重新校准通道特征,显式地为不同通道分配不同权重
- 残差特征聚合模块(RFA):最小化学习过程中的信息损失,提高特征提取效率
- 焦点MSE损失函数:解决不同QP和帧类型的训练数据不平衡问题,提高模型鲁棒性
实验结果表明,VCNN在All Intra、Low-Delay P、Low-Delay B和Random Access配置下,平均码率节省分别为3.63%、4.36%、4.23%和3.56%,甚至优于QP分离模型。这是首个能够通过单一模型有效处理不同QP和帧类型压缩视频的环路滤波方法。
三、编码器实现与优化研究
3.1 从HEVC到VVC的编码器转换实践
Viitanen等人(2022) 在IEEE Transactions on Consumer Electronics发表的研究,首次详细描述了将HEVC编码器升级为VVC编码器的实现细节。该研究的核心观点是:VVC采用与HEVC类似的混合视频编码方案,因此可以重用许多HEVC编码工具和技术。
研究团队基于开源Kvazaar HEVC编码器开发了uvg266 VVC帧内编码器,主要贡献包括:
- 工具选择标准:基于率失真复杂度(RDC)性能和实现工作量选择编码工具
- 代码重用分析:详细分析了Kvazaar中AVX2优化部分在VVC中的可重用性
- 实现策略:优先实现RD性能高且实现工作量合理的工具,如MTS、JCCR、ALF、LMCS
研究证明了从HEVC编码器转换为VVC编码器的可行性,快速的开发时间和有前景的编码性能使该方法成为从零开始开发编码器的可行替代方案。
3.2 仿射运动估计的快速算法
Park和Kang(2019) 在IEEE Access发表的研究提出了VVC仿射运动估计(AME)的快速编码方法。该研究的核心观点是:AME在VTM编码器中占据约54.75%的运动估计时间,是编码复杂度的主要来源。
研究的主要贡献包括:
- 特征提取:引入反映MTT和AME统计特征的有用特征
- 冗余跳过机制:利用父CU的运动信息跳过冗余的AME过程
- 参考帧减少:减少AME使用的参考帧数量
实验结果表明,与VTM 3.0相比,该方法将AME时间平均减少到63%,而在Random Access配置下的编码损失在0.1%以内。这是VVC文献中首次尝试减少AME复杂度的工作。
四、解码器优化研究
4.1 实时软件解码器实现
Wieckowski等人(2020) 在VVC标准最终确定前夕,提出了优化的软件解码器实现。该研究的核心观点是:VVC解码复杂度约为HEVC的2倍,需要在通用CPU上实现实时解码能力。
研究的关键优化技术包括:
- SIMD指令优化:使用SSE42和AVX2指令集优化样本操作,实现69%(SSE42)和73%(AVX2)的时间节省
- 多线程并行化:采用帧级并行、波前并行处理(WPP)和任务级并行
- 特定块大小优化:针对4×4(仿射预测)、16×16(DMVR)等关键块大小设计专用滤波器核
实验结果表明,在现代移动消费级硬件上,该解码器能够实现10bit HD视频60fps和10bit UHD视频30fps的实时解码,证明了VVC实时解码在标准最终确定前已经可行。
五、工具链与系统集成研究
5.1 完整的端到端开源工具链
Wieckowski等人(2021) 在ACM Multimedia会议上展示了完整的VVC端到端开源工具链。该研究的核心观点是:VVC标准发布一年后,设备级支持仍在开发中,但开源软件包已经可以构建完整的VVC工具链。
研究介绍的主要组件包括:
VVenC编码器:
- 5个预设(faster、fast、medium、slow、slower)
- slower预设达到VTM压缩性能,运行时间不到一半
- 多线程支持,压缩效率损失极小
- 主观优化(XPSNR)和率控制
VVdeC解码器:
- 符合Main 10 profile
- HD视频60fps、UHD视频60fps实时解码能力
- C库接口,易于集成
系统集成:
- GPAC:支持VVC的MP4封装和DASH流媒体
- FFmpeg:集成VVdeC,支持播放和转码
研究提供了两个应用场景的逐步教程:VVC文件编码加播放,以及DASH自适应流媒体,证明了VVC在标准发布一年后即可用于实际应用。
六、新兴研究方向
6.1 人机视觉协同编码框架
Sheng等人(2023) 提出了学习型多功能视频编码(LVVC)框架,该研究的核心观点是:几乎所有数字视频在传输前都被编码为紧凑表示,这些表示需要解码回像素才能显示给人类或被机器视觉算法处理,而对于机器视觉,直接处理编码表示而不解码到像素域更为高效。
研究的主要创新包括:
- 基于特征的压缩循环:帧被编码(解码)为中间特征,中间特征被引用用于编码(解码)后续帧
- 基于特征的时序上下文挖掘:从之前的中间特征学习多尺度时序上下文
- 跨域运动编解码器:直接从输入帧和之前的中间特征压缩运动向量
LVVC框架在视频重建、视频处理和视频分析任务上进行了评估,证明了其压缩效率。该框架允许中间特征用于重建视频,或输入到不同的任务网络,实现了人类和机器视觉的多功能性。
七、总结与展望
7.1 主要研究进展
通过对上述研究的综述,可以看出VVC优化研究在以下方面取得了显著进展:
复杂度优化:从简单的复杂度降低发展到精确的复杂度控制,支持直接指定目标编码时间或FPS,误差控制在0.03%-0.24%以内。
深度学习应用:CNN在环路滤波、分区决策等领域的应用日益成熟,单一模型处理多QP和帧类型的能力显著提升。
实现优化:编码器和解码器的优化技术不断进步,实时处理能力从理论变为现实,开源工具链日趋完善。
新兴方向:人机视觉协同编码、特征基压缩等新范式开始探索,为视频编码的未来发展开辟了新路径。
7.2 存在的挑战
尽管取得了显著进展,VVC优化仍面临以下挑战:
- 复杂度-效率权衡:如何在保持高压缩效率的同时进一步降低复杂度,特别是对于移动和嵌入式设备
- 深度学习模型的泛化能力:训练数据覆盖范围、跨数据集性能、实际部署的鲁棒性
- 硬件实现:QTMT分区、ALF等新工具的硬件友好设计,功耗和芯片面积的优化
- 许可证问题:避免HEVC的许可证困境,建立健康的VVC生态系统
7.3 未来研究方向
基于当前研究进展,未来VVC优化研究可能朝以下方向发展:
- 自适应复杂度控制:根据设备能力和应用需求动态调整编码复杂度
- 端到端学习:探索完全基于深度学习的视频编码框架
- 多任务协同:视频编码与机器视觉任务的深度融合
- 硬件-软件协同设计:针对特定应用场景的定制化优化
参考文献
1\] Hamidouche W, et al. Versatile Video Coding Standard: A Review from Coding Tools to Consumers Deployment. IEEE Transactions on Circuits and Systems for Video Technology, 2021. \[2\] Viitanen M, et al. From HEVC to VVC: The First Development Steps of a Practical Intra Video Encoder. IEEE Transactions on Consumer Electronics, 2022. \[3\] Huang Z, et al. One-for-all: An Efficient Variable Convolution Neural Network for In-loop Filter of VVC. IEEE Transactions on Image Processing, 2022. \[4\] Zhao T, et al. Efficient VVC Intra Prediction Based on Deep Feature Fusion and Probability Estimation. IEEE Transactions on Circuits and Systems for Video Technology, 2022. \[5\] Sheng X, et al. LVVC: A Learned Versatile Video Coding Framework for Efficient Human-Machine Vision. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023. \[6\] Huang Y, et al. Precise Encoding Complexity Control for Versatile Video Coding. IEEE Transactions on Broadcasting, 2022. \[7\] Chen M J, et al. Efficient Partition Decision Based on Visual Perception and Machine Learning for H.266/Versatile Video Coding. IEEE Access, 2022. \[8\] Wieckowski A, et al. A Complete End-To-End Open Source Toolchain for the Versatile Video Coding (VVC) Standard. ACM Multimedia, 2021. \[9\] Wieckowski A, et al. Towards a Live Software Decoder Implementation for the Upcoming Versatile Video Coding (VVC) Codec. IEEE International Conference on Image Processing, 2020. \[10\] Park S H, Kang J W. Fast Affine Motion Estimation for Versatile Video Coding (VVC) Encoding. IEEE Access, 2019. *** ** * ** *** **版权声明**:本文为学术论文综述,引用内容均标注出处,仅供学术研究和学习交流使用。