北大&火山引擎夺冠!CLIC视频压缩挑战赛结果公布,中国团队表现亮眼

量子位 | 公众号 QbitAI

随着以深度学习为代表的新一代人工智能技术不断取得突破,学术界与工业界逐渐意识到人工智能技术在图像、视频压缩领域的巨大应用潜力。

基于深度学习的图像视频压缩技术被视为超越传统压缩技术能力极限、取得突破性进展的明日之星。

近日,第六届深度学习图像压缩挑战赛(以下将简称"CLIC大赛")比赛结果公布,由火山引擎多媒体实验室与北大组成的联合参赛平台b-2在高码率视频压缩低码率视频压缩两个赛道均夺得主客观指标冠军。基于深度学习技术,b-2平台提出了一项"传统-智能混合解决方案"。

传统---智能混合解决方案

b-2 平台在充分理解传统压缩技术与深度学习压缩技术的各自原理的基础上,发挥两种技术路线的各自优势,取长补短,将二者有机融合成为一个整体,形成了独具特色的传统------智能混合解决方案。

传统编码模块在业界已有传统编码框架基础上,加入了非对称四叉树划分等创新技术。智能编码模块则引入了基于深度学习的环路滤波等技术。

△非对称四叉树划分结构;(a)H1型水平UQT,(b)H2型水平UQT,(c)V1型垂直UQT,(d)V2型垂直UQT。

编码单元划分是混合视频编码框架的基础,决定着编码单元的基本形状和尺寸。灵活的划分方法能更有效地表达视频丰富的纹理和运动,对编码性能的提升起着至关重要的作用。

团队提出了非对称四叉树 (UQT) 划分结构,旨在提高视频的编码效率。与现有的四叉树(Quad Tree, QT),二叉树(Binary Tree, BT),三叉树(Ternary Tree, TT)划分结构相比,UQT通过一次划分生成的子编码单元能触及更深的划分深度,能更有效地捕捉视频丰富的细节特性。

此外,UQT生成的子块形状是无法通过 QT 、BT、TT组合实现的,一定程度上弥补了现有划分的不足,丰富了划分的表达。

△环路滤波网络结构示意图,包括网络的输入,滤波与输出模块

传统视频编码中采用环路滤波器去除编码失真,缩小原始图像与重建之间的失真,例如经典的去块滤波、样本自适应偏移和自适应环路滤波等。

参赛平台提出了一种基于残差卷积网络的增强型环路滤波技术,有机地将环路滤波技术与深度学习技术结合在一起,在网络结构中与模型训练中充分利用传统视频编码的先验信息,提升环路滤波效率。

网络输入方面,除重建像素外,团队将编码过程中的预测信息、划分信息、边界强度以及量化参数等作为增强信息供深度网络学习,丰富先验知识,使得网络能更好地感知压缩失真。

在分层参考的编码结构中,待编码帧将参考已重建的高质量帧。团队提出对不同时域层次帧所使用的滤波器采用迭代训练的方式,获取最接近真实编码的训练数据,实现更高性能的滤波。

此外,每个条带及最大编码单位均可以在多个滤波模型中自适应地选择率失真性能最优的网络模型,并将选择信息传输到解码端。

△CLIC视频压缩赛道基于MOS的排行榜

CLIC大赛由电气与电子工程师协会IEEE主办,从诞生开始就获得了学术界与工业界的广泛关注。

2023年CLIC大赛暂停一届,本届大赛依托于数据压缩领域的顶级会议 Data Compression Conference (DCC)再次举办。本届DCC中,火山引擎多媒体实验室有8篇论文入选。此外,这也是该团队自2022年CLIC大赛高码率视频压缩低码率视频压缩两个赛道夺冠后,再次蝉联。

火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。

相关推荐
Aileen_0v02 小时前
【玩转OCR | 腾讯云智能结构化OCR在图像增强与发票识别中的应用实践】
android·java·人工智能·云计算·ocr·腾讯云·玩转腾讯云ocr
阿正的梦工坊3 小时前
深入理解 PyTorch 的 view() 函数:以多头注意力机制(Multi-Head Attention)为例 (中英双语)
人工智能·pytorch·python
Ainnle3 小时前
GPT-O3:简单介绍
人工智能
OceanBase数据库官方博客3 小时前
向量检索+大语言模型,免费搭建基于专属知识库的 RAG 智能助手
人工智能·oceanbase·分布式数据库·向量数据库·rag
测试者家园3 小时前
ChatGPT助力数据可视化与数据分析效率的提升(一)
软件测试·人工智能·信息可视化·chatgpt·数据挖掘·数据分析·用chatgpt做软件测试
Loving_enjoy5 小时前
ChatGPT详解
人工智能·自然语言处理
人类群星闪耀时5 小时前
深度学习在灾难恢复中的作用:智能运维的新时代
运维·人工智能·深度学习
图王大胜5 小时前
模型 确认偏误(关键决策)
人工智能·职业发展·管理·心理·认知·决策
机器懒得学习5 小时前
从随机生成到深度学习:使用DCGAN和CycleGAN生成图像的实战教程
人工智能·深度学习