抖音集团都在用的画质评估工具,确定不试试吗?

作者:

张滔,多媒体实验室 画质评估负责人

杜昱萱,veImageX 图像智能产品负责人

导读

本文从抖音集团内部画质评估体系的建设历程着笔,主要分享了画质评测对于业务的重要性主要应用场景内部产品的一些典型实践案例。通过分享业务视角遇到的一些问题和我们的解决思路,希望能抛砖引玉,为遇到类似困扰的伙伴们提供有价值的参考。

画质评估体系建设历程

为何评测画质如此重要?

我们通过线上业务大量实验发现,图片画质优劣对点击率、 停留时长 等消费类指标有正相关影响 ,间接影响用户收益指标。因此,建设一套行之有效的 画质评估 体系,保障用户的画质体验是非常有必要性的。

典型场景 画质评估 体系提供的价值
通过转码、压缩或其他手段实现图片降本,可能损害画质 提供客观标准,用于平衡压缩效果和画质体验
通过画质增强、打压低质图片等手段提升用户画质体验 提供量化指标,用于分析现状、评估优化效果和辅助调整优化策略

直观来讲,画质提升能够为带来更好的观感体验,但QoE综合体验也需要考虑其他方面如用户设备、网络状况、观看环境等多方面因素,不计成本地提升画质是否能持续为用户带来QoE的收益需要在业务场景中通过严谨的实验方案来验证效果的。

在低质图像打压和基于画质的推荐优化等多项业务中的数据分析积累沉淀,我们获取画质评分与用户主观体验之间的明确关系,数据统计显示用户对不同画质内容的敏感程度有着不同趋势,在中档画质分区间持续提升画质,用户的QoE体验也会显著提升,但当画质低于或者高于某个阈值时,用户对于画质将变得不再敏感,提升/降低画质对用户的影响均会降低。

期望中的画质甜点关系,中段区间的画质提升会持续带来QoE收益

实际业务场景中,分析画质与用户平均观看时长的关系,中高画质可以带来持续的看播收益

下图具体描述了两类典型应用场景下,画质评估体系在业务实践中发挥的主要价值:

典型应用场景 转码优化 推荐打压
业务实践经验 基于QoE画质的关联因素,高画质和低画质区间会存在饱和趋势,最佳策略为根据源内容画质对编码策略分类调控 : 1. 对低画质区间使用更激进的编码参数 ,在轻微QoE损失的前提下节省带宽成本; 2. 在中间画质区间适当提升 编码 质量,用较低的带宽成本换取更好的QoE体验 大多数业务中基于用户画像的推荐系统中,模型的隐藏参数维度会隐式地包含一定画质层面因素,比如画质敏感用户会不喜欢低画质推送内容等,针对不同模型系统画质指标会有不同的优化策略。 常见地,画质&QoE优化推荐策略可以分为两个层面:通降策略特征融合策略 。 1. 通降策略一般直接使用画质多维度分数,设计不同的推荐打压或提高触发策略,直接作用于移除推荐候选组低画质内容,或者降低低画质内容推荐权重,实现低清打压的后处理逻辑来提升用户的画质观感。 2. 特征融合策略则是补充画质多维度的特征作为模型训练的权重,提升推荐模型的CTR等关键指标效果,在实际业务中会有更好的效果。

我们为何自研 画质评估 体系?

图像服务的最终用户是人类,图像质量评价致力于成为可衡量图像的人眼感知质量需求的客观计算方法

行业现状

  • 主观质量评估:最准确,但费时费力费钱,难以批量应用。例如专家评测、众包测试等。
  • 客观评估算法:省时省力可大规模应用,但无论全参/无参考算法与主观评测均存在一定GAP,在UGC场景,差距会更加明显

业界常用的有参画质评估算法,主要包括PSNR、SSIM、VMAF等3种:

算法名称 简要说明 分数参考范围
PSNR PSNR(Peak signal-to-noise ratio)是峰值信噪比,是一个表示信号最大可能功率(视频像素值最大值)和影响它的表示精度的破坏性噪声功率(测试视频与参考视频之间的误差)的比值。 本质上就是表示两个信号的相似程度 。当两个视频其中一个为无失真视频,另一个为失真后的视频,二者的PSNR可以看成是失真视频的质量衡量指标。 它是当前业界最常用的有参客观质量指标,最常用的用于评价压缩失真的画质指标之一。 <30: 差 30~38:一般 38~45:较好 >45:非常好
SSIM SSIM(structural similarity index)是一种用以衡量两个图像或视频结构相似性的指标,该指标主要从亮度 (luminance)、对比度 (contrast) 和结构 (structure)三个方面来衡量两个图像/视频之间的区别。 当两个视频其中一个为无失真视频,另一个为失真后的视频,二者的SSIM可以看成是失真视频的质量衡量指标。 <0.9: 差 0.9~0.95: 较差 0.95~0.98: 中等 >0.98: 好
VMAF VMAF(Video Multi-Method Assessment Fusion) 是由Netflix提出的一个客观有参考视频质量指标,它也是当前业界广泛认可的有参画质指标。 它主要使用了3种基础指标:visual quality fidelity(VIF)、detail loss measure(DLM)、temporal information(TI),其中VIF和DLM是空间域的也即一帧画面之内的特征,TI是时间域的也即多帧画面之间相关性的特征。最终使用机器学习算法(SVM)将三个基础指标融合成最终的画质分数。 <80:很差 80~87:较差 87~93:中等 93~97: 好 >97:非常好

痛点

  • 难以量化画质增强效果:行业通用指标( PSNR、SSIM、VMAF等)均为有参考画质指标, 主要适用于压缩失真的画质评估,难以量化评估画质增强效果。
  • 不适合 UGC 场景的评分:行业通用指标适用场景存在一定局限性,其训练数据集主要为PGC内容,在UGC场景的泛化效果较差。
  • 评估维度有限:UGC场景下,图片内容复杂且画质影响因素多样,需要更多维度评估指标用于画质分析和指导优化。

我们如何建设画质评估体系?

根据点播、直播和图片等不同形态业务需求,视频架构多媒体实验室自研的VQScore 画质体系提供配套最优的全链路画质打分能力,提供异步或实时画质打分数据,为后续转码、增强、推荐策略和大盘监控提供能力支持。

具体画质分析打分能力分为两个部分:

  1. 内容分析理解:主要包含ROI检测、CG内容检测、人脸检测、内容分类等基础分类和检测的能力,为后续画质打分和增强转码提供细分的维度拆解能力和关键内容识别能力,实现精细准确的端到端自适应增强转码组合能力
  2. 画质打分能力:主要包含通用清晰度打分算法、美学指标、高阶色彩指标、人像画质等评估指标,噪声、块效应、过曝、脏镜头、模糊和伪高清等细分归因指标,以及超分质量、锐化质量和增强组合评估等前处理画质提升能力评估指标,通用+归因+增强多个维度组合,为不同的业务场景的画质优化需求提供集监控、分析、策略推荐等全方位画质打分能力

通用的画质清晰度评估算法基于多样化多业务场景主观标注样本、开源数据集和多样化失真合成数据集,驱动的轻量transformer-based深度学习的方案,在UGC视频/图像场景提供更稳定准确的客观清晰度预测能力。

在多种业务场景下,根据点播、直播和图片不同形态业务需求,支持最高4K分辨率内不同投稿内容的源画质分析,结合业务属性维度提供深入细化的画质维度分析,为自适应转码提供编码优化对比和不同时间尺度的画质监控,为AB实验和版本迭代等业务流程提供有效的QoE维度数据,同时也可以为多分辨率/码率档位播放下发提供画质与QoS网络、设备等因素组合组合的自适应播放分发优化能力。

抖音 画质评估 体系有哪些优势?

适用范围广泛

  • 高质量且规模庞大的训练数据集,覆盖PGC和UGC内容,适用范围广泛(特别针对UGC场景)
  • 算法模型历经亿级DAU产品持续打磨优化,泛化能力强

评估维度多元

包含主观清晰度、大众美学质量等2类综合指标和噪声、亮度等十余类细分指标,支持更多维度、更细粒度地分析画质问题,便于业务有针对性地进行优化和调整策略

多业务线上验证收益显著

历经抖音、头条、番茄小说等数十个大体量业务线上验证,评估效果可靠,能有效支持业务进行画质体验提升,进而带来用户消费指标提升,收益显著

算法能力业内领先

画质评估体系涉及的算法模型已申请多项专利。eg. 一种检测伪高清视频的方法,一种基于多任务孪生神经网络的高阶视频色彩质量评价模型,一种三明治视频自适应播放方法等。

在ICME 2021的「压缩UGC视频质量评估」比赛中,火山引擎-多媒体实验室凭借自研的VQScore算法斩获无参考视频质量评价(NR-VQA)MOS赛道第一名。(详细介绍

该比赛主要针对 UGC 源视频画质和 H.264/AVC 压缩失真对视频主观画质的影响的研究

画质评估主要应用在哪些场景?

以瘦身计划和体重秤之间的关系做个简单类比,画质评估体系作为一套相对客观且行之有效的评测工具,在帮助产品了解业务画质现状、了解行业和市场现状、监测线上画质变化和支持提升用户体验等方面都有非常广泛的应用。

了解业务画质现状

业务团队可以借助veImageX提供的画质评估工具,通过离线测评和在线评估等手段高效完成业务产品的画质摸底;同时,画质评估体系包含丰富的评测维度(例如噪声强度、色彩质量、块效应检测、过曝光检测等),数十项细分评测指标可高效帮助业务团队完成低质图像归因分析,快速锁定问题所在。

了解行业/市场现状

借助画质评估工具,可以帮助业务团队对市场主流产品或同类业务进行画质评测,以便制定合理的画质提升目标;同时,综合用户主观评测和客观指标的对应关系,高效帮助业务团队确定适合自身业务的画质评估标准。

监测线上画质变化

对于一款关注用户画质体验的产品来说,线上画质监测工具必不可少。而veImageX提供端到端的画质指标监测工具,可帮助业务团队长期高效监测线上画质变化;通过前后数据对比分析,帮助业务有效验证画质优化举措的效果;同时,线上低质问题告警也可帮助业务团队及时发现问题,保障线上用户浏览体验。

支持提升用户体验

借助画质评估体系提供的评测结果,业务团队可以通过对低质图片进行搜索/推荐降权等方式打压低质内容,或借助画质增强能力提升画质,有效提升用户的浏览体验,进而带来点击率、人均阅读/消费时长、用户留存等业务指标正向提升。

典型案例实践分享

目前,由火山引擎veImageX提供的画质评估工具已服务于抖音、头条、西瓜、番茄小说、懂球帝等数十条业务线,在保障用户的画质体验方面发挥着重要作用。接下来,我们选取了几个典型案例为大家简要分享我们的实践经验。

某短视频/社区平台

需求背景

某短视频/社区平台是主要用户分布在多个国家和地区,发布内容覆盖多个细分垂类。业务团队收到部分用户反馈关注到不同国家和内容垂类间的画质存在一定差异,影响了用户的浏览体验,从而设立专项进行问题解决。

实践方案

业务团队首先使用画质评估工具对全地区的图片画质进行了离线摸底分析,发现部分国家间、某些重点垂类间的图片画质有较大差异,故使用自适应增强模型,针对性进行画质提升的同时尽可能节省码率。

整体收益

优化后,该平台各地区间、重点垂类间的画质基本拉齐且均达到【良好】及以上水平,图片大小显著降低,人均停留时长、人均互动、人均阅读时长、人均session次数等消费指标均显著正向。

番茄小说

需求背景

相比于网文,漫画的书封更加精美,信息量也更多,因此在产品形态上,番茄小说频道采用了大屏的展现形式。然而,在漫画功能上线后,业务团队发现,有部分漫画的原始书封比较模糊,严重影响用户浏览体验。如下图所示:

为了提升这部分图片的画质,业务团队想到了通过画质评估筛查低质图片,使用画质增强能力搭建自动化处理流程,针对性处理低质图片,得到高清图,以提升整体观感。

实践方案

业务团队使用veImageX画质评估工具,针对出版物(如小说封面、插图、电子书书封、有声 播放器 封面等)漫画(漫画封面、横图等) 等场景进行离线画质测评,对不同分辨率图片进行画质摸底。根据对低质原因的分析和增强算法对主观画质提升的收益大小综合评估,明确差异化的处理方案。最终业务团队选择搭建自动化处理流程,根据评估结果对不同画质等级的图片进行如自适应增强、超分等优化处理,针对性提升用户的画质浏览体验。

低质图片优化前后对比如下:

投稿原图 优化效果图 投稿原图(下采样至240p) 优化效果图(下采样至240p)
  1. 整体收益

番茄小说团队借助veImageX画质评估和画质增强能力,有的放矢的提升画质,有效提升了用户画质体验点击率、人均阅读/消费时长、留存等用户消费指标。

场景 画质收益 业务收益
出版物 评估建议 :低质增强算法整体效果较稳定,在整个数据集上有3~4分vqscore的收益,在中高分辨率且低质量图片上收益较高;2倍和4倍超分算法分别有约6.1和6.8分的vqscore收益,但在部分图片上细节保留较差,在中低分辨率图片上收益较高。 **画质收益:**针对不同分辨率图片采用不同的画质增强模型,整体带来约5分vqscore收益 出版物人均阅读时长指标持续正向提升+x%
漫画 评估建议 :低画质和中低画质占比约 x%,此部分部分图片建议开启增强;中高画质和高画质经增强处理后,大图和小图vqscore均有提升,主观画质提升不明显,此部分可暂不开启增强。画质收益 :低画质经增强处理后,大图 vqscore提升约21分,小图vqscore提升约9分,主观画质明显提升 ;中低画质经增强处理后,大图 vqscore 提升约15分,小图vqscore提升约6分,主观画质明显提升 漫画渗透、消费时长和点击率等均正向; 漫画功能回访、5日留存多天显著正向

今日头条

需求背景

头条小视频频道主要以双列展示为主,而双列流频道展现形式又以封面图为主。综合线上实验结果和实践经验发现,封面图的画质质量不仅会影响用户浏览体验,也会影响点击转化率和用户留存等业务指标,如何有效识别封面模糊的内容并进行打压调控成为一项较为棘手的工作。

实践方案

借助画质评估工具,业务团队对封面图进行画质打分,高效识别出低质封面(blockiness≥ X且vqscore< Y)并实行打压调控策略;同时将vqscore纳入推荐模型的参考指标,给优质内容提供更多优先曝光机会。

整体收益

业务团队通过对低质封面图进行打压调控,人工评估封面优质率提升约3倍封面低质率降低了约36.7%模糊封面图占比降低了约51.4%人均阅读数、 停留时长 、点击转化率等业务指标也得到显著提升。(数据来自业务AB实验)

幸福里VR

需求背景

幸福里房产VR能力在建设初期,因素材供给来源多样且渠道纷杂,质量良莠不齐,频繁收到线上用户反馈;图像质量把控主要依靠人工审核、定期抽检和线上反馈,不仅耗费人力且评估主观,对全景图缺乏有区分度的数据指标量化衡量图像质量和行业领先水平的差距,导致业务团队难以高效定位画质问题并针对性的改善和评估优化效果。

实践方案

通过对线上样本数据进行离线画质摸底并综合算法专家建议,业务团队最终选定清晰度 VQScore )、噪声(Noise)、亮度(Brightness)、过曝光(Overexporsure) 等四项指标作为全景图量化评估指标。评估发现精装 、 简装 、毛坯等三种装修类型存在显著画质差异 ,关键差异与环境光线、灯光照明等因素有较高关联,业务团队针对性进行迭代优化并监测画质指标变化,显著提升了VR看房效果。

整体收益

业务团队通过画质评估工具,定位具体的画质问题,针对性进行迭代优化以缩小和行业领先水平的差距 ;同时借助veImgaeX 提供的VR画质增强能力,显著提升全景图画质阶段性实现用户0客诉弥补了前端采集设备质量参差等问题。

写在最后

本文简要介绍了抖音集团内部对画质评估体系的业务思考、建设历程、应用场景和部分实践经验。由于篇幅所限,本文对探索历程、具体实现等细节内容有所省略,但仍希望能给业内同仁们一点启发或者参考借鉴。

火山引擎veImageX已全面集成上述画质评估体系,综合素材托管、压缩、智能处理和分发能力提供一整套图像解决方案支持全行业使用。目前画质评估和画质增强等多种能力均在特惠促销中产品新用户首购低至"1元" ,欢迎大家购买使用。(促销活动链接

最后,非常欢迎有类似需求或经验的伙伴来一起探讨交流,期待和大家共同进步!

相关推荐
sincenir1 年前
什么?浏览器也能搞 VR 了?aframe 让你通过 react/vue/svelte/原生HTML 写 VR 项目!
前端·three.js·webvr
XR基地1 年前
咦,这里也能体验各种好玩的visionOS应用呀!
visionos·apple·webvr
格斗家不爱在外太空沉思1 年前
Krpano:打造全景漫游体验—Layer详解
前端·webvr
格斗家不爱在外太空沉思1 年前
Krpano:打造全景漫游体验—基础(三)
前端·虚拟现实·webvr
格斗家不爱在外太空沉思1 年前
Krpano:打造全景漫游体验—基础(二)
前端·虚拟现实·webvr
格斗家不爱在外太空沉思1 年前
Krpano:打造全景漫游体验—基础(一)
前端·webvr
ygtu20181 年前
WebVR — 网络虚拟现实
虚拟现实·webvr