近期,在计算机视觉领域最具影响力的「国际竞赛 CVPR 2025 NTIRE」中,火山引擎多媒体实验室团队同学组成"SharpMind"小组,在NTIRE 2025 Short-form UGC Video Quality Assessment Challenge-Track1-VQA赛道以显著优势夺冠。基于能力强大的多模态大模型,团队方案成功构建了评估精度、计算效率俱优的画质评价模型,为大模型能力的利用提供了可行参考范式。

本次"SharpMind"参加的CVPR 2025 NTIRE 视频质量评估赛道,吸引了腾讯、中兴、上海交通大学、北京邮电大学等知名企业和院校参加。夺冠方案通过构建基于MLLM教师模型突破专业质量评估性能上限,结合蒸馏架构实现轻量化部署(<120 GFLOPs),达成工业级视频质量评估任务中精度与计算效率的最优平衡。

具体比赛细节和排名可以参考比赛官网:
codalab.lisn.upsaclay.fr/competition...
1.赛事介绍
CVPR NTIRE(New Trends in Image Restoration and Enhancement)大赛是计算机视觉领域顶会CVPR旗下「最具影响力的国际学术竞赛之一」,素有"影像算法奥林匹克"之称。该赛事聚焦视频复原、增强、生成技术及质量评估等底层视觉任务,旨在推动技术突破并解决实际应用难题。
本次VQA赛道相关信息如下:
- 内容:赛道一沿用大型短视频质量评价数据集KVQ,该数据集由快手公司授权采集,联合高校智能媒体实验室(IMCL)进行数据集标注和标准化。包含风景、人群、食物、肖像等9个内容场景,其中每个内容比例按照快手短视频平台在线统计量制定, 共计4200个短视频。
- 要求:为提升短视频质量评价模型效率,提升算法的实用性,今年比赛将限制短视频质量评价模型,单视频运行计算开销上限为120GFlops。鼓励参赛选手使用蒸馏、剪枝等手段对大模型进行加速。
2.研究背景
短视频UGC画质评价的研究背景源于移动互联网时代用户生成内容的爆炸式增长与质量评估的复杂性挑战。由于非专业拍摄设备(如手机)的物理限制、动态拍摄环境(如低光照、运动模糊)以及后期处理流程(如过度锐化、多次压缩)的叠加效应,UGC视频普遍存在混合失真(如块效应、噪声、伪影等),且缺乏高质量参考源,导致传统全参考评价指标(如PSNR、SSIM)难以准确拟合人眼主观感受。此外,UGC内容的多样性(如横竖屏、特效贴纸、二创素材)进一步加剧了失真类型与语义场景的耦合性,例如用户可能更关注主体清晰度而非背景噪声,这要求算法需同时建模技术失真与内容美学特征。
其研究重要性体现在两方面:一是用户体验优化,画质评分直接影响平台内容分发效率与用户留存率,例如通过算法量化视频质量,为推荐系统提供画质权重;二是技术突破需求,UGC画质评价需解决无参考场景下的泛化性问题,如火山引擎VQScore通过细分归因指标(噪声、过曝等)和增强评估(超分质量)构建全链路画质优化闭环,显著提升了跨场景评估的鲁棒性。当前研究趋势正探索多模态大模型强大能力的迁移和应用,以应对AIGC时代的新型失真挑战,并进一步提升相关算法的准确性、鲁棒性。
3.方案概述
针对用户生成内容(UGC)视频质量评估的复杂挑战,研究团队提出了一种基于"教师-学生"知识蒸馏的创新框架。该方案通过两阶段训练机制,在保持高精度评估能力的同时实现模型轻量化,有效解决了传统方法在无参考场景下的泛化性难题。

第一阶段:多模态特征融合的教师模型构建。
团队首先设计了一个强大的教师模型(包含MLLM多模态大模型以及多种强大的骨干网络),通过多维度的特征提取全面捕捉UGC视频的质量特性:
-
多骨干特征提取: 利用DeQA从多模态大模型中提取Quality-Aware特征,采用SlowFast网络提取时空运动特征,结合FAST-VQA分析局部区域失真,并根据LIQE针对不同维度建立视频帧与文本的关联。考虑到人眼视觉系统特性在UGC视频的重要性,团队特别引入HVS-5M模型提取边缘掩蔽等特征,模拟人类视觉系统对边缘丰富区域敏感的特性。
-
特征融合架构: 将视频的关键帧调整为384×384的分辨率并给一个端到端可学习的Swin-B网络提取关键帧特征并与上述骨干特征拼接,通过两层MLP实现特征降维,通过这种方式引入一部分可学习参数弥补冻结骨干网络提取特征的缺陷。训练采用Adam优化器(学习率1×10⁻⁵),在A100 GPU上以batch size等于6进行优化,最终形成具备全面评估UGC视频质量的教师模型。
-
伪标签生成: 该模型对3万条闭源UGC视频进行自动标注,生成覆盖模糊、噪声、伪影等混合失真的质量评分数据集,为轻量化学生模型训练奠定基础。
第二阶段:高效学生模型的蒸馏训练。
基于教师模型输出的伪标签,团队构建了部署友好的轻量化评估方案:
-
帧级知识迁移: 针对一个视频提取其关键帧,采用224×224分辨率随机裁剪策略增强数据多样性,同时每一帧的分数被标注为对应视频的分数。创新性地采用分层特征拼接技术,将Swin-T网络各层级特征拼接起来达到评估多尺度物体质量的能力。在训练过程中学生网络的训练目标是输出结果与教师标签对齐,保留多尺度质量感知能力。
-
优化加速设计: 相比教师模型将batch size设置为6,学生模型采用64 batch size并行训练(学习率1×10⁻³),训练损失函数为PLCC以及SRCC的和。最终学生模型参数量仅为33.01M,且推理过程中对一个视频仅需47.39GFLOPs,但保持与教师网络90%以上的评估准确率。
技术突破与产业价值。
该方案通过三大创新点推动技术边界:
- 融合多模态大模型的混合特征工程: 将除了视觉特征以外的多模态大模型特征与多种传统骨干网络特征融合,设计了一个全面的针对UGC视频的教师网络,提升了对典型失真(如手抖模糊,伪影)的检测灵敏度。
- 动态蒸馏策略: 通过知识蒸馏机制,解决了学生网络在更细粒度维度评分不稳定的问题,使学生模型预测分与MOS预测误差低于0.5。
- 轻量化适配优化: 支持从4K超清到540P低分辨率的全链路评估,在继承多模态大模型网络能力的前提下大幅降低模型参数量以及计算量,为短视频平台内容审核提供落地支持。
4.总结
团队创新性地融合多模态大模型(MLLM)与多种传统骨干网络融合的策略与蒸馏技术 ,在NTIRE 2025 Short-form UGC Video Quality Assessment Challenge-Track1-VQA赛道以显著优势夺冠。该方案通过构建基于MLLM教师模型突破专业质量评估性能上限,结合蒸馏架构实现轻量化部署(<120 GFLOPs),达成工业级视频质量评估任务中精度与计算效率的最优平衡。
5.团队介绍
火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。
火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据技术、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。