Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos

[Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos](#Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos)
[Basic Information:](#Basic Information:)
[论文简要 :](#论文简要 :)
背景信息:
- [a. 理论背景:](#a. 理论背景:)
- [b. 技术路线:](#b. 技术路线:)
结果:
- [a. 详细的实验设置:](#a. 详细的实验设置:)
- [b. 详细的实验结果:](#b. 详细的实验结果:)

Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos

Basic Information:

Title: Efﬁcient Semantic Segmentation by Altering Resolutions for Compressed Videos (通过改变压缩视频的分辨率实现高效的语义分割)

Authors: Yubin Hu, Yuze He, Yanghao Li, Jisheng Li, Yuxing Han, Jiangtao Wen, Yong-Jin Liu (胡宇斌, 何宇泽, 李洋浩, 李继升, 韩宇星, 温江涛, 刘永金)

Affiliation: Department of Computer Science and Technology, Tsinghua University (清华大学计算机科学与技术系)

Keywords: Video semantic segmentation, altering resolution, compressed videos, computational cost, feature fusion (视频语义分割，改变分辨率，压缩视频，计算成本，特征融合)

论文简要 :

通过改变压缩视频的分辨率，提出了一种名为AR-Seg的高效语义分割框架，通过特征融合和特征相似性训练策略，实现了对非关键帧的低分辨率处理，从而显著降低了计算成本，同时保持了高的分割准确性。

背景信息:

论文背景: 视频语义分割是一项计算量巨大的任务，由于需要对高帧率视频进行逐帧预测。过去的工作主要集中在设计紧凑模型或自适应网络策略来提高语义分割的效率，但没有考虑到影响计算成本的重要因素：输入分辨率。

过去方案: 过去的方法主要集中在设计紧凑和高效的图像分割架构，以减少每帧的计算开销，或者通过在关键帧上使用深度模型，在非关键帧上使用浅层网络来避免重复计算。

论文的Motivation: 通过观察发现，过去的方法忽略了输入分辨率对计算成本的影响。本文提出了一种新的方法，通过利用视频中的时序相关性，使用压缩视频中的运动矢量来推断和丰富低分辨率帧中缺失的局部特征，从而避免了降低分辨率带来的分割准确性损失。本文的研究动机是基于对现有方法的不足之处，并从背景知识出发，提出了新的研究思路。

方法:

a. 理论背景:

本文提出了一种名为AR-Seg的改变分辨率框架，用于压缩视频中高效的视频语义分割（VSS）。AR-Seg旨在通过在非关键帧上使用低分辨率来减少计算成本。为了防止性能下降，设计了一种名为Cross Resolution Feature Fusion（CReFF）模块，用于将高分辨率关键帧的特征映射到低分辨率非关键帧，以实现更好的空间对齐。提出了Feature Similarity Training（FST）策略，通过使用高分辨率特征对聚合特征进行监督，以保持分割准确性。在CamVid和Cityscapes数据集上的实验结果表明，AR-Seg在使用PSPNet18骨干网络时实现了最先进的性能，并节省了67%的计算成本，同时保持了高的分割准确性。

b. 技术路线:

AR-Seg框架由两个分支组成：一个用于关键帧的高分辨率（HR）分支和一个用于非关键帧的低分辨率（LR）分支。HR分支在高分辨率上预测分割结果，并提供中间特征作为LR分支的参考。LR分支与HR分支使用相同的骨干网络，并使用CReFF模块将HR特征聚合到LR特征中。聚合特征然后转换为像素级的语义标签。

结果:

a. 详细的实验设置:

在CamVid和Cityscapes数据集上评估了AR-Seg框架，用于街景视频语义分割。实验结果表明，AR-Seg在节省计算成本的同时，实现了与基于图像的方法相当或更好的性能。AR0.5-模型在减少67%计算成本的同时，实现了与1.0x分辨率基准相似的性能。与其他基于视频的方法相比，AR-Seg模型在保持单帧骨干模型准确性的同时，减少了55%以上的计算成本。

b. 详细的实验结果:

实验结果表明，AR0.6-Bise18模型在准确性和计算成本方面都表现出色。在CamVid数据集上进行了消融研究，评估了CReFF和FST方法中不同组件的重要性。验证了对关键帧特征进行变形和使用局部注意力进行融合的必要性。评估了FLA组件的设计，发现7x7邻域在计算和准确性之间取得了良好的平衡。将CReFF组件放置在最终的1x1卷积层之前可以获得最佳性能。FST策略包括MSE Loss和共享的最终卷积层，提高了分割性能。调整了LR分支的分辨率，发现AR-Seg在所有分辨率下都提高了两个骨干网络的准确性。研究了帧之间的时间间隔，发现AR0.5-PSP18在与关键帧的所有距离上都保持了高的准确性。

【通过改变压缩视频的分辨率实现高效的视频语义分割】CVPR2022论文精度