影响视频视觉质量的各类因素

除了数字视频信号处理过程中的信息丢失而导致的==视觉误差(visual artifacts)==会降低可感知的视觉质量之外,接下来介绍其它会影响视频视觉质量的的重要因素。

Sensor noise and pre-filtering(传感器噪声&预过滤)
传感器噪声是在图像捕获过程中产生的、影响视觉质量的、非预期的副产物。噪声不仅会在视觉上影响用户观看体验,且噪声的存在也会影响后续的图像处理,从而导致或加剧误差的产生。比如图像预处理一般在捕获图像之后、编码之前完成。在此阶段,可能出现混叠效应(aliasing artifacts)或振铃效应(ringing artifacts)。所以,接下来尽管采用无损编码技术,重建视频也会有视觉误差。

Characteristics of video(视频特征)

视觉质量会受到数字视频本身特征影响包括:位深,分辨率,帧率和帧的复杂度。一般情况下,视频帧采用8位位深表示像素的每个通道的数据,更高质视频则采用为10-16位位深。此外,分辨率的大小也是影响视频质量的关键因素,分辨率越高质量越好(高清(HD)视频帧的分辨率是标清(SD)视频帧的4-6倍。超高清(UHD)视频的分辨率比标清视频高24~27倍)。

帧率是另一个重要因素,人眼视觉系统可感知10 fps的慢动作,也可感知24 fps的平滑运动,但是更高的帧率意味着更平滑的运动。尤其快速移动的物体而言,更高的帧率的视频看起来更流畅。例如,运动中的羽毛球可能在30 fps时是模糊的,但在120 fps时会较为清晰。而蜂鸟的机翼运动在30 fps甚至120 fps时都会变得模糊,大概需要1000 fps才能清晰看到这种快速运动。更高的帧率也用于产生特殊的慢动作效果,用帧的细节量或者空间业务量来度量帧的复杂性。低复杂度和低细节帧中的误差一般比更高复杂度的帧更明显。

此外,视频的空间信息(spatial information,SI)和时间信息(temporal information,TI,运动)是视频的关键参数,对于预估视频达到的压缩量起到重要作用。同时,SI和TI在衡量固定速度的数字传输服务信道传输信息时导致的信息折损等级中也有至关重要的作用。

Amount of compression(压缩量)
视频压缩率通常是视频质量与视频体积大小的折中来实现的。对于数字视频而言,视频的压缩率是影响质量的一个重要指标。一般而言,压缩率越高,视频体积越小,质量越低。对于低码率的视频而言,压缩失真(compression artifacts)更为明显,会降低用户体验。同时,由于比特数限制,不同图像及不同块都会采用不同的量化,视频重建质量也会因为帧的复杂性的不同而不同。此外,色度亚采样的压缩技术虽然利用HVS的特性,但4:4:4的图像比4:2:0的图像的视觉质量更好。

Methods of compression(压缩方法)

无损压缩保留了视频信号中的所有信息,不会导致视频质量下降。有损压缩通过在视觉质量和压缩率之间进行权衡来控制质量损失。有损压缩的模式选择也会影响质量,诸如无线网络这种容易抖动的环境中,帧内模式可以用作错误的恢复点,但是编码需要更多的比特数。

Multiple passes of processing(多次处理)

离线视频应用中,视频信号可能需要多次预分析,第一遍分析视频的统计特性,用来调整第二次视频分析的参数。最终处理后的视频质量可能更高,但是由于多次视频处理造成的误差仍会产生质量损失。

Multiple generations of compression(多代压缩)

在一些视频应用中中可以采用多代压缩,比如先将压缩视频信号解码,然后使用不同的参数再次进行压缩。这样,每代使用的量化矩阵不同,也会导致质量下降。通常第二代视频压缩会导致视觉质量急剧恶化,为避免这种情况,非常有必要设计一种稳健的量化参数。

Post-production(后期制作)

后期制作中涉及的视频特效和视频剪辑也会使编码后的视频序列的各个部分的质量等级不同。

参考文献:https://link.springer.com/book/10.1007/978-1-4302-6713-3

相关推荐
CoovallyAIHub1 小时前
Pipecat:构建实时语音 AI Agent 的开源编排框架,500ms 级端到端延迟
深度学习·算法·计算机视觉
CoovallyAIHub1 小时前
Energies | 8版YOLO对8版Transformer实测光伏缺陷检测,RF-DETR-Small综合胜出
深度学习·算法·计算机视觉
yy我不解释3 小时前
关于comfyui的mmaudio音频生成插件时时间不一致问题(三)
开发语言·python·ai作画·音视频·comfyui
CoovallyAIHub3 小时前
2.5GB 塞进浏览器:Mistral 开源实时语音识别,延迟不到半秒
深度学习·算法·计算机视觉
scott1985124 小时前
扩散模型之(十六)像素空间生成模型
人工智能·深度学习·计算机视觉·生成式
no_work4 小时前
yolo摄像头下的目标检测识别集合
人工智能·深度学习·yolo·目标检测·计算机视觉
格林威5 小时前
工业相机参数解析:曝光时间与运动模糊的“生死博弈”
c++·人工智能·数码相机·opencv·算法·计算机视觉·工业相机
zl_vslam7 小时前
SLAM中的非线性优-3D图优化之相对位姿Between Factor-四元数(十二)
人工智能·算法·计算机视觉
格林威7 小时前
工业相机图像采集:Grab Timeout 设置建议——拒绝“假死”与“丢帧”的黄金法则
开发语言·人工智能·数码相机·计算机视觉·c#·机器视觉·工业相机
xiangw@GZ8 小时前
音频PA的H桥替代方案研究
音视频