视频压缩编码学习(一)—— 基础知识大集合

视频压缩编码

  • 一、问题小解答
    • [1. 为什么视频要压缩](#1. 为什么视频要压缩)
    • [2. 视频压缩的目标](#2. 视频压缩的目标)
    • [3. 手机图像传感器](#3. 手机图像传感器)
    • [4. 单位像素面积](#4. 单位像素面积)
    • [5. 焦段](#5. 焦段)
  • 二、视频的采样
    • [1. 时间采样](#1. 时间采样)
    • [2. 空间采样](#2. 空间采样)
  • 三、视频信号预处理
    • [1. 色彩插值](#1. 色彩插值)
    • [2. 伽马校正](#2. 伽马校正)
    • [3. 直方图均衡](#3. 直方图均衡)
    • [4. 色温与白平衡](#4. 色温与白平衡)
  • 四、参考资料

一、问题小解答

1. 为什么视频要压缩

  1. 原始视频体积大到离谱: 不压缩的 1080P 视频:1 分钟------1920 × 1080 × 24bit × 30fps × 60s / 8 / 1024 /1024 ≈ 10GB

    4K 视频 1 分钟 ≈ 几十 GB,你手机、电脑根本存不下,也传不动。

  2. 带宽不够,不压缩根本看不了在线视频: 带宽 = 每秒能传多少数据,不压缩的视频:1080P 需要 几百 Mb/s~1Gb/s , 家庭宽带一般才 10~100Mb/s,根本带不动,会一直卡、加载、卡顿。

  3. 视频里大量信息是重复、没用的

  4. 存储成本太高

2. 视频压缩的目标

  1. 必须压缩在一定的带宽内,即视频编码器应该具有足够的压缩比。
  2. 视频信号压缩之后,经过解压重建应该保持一定的视频质量。这个视频质量有两个标准,一个是主观认为视觉评定,另一个是信噪比。

3. 手机图像传感器

  1. CMOS(互补金属氧化物半导体)图像传感器(CIS) 是智能手机的绝对主流,CCD 早已退出手机市场;其主流架构为堆栈式背照(Stacked BSI),这是当前中高端机型的标配。
  2. 主流厂商与旗舰型号
手机型号 主摄 传感器尺寸 像素 影像联名/自研方案
iPhone 17 Pro/Pro Max 索尼 IMX903/IMX927 1/1.3" 4800万 苹果自研影像算法
三星 Galaxy S26 Ultra 三星 ISOCELL HP2 1/1.3" 2亿 三星自研影像
小米 17 Ultra 豪威 OV50X 1" 5000万 徕卡联名影像
华为 Pura 80 Ultra 思特威 SC5A0CS 1" 5000万 华为XMAGE影像
OPPO Find X9 Ultra 索尼 LYT-900 1/0.98" 5000万 哈苏联名影像
vivo X300 Ultra 索尼 LYT-901 1/1.12" 2亿 蔡司联名影像
荣耀 Magic8 Pro 索尼 IMX906 1/1.28" 5000万 荣耀鹰眼AI相机
  1. 常见图像传感器尺寸对照表
传感器规格 实际尺寸 (mm) 等效焦距裁剪系数 典型应用
1/3" 4.8×3.6 6.0 监控、手机副摄
1/2.3" 6.2×4.6 4.5 手机主摄、运动相机
1/1.7" 7.6×5.7 3.7 高端手机主摄
1" 13.2×8.8 2.7 便携相机、无人机
M4/3 17.3×13.0 2.0 微型单电相机
APS‑C 23.5×15.6 1.5 主流单反 / 微单
全画幅 36.0×24.0 1.0 专业摄影相机
中画幅 44.0×33.0 0.79 高端商业摄影
  1. 底大一级压死人 :传感器尺寸越大,进光量越多,画质天然更强,在夜景、噪点、动态范围、画面质感上,大底对小底是碾压级优势,哪怕像素更低、算法再好,也很难弥补物理尺寸的差距。

4. 单位像素面积

  1. 单位像素面积 是指手机图像传感器(CMOS)上单个感光单元(像素)的物理尺寸,核心单位为微米(μm,如 1.6μm、2.0μm)。单位像素面积 ≈ 传感器总面积 ÷ 总像素数(同尺寸传感器,总像素越少,单位像素面积越大)。
  2. 同尺寸传感器下,像素高低直接决定「解析力」和「单位像素面积」,两者呈反向关系,无绝对优劣,适配不同需求。
类型 代表像素 核心优势 核心短板
高像素 1亿、2亿像素 解析力强,细节丰富,远景、裁剪后依然清晰 单位像素面积小,进光量少,弱光/夜景噪点多,需像素合并弥补
低像素 4800万、5000万像素 单位像素面积大,进光量充足,弱光/夜景纯净,噪点少、动态范围好 解析力相对较弱,远景或放大裁剪时细节表现一般

5. 焦段

什么是焦距:镜头的光学中心点到成像平面称之为焦距

二、视频的采样

1. 时间采样

时间采样是在时间维度上对运动进行离散化,决定了画面有多流畅,简单理解:每秒拍多少张连续图片 。按照视频信号在时间与空间上的扫描采样方式分类 ,可以将扫描方式分为隔行扫描逐行扫描

  • 隔行扫描(Interlaced Scan) :是一种将单帧图像拆分为两场 进行依次扫描的显示与传输方式,通常分为奇数场和偶数场 。奇数场仅扫描画面中所有奇数行像素,偶数场仅扫描偶数行像素,两场在时间上先后采样并传输,最终合成一帧完整画面。这种方式可以在相同带宽下传输更高分辨率的画面 ,早期模拟电视、广播信号广泛采用隔行扫描以节约传输资源。但由于两场存在时间差,在快速运动场景下容易出现行间闪烁、锯齿拉丝和运动伪影,画面稳定性较差。
  • 逐行扫描(Progressive Scan) :是对画面所有行像素按照从上到下的顺序一次性完成扫描 、采样与显示的方式。每一帧画面在同一时刻完整呈现,不存在场分割与时间错位,像素行同步刷新。逐行扫描画面清晰稳定,无明显闪烁,运动物体边缘平滑无锯齿,能够更真实地还原动态细节,是目前数字视频、显示器、相机、手机等设备的主流采样与显示标准。相比隔行扫描,逐行扫描对带宽和处理性能要求更高,但整体画质与流畅度显著更优

2. 空间采样

空间采样是在空间维度上对画面进行离散化,决定了画面有多清晰、分辨率多大,下面是具体分辨率及含义:

三、视频信号预处理

视频信号在采集、传输或数字化过程中,会不可避免地引入噪声、失真、干扰以及与后续处理模块不匹配 的问题,因此必须进行预处理,以提升信号质量、保证系统稳定工作。

视频信号预处理的核心目的是:降噪、校正失真、增强有效信息、统一数据格式,为后续的压缩、传输、识别、显示等环节提供高质量、标准化的信号

1. 色彩插值

色彩插值,也叫去马赛克 (Demosaicing)。绝大多数图像传感器的每个像素只记录一种颜色,色彩插值就是利用相邻像素的颜色信息 ,通过算法估算出当前像素缺失的两个通道数值

2. 伽马校正

伽马校正(Gamma Correction)通过幂函数非线性变换,解决人眼感知、设备响应与数据存储的非线性矛盾。

1. 为什么要进行伽马校正?

  • 人眼感知非线性:人眼对暗部亮度变化更敏感,对亮部变化迟钝。 线性数据会浪费大量比特在人眼不敏感的亮部,暗部细节易丢失。 数值中点 128 在视觉上偏白,暗部(0~128)视觉占比小,比特大多浪费在人眼不敏感的亮部,暗部细节易丢失。

  • 伽马校正的本质,就是通过非线性映射 ,把更多的编码比特分配给暗部,让视觉上的亮度变化更均匀。数值 56 在视觉上接近上方 128 的亮度,伽马校正提亮了暗部;数值 128 更接近视觉中点,暗部获得更多比特,细节更完整,观感更自然。

  1. 如何做?
       伽马校正通过伽马函数,把更多数据比特分配给人眼敏感的暗部,让 0~255 的灰度在视觉上更均匀,解决了线性数据 "亮部浪费、暗部丢细节" 的问题,从物理亮度映射为美术亮度。

    伽马函数核心公式为:
γ值 效果 典型场景
γ < 1(如 0.45) 提亮暗部、压缩亮部,图像变亮 相机编码、sRGB 编码、欠曝校正
γ = 1 线性,无变化 理想物理渲染、线性空间计算
γ > 1(如 2.2) 压暗整体、增强暗部细节 显示解码、过曝校正、打印(γ≈1.8)

3. 直方图均衡

通过把图像的灰度直方图 "拉平",让亮度分布更均匀,从而提升暗部、亮部细节,基本原理:

  1. 统计图像中每个灰度级(0~255)出现的像素数量,得到灰度直方图。

  2. 计算累积分布函数(CDF),用它对原灰度做映射变换。

  3. 把原本集中在某一段亮度的像素,均匀分散到 0~255 整个范围。

4. 色温与白平衡

  • 色温:环境中客观存在的光源颜色,数值越高越偏冷(蓝),越低越偏暖(黄)。
  • 白平衡:人为控制的相机设置,让白色在照片里真正显示为白色的校正过程,抵消环境光的色偏。

四、参考资料

  1. 时间取样: 你知道什么是逐行扫描与隔行扫描吗?

  2. Bayer转RGB: 图像预处理Bayer转RGB

  3. 伽马校正: 伽马校正

  4. 直方图均衡: 直方图均衡

  5. 色温和白平衡: 色温和白平衡

相关推荐
似水明俊德3 小时前
02-C#.Net-反射-学习笔记
开发语言·笔记·学习·c#·.net
adore.9683 小时前
3.18 复试学习
学习
留白_4 小时前
MySQL学习(9)——索引
学习
请你喝好果汁6414 小时前
生信学习笔记:ArchR 处理小麦单细胞 ATAC-seq 中的细胞数差异与 Embedding 报错调试
学习
jinanwuhuaguo5 小时前
OpenClaw、飞书、Claude Code、Codex:四维AI生态体系的深度解构与颗粒化对比分析
大数据·人工智能·学习·飞书·openclaw
萨文 摩尔杰5 小时前
GPS原理学习
学习·fpga开发
fengci.5 小时前
ctfshow(web入门)295-300
java·开发语言·学习
renhongxia17 小时前
多模态融合驱动下的具身学习机制研究
运维·学习·机器人·自动化·知识图谱
今儿敲了吗7 小时前
46| FBI树
数据结构·c++·笔记·学习·算法