图像分割重点知识总结

图像分割是预测目标轮廓的技术，核心是将图像中不同像素划分到不同类别，属于细粒度的像素级分类任务，比普通图像分类更精准。

覆盖多领域实用需求，包括但不限于：

图像内容按 "可计数性" 分为两类，为分割任务提供基础划分逻辑：

按分割精度和目标维度，图像分割分为三个层次，逐步实现更全面的场景理解：

分割层次	核心目标	关键特点
语义分割（Semantic Segmentation）	划分像素的 "类别属性"	每个像素仅属于一个类别，输出为类别掩膜（如 "道路""行人" 标签），不区分同类目标的个体差异
实例分割（Instance Segmentation）	识别前景目标的 "个体属性"	仅关注前景目标，需同时输出类别、边框及个体 ID（如区分 "行人 1""行人 2"），单个像素可属于多个实例 ID
全景分割（Panoptic Segmentation）	融合语义与实例分割	每个像素同时分配 "语义类别" 和 "唯一实例 ID"，既覆盖背景类别（如天空），也区分前景个体（如不同车辆），实现全场景像素标注

数据集是分割模型训练与验证的基础，文档重点介绍 3 个权威数据集，各有侧重：

背景：源于 PASCAL VOC 世界级计算机视觉挑战赛，是分割任务的经典基准。
类别划分：4 大类（如交通工具、动物）、20 小类（如汽车、猫、行人）。
数据规模 ：
- VOC 2007：9963 张图片，包含 24640 个目标；
- VOC 2012：23080 张图片，包含 54900 个目标；
- 语义 / 实例分割标注图：共 2913 张（1464 张训练图、1449 张验证图）。
支持任务：语义分割、实例分割。

通过量化指标衡量分割结果准确性，核心指标包括：

Pixel Accuracy（逐像素分类精度）：整体图像中被正确分类的像素占总像素的比例，反映全局分类准确率。
Mean Pixel Accuracy（平均像素精度）：计算每个类别内 "正确分类像素数 / 该类总像素数" 的比例，再对所有类别取平均，避免大类对结果的过度影响。
IoU（交并比）：针对前景目标，计算 "预测区域与真实区域的交集" 与 "两者并集" 的比值，衡量目标定位精度。
mIoU（平均交并比）：对所有类别的 IoU 取平均，是分割任务中最常用的核心指标，综合反映各类别的分割性能。
FWIoU（加权平均交并比）：根据每个类别在图像中出现的概率（像素占比）为 mIoU 加权，更贴合实际场景中类别分布不均衡的情况。

分割网络通过 "下采样提特征 + 上采样复尺度" 实现像素级预测，核心依赖两个模块：

转置卷积是实现 "上采样" 的核心技术，与普通卷积呈 "转置关系"，具体对比如下：

对比维度	普通卷积	转置卷积（反卷积）
输入输出尺寸	输入 4×4 → 输出 2×2（3×3 卷积核）	输入 2×2 → 输出 4×4（3×3 卷积核）
核心作用	下采样，提取特征	上采样，恢复图像尺度
数学关系	通过稀疏矩阵乘法（Wconv×SparseX）实现	通过普通卷积稀疏矩阵的转置（Wdeconv=Wconv^T）计算，即 X=Wdeconv×SparseY

主流分割网络采用 "编码器 - 解码器" 架构：

编码器：由卷积网络构成，通过多轮 "卷积 + Max Pooling" 下采样，特征图尺寸逐步减半（如 224×224→112×112→56×56→28×28），同时特征抽象度提升。
解码器：由反卷积网络构成，通过多轮 "反卷积 + Unpooling" 上采样，特征图尺寸逐步恢复至原图大小（如 28×28→56×56→112×112→224×224），最终输出与原图尺寸一致的分割结果。