一、图像分割基础认知
1. 核心定义
图像分割是预测目标轮廓的技术,核心是将图像中不同像素划分到不同类别,属于细粒度的像素级分类任务,比普通图像分类更精准。
2. 应用场景
覆盖多领域实用需求,包括但不限于:
- 人像抠图(如图像处理软件中的主体提取)
- 医学组织提取(如 CT/MRI 图像中病灶区域定位)
- 遥感图像分析(如土地利用类型划分、灾害区域识别)
- 自动驾驶(如道路、行人、车辆的实时分割)
- 材料图像分析(如材料微观结构成分划分)
3. 前景与背景分类
图像内容按 "可计数性" 分为两类,为分割任务提供基础划分逻辑:
- Things(物体):可数的前景目标,如行人、车辆、动物等。
- Stuff(事物):不可数的背景区域,如天空、草地、路面、墙面等。
二、图像分割的 "三层境界"
按分割精度和目标维度,图像分割分为三个层次,逐步实现更全面的场景理解:
| 分割层次 | 核心目标 | 关键特点 | 
|---|---|---|
| 语义分割(Semantic Segmentation) | 划分像素的 "类别属性" | 每个像素仅属于一个类别,输出为类别掩膜(如 "道路""行人" 标签),不区分同类目标的个体差异 | 
| 实例分割(Instance Segmentation) | 识别前景目标的 "个体属性" | 仅关注前景目标,需同时输出类别、边框及个体 ID(如区分 "行人 1""行人 2"),单个像素可属于多个实例 ID | 
| 全景分割(Panoptic Segmentation) | 融合语义与实例分割 | 每个像素同时分配 "语义类别" 和 "唯一实例 ID",既覆盖背景类别(如天空),也区分前景个体(如不同车辆),实现全场景像素标注 | 
三、主流图像分割数据集
数据集是分割模型训练与验证的基础,文档重点介绍 3 个权威数据集,各有侧重:
1. VOC 数据集
- 背景:源于 PASCAL VOC 世界级计算机视觉挑战赛,是分割任务的经典基准。
- 类别划分:4 大类(如交通工具、动物)、20 小类(如汽车、猫、行人)。
- 数据规模 :
- VOC 2007:9963 张图片,包含 24640 个目标;
- VOC 2012:23080 张图片,包含 54900 个目标;
- 语义 / 实例分割标注图:共 2913 张(1464 张训练图、1449 张验证图)。
 
- 支持任务:语义分割、实例分割。
2. Cityscape 数据集
- 背景:聚焦城市街景场景,涵盖 50 个城市在春、夏、秋三季不同时段、不同场景的街景图。
- 类别划分:30 个类别(如道路、行人、车辆、植被、天空等)。
- 数据规模 :
- 精细标注图:5000 张(2975 张训练图、500 张验证图、1525 张测试图);
- 粗略标注图:20000 张。
 
- 支持任务:语义分割、实例分割,适用于自动驾驶街景分割场景。
3. COCO 数据集
- 背景:以 "场景理解" 为核心目标,专门选取复杂日常场景(如超市、街道、家庭环境)。
- 类别划分:共 91 类,以 "人类 4 岁小孩可辨识" 为标准,其中 82 类包含超过 5000 个实例。
- 核心特点:注重场景复杂性,图像中目标数量多、遮挡情况常见,更贴近真实世界应用。
四、语义分割的评估指标
通过量化指标衡量分割结果准确性,核心指标包括:
- Pixel Accuracy(逐像素分类精度):整体图像中被正确分类的像素占总像素的比例,反映全局分类准确率。
- Mean Pixel Accuracy(平均像素精度):计算每个类别内 "正确分类像素数 / 该类总像素数" 的比例,再对所有类别取平均,避免大类对结果的过度影响。
- IoU(交并比):针对前景目标,计算 "预测区域与真实区域的交集" 与 "两者并集" 的比值,衡量目标定位精度。
- mIoU(平均交并比):对所有类别的 IoU 取平均,是分割任务中最常用的核心指标,综合反映各类别的分割性能。
- FWIoU(加权平均交并比):根据每个类别在图像中出现的概率(像素占比)为 mIoU 加权,更贴合实际场景中类别分布不均衡的情况。
五、图像分割网络的核心构成
1. 两大核心模块
分割网络通过 "下采样提特征 + 上采样复尺度" 实现像素级预测,核心依赖两个模块:
- 卷积模块(编码器):通过卷积层 + Max Pooling(最大池化)进行下采样,逐步提取图像的高层语义特征(如目标轮廓、纹理),但尺寸会缩小。
- 反卷积模块(解码器):通过反卷积(转置卷积)+Unpooling(反池化)进行上采样,将缩小的特征图恢复到原图尺寸,最终输出像素级分类结果。
2. 关键技术:转置卷积(反卷积)
转置卷积是实现 "上采样" 的核心技术,与普通卷积呈 "转置关系",具体对比如下:
| 对比维度 | 普通卷积 | 转置卷积(反卷积) | 
|---|---|---|
| 输入输出尺寸 | 输入 4×4 → 输出 2×2(3×3 卷积核) | 输入 2×2 → 输出 4×4(3×3 卷积核) | 
| 核心作用 | 下采样,提取特征 | 上采样,恢复图像尺度 | 
| 数学关系 | 通过稀疏矩阵乘法(Wconv×SparseX)实现 | 通过普通卷积稀疏矩阵的转置(Wdeconv=Wconv^T)计算,即 X=Wdeconv×SparseY | 
3. 典型网络结构
主流分割网络采用 "编码器 - 解码器" 架构:
- 编码器:由卷积网络构成,通过多轮 "卷积 + Max Pooling" 下采样,特征图尺寸逐步减半(如 224×224→112×112→56×56→28×28),同时特征抽象度提升。
- 解码器:由反卷积网络构成,通过多轮 "反卷积 + Unpooling" 上采样,特征图尺寸逐步恢复至原图大小(如 28×28→56×56→112×112→224×224),最终输出与原图尺寸一致的分割结果。