图像分割重点知识总结

一、图像分割基础认知

1. 核心定义

图像分割是预测目标轮廓的技术,核心是将图像中不同像素划分到不同类别,属于细粒度的像素级分类任务,比普通图像分类更精准。

2. 应用场景

覆盖多领域实用需求,包括但不限于:

  • 人像抠图(如图像处理软件中的主体提取)
  • 医学组织提取(如 CT/MRI 图像中病灶区域定位)
  • 遥感图像分析(如土地利用类型划分、灾害区域识别)
  • 自动驾驶(如道路、行人、车辆的实时分割)
  • 材料图像分析(如材料微观结构成分划分)

3. 前景与背景分类

图像内容按 "可计数性" 分为两类,为分割任务提供基础划分逻辑:

  • Things(物体):可数的前景目标,如行人、车辆、动物等。
  • Stuff(事物):不可数的背景区域,如天空、草地、路面、墙面等。

二、图像分割的 "三层境界"

按分割精度和目标维度,图像分割分为三个层次,逐步实现更全面的场景理解:

分割层次 核心目标 关键特点
语义分割(Semantic Segmentation) 划分像素的 "类别属性" 每个像素仅属于一个类别,输出为类别掩膜(如 "道路""行人" 标签),不区分同类目标的个体差异
实例分割(Instance Segmentation) 识别前景目标的 "个体属性" 仅关注前景目标,需同时输出类别、边框及个体 ID(如区分 "行人 1""行人 2"),单个像素可属于多个实例 ID
全景分割(Panoptic Segmentation) 融合语义与实例分割 每个像素同时分配 "语义类别" 和 "唯一实例 ID",既覆盖背景类别(如天空),也区分前景个体(如不同车辆),实现全场景像素标注

三、主流图像分割数据集

数据集是分割模型训练与验证的基础,文档重点介绍 3 个权威数据集,各有侧重:

1. VOC 数据集

  • 背景:源于 PASCAL VOC 世界级计算机视觉挑战赛,是分割任务的经典基准。
  • 类别划分:4 大类(如交通工具、动物)、20 小类(如汽车、猫、行人)。
  • 数据规模
    • VOC 2007:9963 张图片,包含 24640 个目标;
    • VOC 2012:23080 张图片,包含 54900 个目标;
    • 语义 / 实例分割标注图:共 2913 张(1464 张训练图、1449 张验证图)。
  • 支持任务:语义分割、实例分割。

2. Cityscape 数据集

  • 背景:聚焦城市街景场景,涵盖 50 个城市在春、夏、秋三季不同时段、不同场景的街景图。
  • 类别划分:30 个类别(如道路、行人、车辆、植被、天空等)。
  • 数据规模
    • 精细标注图:5000 张(2975 张训练图、500 张验证图、1525 张测试图);
    • 粗略标注图:20000 张。
  • 支持任务:语义分割、实例分割,适用于自动驾驶街景分割场景。

3. COCO 数据集

  • 背景:以 "场景理解" 为核心目标,专门选取复杂日常场景(如超市、街道、家庭环境)。
  • 类别划分:共 91 类,以 "人类 4 岁小孩可辨识" 为标准,其中 82 类包含超过 5000 个实例。
  • 核心特点:注重场景复杂性,图像中目标数量多、遮挡情况常见,更贴近真实世界应用。

四、语义分割的评估指标

通过量化指标衡量分割结果准确性,核心指标包括:

  1. Pixel Accuracy(逐像素分类精度):整体图像中被正确分类的像素占总像素的比例,反映全局分类准确率。
  2. Mean Pixel Accuracy(平均像素精度):计算每个类别内 "正确分类像素数 / 该类总像素数" 的比例,再对所有类别取平均,避免大类对结果的过度影响。
  3. IoU(交并比):针对前景目标,计算 "预测区域与真实区域的交集" 与 "两者并集" 的比值,衡量目标定位精度。
  4. mIoU(平均交并比):对所有类别的 IoU 取平均,是分割任务中最常用的核心指标,综合反映各类别的分割性能。
  5. FWIoU(加权平均交并比):根据每个类别在图像中出现的概率(像素占比)为 mIoU 加权,更贴合实际场景中类别分布不均衡的情况。

五、图像分割网络的核心构成

1. 两大核心模块

分割网络通过 "下采样提特征 + 上采样复尺度" 实现像素级预测,核心依赖两个模块:

  • 卷积模块(编码器):通过卷积层 + Max Pooling(最大池化)进行下采样,逐步提取图像的高层语义特征(如目标轮廓、纹理),但尺寸会缩小。
  • 反卷积模块(解码器):通过反卷积(转置卷积)+Unpooling(反池化)进行上采样,将缩小的特征图恢复到原图尺寸,最终输出像素级分类结果。

2. 关键技术:转置卷积(反卷积)

转置卷积是实现 "上采样" 的核心技术,与普通卷积呈 "转置关系",具体对比如下:

对比维度 普通卷积 转置卷积(反卷积)
输入输出尺寸 输入 4×4 → 输出 2×2(3×3 卷积核) 输入 2×2 → 输出 4×4(3×3 卷积核)
核心作用 下采样,提取特征 上采样,恢复图像尺度
数学关系 通过稀疏矩阵乘法(Wconv×SparseX)实现 通过普通卷积稀疏矩阵的转置(Wdeconv=Wconv^T)计算,即 X=Wdeconv×SparseY

3. 典型网络结构

主流分割网络采用 "编码器 - 解码器" 架构:

  • 编码器:由卷积网络构成,通过多轮 "卷积 + Max Pooling" 下采样,特征图尺寸逐步减半(如 224×224→112×112→56×56→28×28),同时特征抽象度提升。
  • 解码器:由反卷积网络构成,通过多轮 "反卷积 + Unpooling" 上采样,特征图尺寸逐步恢复至原图大小(如 28×28→56×56→112×112→224×224),最终输出与原图尺寸一致的分割结果。
相关推荐
国科安芯6 小时前
基于ASM1042通信接口芯片的两轮车充电机性能优化研究
服务器·网络·人工智能·单片机·嵌入式硬件·性能优化
hrrrrb6 小时前
【机器学习】管道化与自动化建模
人工智能·机器学习·自动化
Sunhen_Qiletian6 小时前
高性能人工智能目标检测开山篇----YOLO v1算法详解(上篇)
人工智能·深度学习·yolo·目标检测·计算机视觉·目标跟踪
koo3646 小时前
李宏毅机器学习笔记36
人工智能·笔记·机器学习
弗朗凌戈6 小时前
机器学习-导师优选
人工智能·python·机器学习
hans汉斯7 小时前
基于机器学习的商业银行信贷风险评估系统构建与实证研究
大数据·人工智能·爬虫·算法·yolo·机器学习·支持向量机
aneasystone本尊7 小时前
重温 Java 21 之分代式 ZGC
人工智能
深度之眼7 小时前
“LSTM+时间序列异常检测”老树开新花!新玩法=发文密码,快来学呀!
人工智能·机器学习·idea
无敌少年小旋风7 小时前
05-面试解析 Agent 理论 + 实践(Spring AI Alibaba)
人工智能·spring·面试