图像分割重点知识总结

一、图像分割基础认知

1. 核心定义

图像分割是预测目标轮廓的技术,核心是将图像中不同像素划分到不同类别,属于细粒度的像素级分类任务,比普通图像分类更精准。

2. 应用场景

覆盖多领域实用需求,包括但不限于:

  • 人像抠图(如图像处理软件中的主体提取)
  • 医学组织提取(如 CT/MRI 图像中病灶区域定位)
  • 遥感图像分析(如土地利用类型划分、灾害区域识别)
  • 自动驾驶(如道路、行人、车辆的实时分割)
  • 材料图像分析(如材料微观结构成分划分)

3. 前景与背景分类

图像内容按 "可计数性" 分为两类,为分割任务提供基础划分逻辑:

  • Things(物体):可数的前景目标,如行人、车辆、动物等。
  • Stuff(事物):不可数的背景区域,如天空、草地、路面、墙面等。

二、图像分割的 "三层境界"

按分割精度和目标维度,图像分割分为三个层次,逐步实现更全面的场景理解:

分割层次 核心目标 关键特点
语义分割(Semantic Segmentation) 划分像素的 "类别属性" 每个像素仅属于一个类别,输出为类别掩膜(如 "道路""行人" 标签),不区分同类目标的个体差异
实例分割(Instance Segmentation) 识别前景目标的 "个体属性" 仅关注前景目标,需同时输出类别、边框及个体 ID(如区分 "行人 1""行人 2"),单个像素可属于多个实例 ID
全景分割(Panoptic Segmentation) 融合语义与实例分割 每个像素同时分配 "语义类别" 和 "唯一实例 ID",既覆盖背景类别(如天空),也区分前景个体(如不同车辆),实现全场景像素标注

三、主流图像分割数据集

数据集是分割模型训练与验证的基础,文档重点介绍 3 个权威数据集,各有侧重:

1. VOC 数据集

  • 背景:源于 PASCAL VOC 世界级计算机视觉挑战赛,是分割任务的经典基准。
  • 类别划分:4 大类(如交通工具、动物)、20 小类(如汽车、猫、行人)。
  • 数据规模
    • VOC 2007:9963 张图片,包含 24640 个目标;
    • VOC 2012:23080 张图片,包含 54900 个目标;
    • 语义 / 实例分割标注图:共 2913 张(1464 张训练图、1449 张验证图)。
  • 支持任务:语义分割、实例分割。

2. Cityscape 数据集

  • 背景:聚焦城市街景场景,涵盖 50 个城市在春、夏、秋三季不同时段、不同场景的街景图。
  • 类别划分:30 个类别(如道路、行人、车辆、植被、天空等)。
  • 数据规模
    • 精细标注图:5000 张(2975 张训练图、500 张验证图、1525 张测试图);
    • 粗略标注图:20000 张。
  • 支持任务:语义分割、实例分割,适用于自动驾驶街景分割场景。

3. COCO 数据集

  • 背景:以 "场景理解" 为核心目标,专门选取复杂日常场景(如超市、街道、家庭环境)。
  • 类别划分:共 91 类,以 "人类 4 岁小孩可辨识" 为标准,其中 82 类包含超过 5000 个实例。
  • 核心特点:注重场景复杂性,图像中目标数量多、遮挡情况常见,更贴近真实世界应用。

四、语义分割的评估指标

通过量化指标衡量分割结果准确性,核心指标包括:

  1. Pixel Accuracy(逐像素分类精度):整体图像中被正确分类的像素占总像素的比例,反映全局分类准确率。
  2. Mean Pixel Accuracy(平均像素精度):计算每个类别内 "正确分类像素数 / 该类总像素数" 的比例,再对所有类别取平均,避免大类对结果的过度影响。
  3. IoU(交并比):针对前景目标,计算 "预测区域与真实区域的交集" 与 "两者并集" 的比值,衡量目标定位精度。
  4. mIoU(平均交并比):对所有类别的 IoU 取平均,是分割任务中最常用的核心指标,综合反映各类别的分割性能。
  5. FWIoU(加权平均交并比):根据每个类别在图像中出现的概率(像素占比)为 mIoU 加权,更贴合实际场景中类别分布不均衡的情况。

五、图像分割网络的核心构成

1. 两大核心模块

分割网络通过 "下采样提特征 + 上采样复尺度" 实现像素级预测,核心依赖两个模块:

  • 卷积模块(编码器):通过卷积层 + Max Pooling(最大池化)进行下采样,逐步提取图像的高层语义特征(如目标轮廓、纹理),但尺寸会缩小。
  • 反卷积模块(解码器):通过反卷积(转置卷积)+Unpooling(反池化)进行上采样,将缩小的特征图恢复到原图尺寸,最终输出像素级分类结果。

2. 关键技术:转置卷积(反卷积)

转置卷积是实现 "上采样" 的核心技术,与普通卷积呈 "转置关系",具体对比如下:

对比维度 普通卷积 转置卷积(反卷积)
输入输出尺寸 输入 4×4 → 输出 2×2(3×3 卷积核) 输入 2×2 → 输出 4×4(3×3 卷积核)
核心作用 下采样,提取特征 上采样,恢复图像尺度
数学关系 通过稀疏矩阵乘法(Wconv×SparseX)实现 通过普通卷积稀疏矩阵的转置(Wdeconv=Wconv^T)计算,即 X=Wdeconv×SparseY

3. 典型网络结构

主流分割网络采用 "编码器 - 解码器" 架构:

  • 编码器:由卷积网络构成,通过多轮 "卷积 + Max Pooling" 下采样,特征图尺寸逐步减半(如 224×224→112×112→56×56→28×28),同时特征抽象度提升。
  • 解码器:由反卷积网络构成,通过多轮 "反卷积 + Unpooling" 上采样,特征图尺寸逐步恢复至原图大小(如 28×28→56×56→112×112→224×224),最终输出与原图尺寸一致的分割结果。
相关推荐
AngelPP20 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年20 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼20 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS20 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区1 天前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈1 天前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang1 天前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx
shengjk11 天前
NanoClaw 深度剖析:一个"AI 原生"架构的个人助手是如何运转的?
人工智能
西门老铁1 天前
🦞OpenClaw 让 MacMini 脱销了,而我拿出了6年陈的安卓机
人工智能