图像分割重点知识总结

一、图像分割基础认知

1. 核心定义

图像分割是预测目标轮廓的技术,核心是将图像中不同像素划分到不同类别,属于细粒度的像素级分类任务,比普通图像分类更精准。

2. 应用场景

覆盖多领域实用需求,包括但不限于:

  • 人像抠图(如图像处理软件中的主体提取)
  • 医学组织提取(如 CT/MRI 图像中病灶区域定位)
  • 遥感图像分析(如土地利用类型划分、灾害区域识别)
  • 自动驾驶(如道路、行人、车辆的实时分割)
  • 材料图像分析(如材料微观结构成分划分)

3. 前景与背景分类

图像内容按 "可计数性" 分为两类,为分割任务提供基础划分逻辑:

  • Things(物体):可数的前景目标,如行人、车辆、动物等。
  • Stuff(事物):不可数的背景区域,如天空、草地、路面、墙面等。

二、图像分割的 "三层境界"

按分割精度和目标维度,图像分割分为三个层次,逐步实现更全面的场景理解:

分割层次 核心目标 关键特点
语义分割(Semantic Segmentation) 划分像素的 "类别属性" 每个像素仅属于一个类别,输出为类别掩膜(如 "道路""行人" 标签),不区分同类目标的个体差异
实例分割(Instance Segmentation) 识别前景目标的 "个体属性" 仅关注前景目标,需同时输出类别、边框及个体 ID(如区分 "行人 1""行人 2"),单个像素可属于多个实例 ID
全景分割(Panoptic Segmentation) 融合语义与实例分割 每个像素同时分配 "语义类别" 和 "唯一实例 ID",既覆盖背景类别(如天空),也区分前景个体(如不同车辆),实现全场景像素标注

三、主流图像分割数据集

数据集是分割模型训练与验证的基础,文档重点介绍 3 个权威数据集,各有侧重:

1. VOC 数据集

  • 背景:源于 PASCAL VOC 世界级计算机视觉挑战赛,是分割任务的经典基准。
  • 类别划分:4 大类(如交通工具、动物)、20 小类(如汽车、猫、行人)。
  • 数据规模
    • VOC 2007:9963 张图片,包含 24640 个目标;
    • VOC 2012:23080 张图片,包含 54900 个目标;
    • 语义 / 实例分割标注图:共 2913 张(1464 张训练图、1449 张验证图)。
  • 支持任务:语义分割、实例分割。

2. Cityscape 数据集

  • 背景:聚焦城市街景场景,涵盖 50 个城市在春、夏、秋三季不同时段、不同场景的街景图。
  • 类别划分:30 个类别(如道路、行人、车辆、植被、天空等)。
  • 数据规模
    • 精细标注图:5000 张(2975 张训练图、500 张验证图、1525 张测试图);
    • 粗略标注图:20000 张。
  • 支持任务:语义分割、实例分割,适用于自动驾驶街景分割场景。

3. COCO 数据集

  • 背景:以 "场景理解" 为核心目标,专门选取复杂日常场景(如超市、街道、家庭环境)。
  • 类别划分:共 91 类,以 "人类 4 岁小孩可辨识" 为标准,其中 82 类包含超过 5000 个实例。
  • 核心特点:注重场景复杂性,图像中目标数量多、遮挡情况常见,更贴近真实世界应用。

四、语义分割的评估指标

通过量化指标衡量分割结果准确性,核心指标包括:

  1. Pixel Accuracy(逐像素分类精度):整体图像中被正确分类的像素占总像素的比例,反映全局分类准确率。
  2. Mean Pixel Accuracy(平均像素精度):计算每个类别内 "正确分类像素数 / 该类总像素数" 的比例,再对所有类别取平均,避免大类对结果的过度影响。
  3. IoU(交并比):针对前景目标,计算 "预测区域与真实区域的交集" 与 "两者并集" 的比值,衡量目标定位精度。
  4. mIoU(平均交并比):对所有类别的 IoU 取平均,是分割任务中最常用的核心指标,综合反映各类别的分割性能。
  5. FWIoU(加权平均交并比):根据每个类别在图像中出现的概率(像素占比)为 mIoU 加权,更贴合实际场景中类别分布不均衡的情况。

五、图像分割网络的核心构成

1. 两大核心模块

分割网络通过 "下采样提特征 + 上采样复尺度" 实现像素级预测,核心依赖两个模块:

  • 卷积模块(编码器):通过卷积层 + Max Pooling(最大池化)进行下采样,逐步提取图像的高层语义特征(如目标轮廓、纹理),但尺寸会缩小。
  • 反卷积模块(解码器):通过反卷积(转置卷积)+Unpooling(反池化)进行上采样,将缩小的特征图恢复到原图尺寸,最终输出像素级分类结果。

2. 关键技术:转置卷积(反卷积)

转置卷积是实现 "上采样" 的核心技术,与普通卷积呈 "转置关系",具体对比如下:

对比维度 普通卷积 转置卷积(反卷积)
输入输出尺寸 输入 4×4 → 输出 2×2(3×3 卷积核) 输入 2×2 → 输出 4×4(3×3 卷积核)
核心作用 下采样,提取特征 上采样,恢复图像尺度
数学关系 通过稀疏矩阵乘法(Wconv×SparseX)实现 通过普通卷积稀疏矩阵的转置(Wdeconv=Wconv^T)计算,即 X=Wdeconv×SparseY

3. 典型网络结构

主流分割网络采用 "编码器 - 解码器" 架构:

  • 编码器:由卷积网络构成,通过多轮 "卷积 + Max Pooling" 下采样,特征图尺寸逐步减半(如 224×224→112×112→56×56→28×28),同时特征抽象度提升。
  • 解码器:由反卷积网络构成,通过多轮 "反卷积 + Unpooling" 上采样,特征图尺寸逐步恢复至原图大小(如 28×28→56×56→112×112→224×224),最终输出与原图尺寸一致的分割结果。
相关推荐
irizhao3 分钟前
基于深度学习的智能停车场系统设计与实现
人工智能·深度学习
九河云1 小时前
华为云 ECS 弹性伸缩技术:应对业务峰值的算力动态调度策略
大数据·服务器·人工智能·物联网·华为云
IT空门:门主2 小时前
Spring AI的教程,持续更新......
java·人工智能·spring·spring ai
美狐美颜SDK开放平台2 小时前
美颜sdk是什么?如何将美颜SDK接入安卓/iOS直播平台?
人工智能·美颜sdk·直播美颜sdk·美颜api·美狐美颜sdk
AI营销资讯站2 小时前
AI营销内容生产:哪些平台支持全球多语言内容同步生产?
大数据·人工智能
飞哥数智坊2 小时前
AutoGLM 开源实测:一句话让 AI 帮我点个鸡排
人工智能·chatglm (智谱)
F_D_Z2 小时前
简明 | Yolo-v3结构理解摘要
深度学习·神经网络·yolo·计算机视觉·resnet
2022.11.7始学前端2 小时前
n8n第九节 使用LangChain与Gemini构建带对话记忆的AI助手
java·人工智能·n8n
LYFlied3 小时前
在AI时代,前端开发者如何构建全栈开发视野与核心竞争力
前端·人工智能·后端·ai·全栈
core5123 小时前
深度解析DeepSeek-R1中GRPO强化学习算法
人工智能·算法·机器学习·deepseek·grpo