图像分割重点知识总结

一、图像分割基础认知

1. 核心定义

图像分割是预测目标轮廓的技术,核心是将图像中不同像素划分到不同类别,属于细粒度的像素级分类任务,比普通图像分类更精准。

2. 应用场景

覆盖多领域实用需求,包括但不限于:

  • 人像抠图(如图像处理软件中的主体提取)
  • 医学组织提取(如 CT/MRI 图像中病灶区域定位)
  • 遥感图像分析(如土地利用类型划分、灾害区域识别)
  • 自动驾驶(如道路、行人、车辆的实时分割)
  • 材料图像分析(如材料微观结构成分划分)

3. 前景与背景分类

图像内容按 "可计数性" 分为两类,为分割任务提供基础划分逻辑:

  • Things(物体):可数的前景目标,如行人、车辆、动物等。
  • Stuff(事物):不可数的背景区域,如天空、草地、路面、墙面等。

二、图像分割的 "三层境界"

按分割精度和目标维度,图像分割分为三个层次,逐步实现更全面的场景理解:

分割层次 核心目标 关键特点
语义分割(Semantic Segmentation) 划分像素的 "类别属性" 每个像素仅属于一个类别,输出为类别掩膜(如 "道路""行人" 标签),不区分同类目标的个体差异
实例分割(Instance Segmentation) 识别前景目标的 "个体属性" 仅关注前景目标,需同时输出类别、边框及个体 ID(如区分 "行人 1""行人 2"),单个像素可属于多个实例 ID
全景分割(Panoptic Segmentation) 融合语义与实例分割 每个像素同时分配 "语义类别" 和 "唯一实例 ID",既覆盖背景类别(如天空),也区分前景个体(如不同车辆),实现全场景像素标注

三、主流图像分割数据集

数据集是分割模型训练与验证的基础,文档重点介绍 3 个权威数据集,各有侧重:

1. VOC 数据集

  • 背景:源于 PASCAL VOC 世界级计算机视觉挑战赛,是分割任务的经典基准。
  • 类别划分:4 大类(如交通工具、动物)、20 小类(如汽车、猫、行人)。
  • 数据规模
    • VOC 2007:9963 张图片,包含 24640 个目标;
    • VOC 2012:23080 张图片,包含 54900 个目标;
    • 语义 / 实例分割标注图:共 2913 张(1464 张训练图、1449 张验证图)。
  • 支持任务:语义分割、实例分割。

2. Cityscape 数据集

  • 背景:聚焦城市街景场景,涵盖 50 个城市在春、夏、秋三季不同时段、不同场景的街景图。
  • 类别划分:30 个类别(如道路、行人、车辆、植被、天空等)。
  • 数据规模
    • 精细标注图:5000 张(2975 张训练图、500 张验证图、1525 张测试图);
    • 粗略标注图:20000 张。
  • 支持任务:语义分割、实例分割,适用于自动驾驶街景分割场景。

3. COCO 数据集

  • 背景:以 "场景理解" 为核心目标,专门选取复杂日常场景(如超市、街道、家庭环境)。
  • 类别划分:共 91 类,以 "人类 4 岁小孩可辨识" 为标准,其中 82 类包含超过 5000 个实例。
  • 核心特点:注重场景复杂性,图像中目标数量多、遮挡情况常见,更贴近真实世界应用。

四、语义分割的评估指标

通过量化指标衡量分割结果准确性,核心指标包括:

  1. Pixel Accuracy(逐像素分类精度):整体图像中被正确分类的像素占总像素的比例,反映全局分类准确率。
  2. Mean Pixel Accuracy(平均像素精度):计算每个类别内 "正确分类像素数 / 该类总像素数" 的比例,再对所有类别取平均,避免大类对结果的过度影响。
  3. IoU(交并比):针对前景目标,计算 "预测区域与真实区域的交集" 与 "两者并集" 的比值,衡量目标定位精度。
  4. mIoU(平均交并比):对所有类别的 IoU 取平均,是分割任务中最常用的核心指标,综合反映各类别的分割性能。
  5. FWIoU(加权平均交并比):根据每个类别在图像中出现的概率(像素占比)为 mIoU 加权,更贴合实际场景中类别分布不均衡的情况。

五、图像分割网络的核心构成

1. 两大核心模块

分割网络通过 "下采样提特征 + 上采样复尺度" 实现像素级预测,核心依赖两个模块:

  • 卷积模块(编码器):通过卷积层 + Max Pooling(最大池化)进行下采样,逐步提取图像的高层语义特征(如目标轮廓、纹理),但尺寸会缩小。
  • 反卷积模块(解码器):通过反卷积(转置卷积)+Unpooling(反池化)进行上采样,将缩小的特征图恢复到原图尺寸,最终输出像素级分类结果。

2. 关键技术:转置卷积(反卷积)

转置卷积是实现 "上采样" 的核心技术,与普通卷积呈 "转置关系",具体对比如下:

对比维度 普通卷积 转置卷积(反卷积)
输入输出尺寸 输入 4×4 → 输出 2×2(3×3 卷积核) 输入 2×2 → 输出 4×4(3×3 卷积核)
核心作用 下采样,提取特征 上采样,恢复图像尺度
数学关系 通过稀疏矩阵乘法(Wconv×SparseX)实现 通过普通卷积稀疏矩阵的转置(Wdeconv=Wconv^T)计算,即 X=Wdeconv×SparseY

3. 典型网络结构

主流分割网络采用 "编码器 - 解码器" 架构:

  • 编码器:由卷积网络构成,通过多轮 "卷积 + Max Pooling" 下采样,特征图尺寸逐步减半(如 224×224→112×112→56×56→28×28),同时特征抽象度提升。
  • 解码器:由反卷积网络构成,通过多轮 "反卷积 + Unpooling" 上采样,特征图尺寸逐步恢复至原图大小(如 28×28→56×56→112×112→224×224),最终输出与原图尺寸一致的分割结果。
相关推荐
AI科技星4 分钟前
《全域数学》第一部 数术本源 第三卷 代数原本第14篇 附录二 猜想证明【乖乖数学】
人工智能·算法·数学建模·数据挖掘·量子计算
XD7429716364 分钟前
科技早报|2026年5月2日:AI 编程工具开始按用量收费
人工智能·科技·ai编程·github copilot·科技早报
liangdabiao4 分钟前
乐高摩托车深度报告-致敬张雪夺冠 -基于llm-wiki技术自动化写文章的效果
运维·人工智能·自动化
KC2706 分钟前
Prompt 注入攻击的 5 种姿势和防御指南
人工智能
不懒不懒9 分钟前
【从零入门本地大模型:Ollama 安装部署 + Qwen2.5 实现零样本情感分类】
人工智能·分类·数据挖掘·大模型·ollama
徐健峰13 分钟前
GPT-image-2 热门玩法实战(二):AI 面相分析 & 个人色彩诊断 — 上传自拍秒出专业报告
人工智能·gpt
冰西瓜60014 分钟前
深度学习的数学原理(三十二)—— Transformer全场景掩码机制详解
人工智能·深度学习·transformer
绘梨衣54715 分钟前
Agentic RAG、传统RAG、ReAct、Function Calling 核心关系
人工智能·chatgpt·tensorflow
玩转单片机与嵌入式18 分钟前
嵌入式AI场景:哪些应用场景不适合将AI模型部署到单片机(MCU)中?
人工智能·单片机·嵌入式硬件
MediaTea22 分钟前
AI 术语通俗词典:随机搜索
人工智能