深度学习——图像分割

停停的茶2025-11-01 0:05

一、图像分割基础

定义：对图像像素进行细粒度分类，明确目标轮廓，划分不同类别。

应用场景：涵盖人像抠图、医学组织提取、遥感图像分析、自动驾驶、材料图像等领域。

前景与背景：前景为可数目标（如行人），背景为不可数场景元素（如天空、草地）。

三层境界：语义分割（像素单类别分配，输出掩膜）实例分割（仅预测前景目标的类别、边框及个体 ID，像素可属多 ID）全景分割（像素分配语义类别 + 唯一实例 ID）。

二、核心数据集

VOC 数据集：含 4 大类 20 小类，2007 年起支持语义与实例分割标注，2007 版有 9963 张图片 / 24640 个目标，2012 版有 23080 张图片 / 54900 个目标，另有 2913 张标注图（含训练、验证集）。

Cityscape 数据集：聚焦 50 个城市的街景图，含 30 个类别，提供 5000 张精细标注图（分训练、验证、测试集）和 20000 张粗略标注图，支持语义与实例分割。

COCO 数据集：侧重复杂日常场景，共 91 类（82 类有超 5000 个实例），以 4 岁小孩可辨识为分类基准。

三、评估指标

基础指标：Pixel Accuracy（PA）：逐像素分类精度 Mean Pixel Accuracy（MPA）：类内正确分类像素比例。

核心指标：IoU（前景目标交并比）、mIoU（各类 IoU 平均值）、FWIoU（带类别概率权重的 mIoU）。

四、技术核心

网络模块：由卷积模块（提取图像特征）和反卷积模块（上采样恢复原图尺度）构成。

转置卷积：卷积为 4×4 输入转 2×2 输出（3×3 卷积核），反卷积为 2×2 输入转 4×4 输出（3×3 卷积核），二者呈转置关系，通过稀疏矩阵运算实现。

五、典型网络结构

采用 "编码器（卷积模块）- 解码器（反卷积模块）" 架构，编码器为卷积网络（含多次最大池化），解码器为反卷积网络（含多次反池化），逐步完成特征提取与图像尺度恢复。

上一篇：爬虫进阶 JS逆向基础超详细，解锁加密数据

下一篇：从PLY到3DTiles：GISBox助力三维数据格式转换全流程

热门推荐

01GitHub 镜像站点 02安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）03Linux下V2Ray安装配置指南 04Labelme从安装到标注：零基础完整指南 05jdk21下载、安装（Windows、Linux、macOS）06【踩坑笔记】50系显卡适配的 PyTorch 安装 07手把手教你通过Gemini3 pro 学生认证，白用一年，手慢无！08Opencode CLI 安装成功,但是启动失败 09GitLab 零基础入门指南：从安装到项目管理全流程 10Claude Code Plan 模式完全指南：从入门到精通