深度学习——图像分割

一、图像分割基础

  • 定义:对图像像素进行细粒度分类,明确目标轮廓,划分不同类别。
  • 应用场景:涵盖人像抠图、医学组织提取、遥感图像分析、自动驾驶、材料图像等领域。
  • 前景与背景:前景为可数目标(如行人),背景为不可数场景元素(如天空、草地)。
  • 三层境界:语义分割(像素单类别分配,输出掩膜) 实例分割(仅预测前景目标的类别、边框及个体 ID,像素可属多 ID) 全景分割(像素分配语义类别 + 唯一实例 ID)。

二、核心数据集

  • VOC 数据集:含 4 大类 20 小类,2007 年起支持语义与实例分割标注,2007 版有 9963 张图片 / 24640 个目标,2012 版有 23080 张图片 / 54900 个目标,另有 2913 张标注图(含训练、验证集)。
  • Cityscape 数据集:聚焦 50 个城市的街景图,含 30 个类别,提供 5000 张精细标注图(分训练、验证、测试集)和 20000 张粗略标注图,支持语义与实例分割。
  • COCO 数据集:侧重复杂日常场景,共 91 类(82 类有超 5000 个实例),以 4 岁小孩可辨识为分类基准。

三、评估指标

  • 基础指标:Pixel Accuracy(PA):逐像素分类精度 Mean Pixel Accuracy(MPA):类内正确分类像素比例。
  • 核心指标:IoU(前景目标交并比)、mIoU(各类 IoU 平均值)、FWIoU(带类别概率权重的 mIoU)。

四、技术核心

  • 网络模块:由卷积模块(提取图像特征)和反卷积模块(上采样恢复原图尺度)构成。
  • 转置卷积:卷积为 4×4 输入转 2×2 输出(3×3 卷积核),反卷积为 2×2 输入转 4×4 输出(3×3 卷积核),二者呈转置关系,通过稀疏矩阵运算实现。

五、典型网络结构

  • 采用 "编码器 (卷积模块)- 解码器(反卷积模块)" 架构,编码器为卷积网络(含多次最大池化),解码器为反卷积网络(含多次反池化),逐步完成特征提取与图像尺度恢复。
相关推荐
让学习成为一种生活方式5 分钟前
海洋类胡萝卜素生物合成的乙酰转移酶--文献精读217
人工智能
QQ676580089 分钟前
服装计算机视觉数据集 连衣裙数据集 衣服类别识别 毛衣数据集 夹克衫AI识别 衬衫识别 裤子 数据集 yolo格式数据集
人工智能·yolo·计算机视觉·连衣裙·衣服类别·毛衣数据集·夹克衫ai
冰糖葫芦三剑客9 分钟前
人工智能生成合成内容文件元数据隐式标识说明函要怎么填写
人工智能
CV-杨帆30 分钟前
ICLR 2026 LLM安全相关论文整理
人工智能·深度学习·安全
田八37 分钟前
聊聊AI的发展史,AI的爆发并不是偶然
前端·人工智能·程序员
zandy101138 分钟前
全链路可控+极致性能,衡石HENGSHI CLI重新定义企业级BI工具的AI协作能力
大数据·人工智能·ai analytics·ai native·agent-first
广州灵眸科技有限公司39 分钟前
为RK3588注入澎湃算力:RK1820 AI加速卡完整适配与评测指南
linux·网络·人工智能·物联网·算法
小程故事多_8040 分钟前
从零吃透Transformer核心,多头注意力、残差连接与前馈网络(大白话完整版)
人工智能·深度学习·架构·aigc·transformer
xiejava101842 分钟前
写了一个WebDAV的Skill解决OpenClaw AI助手跨平台协作难题
人工智能·ai编程·智能体·openclaw
zhanghongbin011 小时前
AI 采集器:Claude Code、OpenAI、LiteLLM 监控
java·前端·人工智能