【计算机视觉】09_分割

1. 什么是图像分割?

图像分割是将图像划分为若干互不交迭的区域,使得同一区域内的像素具有相似性(如灰度、颜色、纹理),而不同区域间差异明显。

  • 应用场景: 医学图像分析(如脑部肿瘤定位)、遥感图像分析、影视后期抠图等。
  • 任务升级: 从"图像分类"(判断图片里有人)进化到"语义分割"(把人的轮廓精确地画出来,区分背景、人、车等)。

2. 传统分割方法(前深度学习时代)

A. 基于边缘的分割

利用像素灰度的不连续性(突变)来寻找区域边界。

  • 算子: 使用微分算子检测边缘,如一阶算子(Sobel, Prewitt)和二阶算子(Laplace)。
  • Canny 算子: 再次回顾了 Canny 边缘检测流程(高斯滤波 -> 梯度计算 -> 非极大值抑制 -> 双阈值连接)。
B. 基于区域的分割

将相似的像素聚集在一起。

  • 种子区域生长: 从种子点开始,不断合并周围相似的像素。
  • 大津法 (Otsu's Method): 经典的阈值分割 算法。核心思想是寻找一个阈值,使得类间方差最大(前景和背景区分度最大),要求物体内部纹理紧凑。
C. 基于形态学的分割
  • 分水岭算法 (Watershed): 将图像看作地形表面,像素灰度值对应海拔,通过模拟浸水过程构建"分水岭"作为分割线。

3. 深度学习时代的图像分割

这是本课件的重点。深度学习方法(尤其是全卷积网络)彻底改变了分割领域。

A. 核心操作:转置卷积 (Transposed Convolution)

在分割任务中,我们需要将经过卷积和池化变小的特征图恢复到原图大小(上采样)。

  • 定义: 也被称为反卷积 或分数步长卷积。与简单的插值不同,转置卷积拥有可学习的参数,能学出最优的上采样方法。
  • 原理: 它可以看作是卷积的逆操作(在矩阵形式上是将卷积矩阵转置),但在神经网络中它是一个正向的层,用于扩大特征图尺寸,。
B. 经典网络:FCN (Fully Convolutional Networks)

FCN 是语义分割的开山之作,它将端到端的卷积网络推广到了分割任务。

  • 去全连接层: 传统的 CNN(如 AlexNet)最后有全连接层,要求输入尺寸固定。FCN 将全连接层替换为 1×11 \times 11×1 卷积层 ,使得网络可以接受任意尺寸的输入图像。
  • 跳跃连接 (Skip Connections): 为了解决上采样导致的细节丢失问题,FCN 将浅层(高分辨率、低语义)的特征与深层(低分辨率、高语义)的特征进行融合,从而同时保留细节和语义信息。
C. U-Net
  • 结构: 经典的编码器-解码器结构(形似字母 U)。广泛应用于医学图像分割。它也使用了转置卷积进行上采样。
CNN & FCN

CNN

FCN

FCN 的优势

CNN 的 全连接层的输入必须固定,这也导致反推出卷积层的输入需要是固定的

FCN 由于采用卷积,输入可以不固定

FCN 过程

D. DeepLab 系列

DeepLab 是语义分割领域的另一个标杆,引入了几个关键技术:

  1. 空洞卷积 (Dilated/Atrous Convolution): 在卷积核中"打洞"(插入零),可以在不降低分辨率 (不进行下采样)的情况下扩大感受野。这解决了池化层导致分辨率下降的问题。
  2. ASPP (空洞空间金字塔池化): 使用不同采样率的空洞卷积并行采样,以捕获多尺度的上下文信息。
  3. CRF (条件随机场): 作为后处理步骤,利用像素间的关系优化分割边界,使结果更加精细。

4. 前沿模型:SAM (Segment Anything)

课件最后介绍了 Meta 在 2023 年提出的基础模型 SAM,它开启了"分割一切"的时代。

  • 提示工程 (Promptable): SAM 可以通过点、框或文本提示来分割图像中的任何物体,具有强大的零样本 (Zero-shot) 迁移能力。
  • 架构: 包含强大的图像编码器 (基于 ViT)、提示编码器 和轻量级的掩码解码器
  • 数据引擎: 使用了包含 1100 万张图像和 10 亿个掩码的超大数据集 (SA-1B) 进行训练。

总结: 本课件梳理了从简单的阈值分割(大津法)到复杂的深度神经网络(FCN, DeepLab)的演进。核心在于理解网络如何从"分类"转向"像素级预测",其中转置卷积空洞卷积是实现这一目标的关键技术组件。

至此,我们完成了所有主要技术课件的讲解(从滤波基础到深度识别与分割)。

您提到的资料中还包含两份**期末试卷(22-23 和 23-24)**及其部分答案。您是否希望我们现在开始分析这些试卷,看看上述知识点是如何在考试中体现的?

相关推荐
湘-枫叶情缘2 小时前
具生哲学思考:基于大型语言模型的个人哲学实践方法论
人工智能·语言模型
AI产品库2 小时前
通义灵码是什么?阿里云推出的智能编程助手全面评测-AI产品库
人工智能·ai编程
RockHopper20252 小时前
构建个人学习与工作LLM应用系统的核心运行机制:一种人机协同系统“认知引擎”的架构原理
人工智能·llm·认知导向·认知引擎
Java后端的Ai之路2 小时前
【神经网络基础】-权重说明
人工智能·深度学习·神经网络
桂花饼2 小时前
Gemini 3 Pro Image (Nano Banana2) 深度解析:专业级图像生成与API集成指南
人工智能·qwen3-next·nano banana 2·gemini-3-pro·gpt-5.2·glm-4.7
natide2 小时前
表示/嵌入差异-1-欧几里得距离(Euclidean Distance)-L2 距离(L2 distance)-欧式距离的标准化
人工智能·pytorch·python·深度学习·算法·自然语言处理
、BeYourself2 小时前
Spring AI ChatClient 完全指南-1
人工智能·springai
qzhqbb2 小时前
群智能计算核心算法全解析
人工智能·算法
小毅&Nora2 小时前
【人工智能】【强化学习】 ① 本年度大模型强化学习算法全景:6种主流算法深度解析
人工智能·强化学习