1. 什么是图像分割?
图像分割是将图像划分为若干互不交迭的区域,使得同一区域内的像素具有相似性(如灰度、颜色、纹理),而不同区域间差异明显。
- 应用场景: 医学图像分析(如脑部肿瘤定位)、遥感图像分析、影视后期抠图等。
- 任务升级: 从"图像分类"(判断图片里有人)进化到"语义分割"(把人的轮廓精确地画出来,区分背景、人、车等)。
2. 传统分割方法(前深度学习时代)
A. 基于边缘的分割
利用像素灰度的不连续性(突变)来寻找区域边界。
- 算子: 使用微分算子检测边缘,如一阶算子(Sobel, Prewitt)和二阶算子(Laplace)。
- Canny 算子: 再次回顾了 Canny 边缘检测流程(高斯滤波 -> 梯度计算 -> 非极大值抑制 -> 双阈值连接)。
B. 基于区域的分割
将相似的像素聚集在一起。
- 种子区域生长: 从种子点开始,不断合并周围相似的像素。
- 大津法 (Otsu's Method): 经典的阈值分割 算法。核心思想是寻找一个阈值,使得类间方差最大(前景和背景区分度最大),要求物体内部纹理紧凑。
C. 基于形态学的分割
- 分水岭算法 (Watershed): 将图像看作地形表面,像素灰度值对应海拔,通过模拟浸水过程构建"分水岭"作为分割线。
3. 深度学习时代的图像分割
这是本课件的重点。深度学习方法(尤其是全卷积网络)彻底改变了分割领域。
A. 核心操作:转置卷积 (Transposed Convolution)
在分割任务中,我们需要将经过卷积和池化变小的特征图恢复到原图大小(上采样)。
- 定义: 也被称为反卷积 或分数步长卷积。与简单的插值不同,转置卷积拥有可学习的参数,能学出最优的上采样方法。
- 原理: 它可以看作是卷积的逆操作(在矩阵形式上是将卷积矩阵转置),但在神经网络中它是一个正向的层,用于扩大特征图尺寸,。
B. 经典网络:FCN (Fully Convolutional Networks)
FCN 是语义分割的开山之作,它将端到端的卷积网络推广到了分割任务。
- 去全连接层: 传统的 CNN(如 AlexNet)最后有全连接层,要求输入尺寸固定。FCN 将全连接层替换为 1×11 \times 11×1 卷积层 ,使得网络可以接受任意尺寸的输入图像。
- 跳跃连接 (Skip Connections): 为了解决上采样导致的细节丢失问题,FCN 将浅层(高分辨率、低语义)的特征与深层(低分辨率、高语义)的特征进行融合,从而同时保留细节和语义信息。
C. U-Net
- 结构: 经典的编码器-解码器结构(形似字母 U)。广泛应用于医学图像分割。它也使用了转置卷积进行上采样。
CNN & FCN
CNN

FCN

FCN 的优势
CNN 的 全连接层的输入必须固定,这也导致反推出卷积层的输入需要是固定的
FCN 由于采用卷积,输入可以不固定
FCN 过程

D. DeepLab 系列
DeepLab 是语义分割领域的另一个标杆,引入了几个关键技术:
- 空洞卷积 (Dilated/Atrous Convolution): 在卷积核中"打洞"(插入零),可以在不降低分辨率 (不进行下采样)的情况下扩大感受野。这解决了池化层导致分辨率下降的问题。
- ASPP (空洞空间金字塔池化): 使用不同采样率的空洞卷积并行采样,以捕获多尺度的上下文信息。
- CRF (条件随机场): 作为后处理步骤,利用像素间的关系优化分割边界,使结果更加精细。
4. 前沿模型:SAM (Segment Anything)
课件最后介绍了 Meta 在 2023 年提出的基础模型 SAM,它开启了"分割一切"的时代。
- 提示工程 (Promptable): SAM 可以通过点、框或文本提示来分割图像中的任何物体,具有强大的零样本 (Zero-shot) 迁移能力。
- 架构: 包含强大的图像编码器 (基于 ViT)、提示编码器 和轻量级的掩码解码器。
- 数据引擎: 使用了包含 1100 万张图像和 10 亿个掩码的超大数据集 (SA-1B) 进行训练。
总结: 本课件梳理了从简单的阈值分割(大津法)到复杂的深度神经网络(FCN, DeepLab)的演进。核心在于理解网络如何从"分类"转向"像素级预测",其中转置卷积 和空洞卷积是实现这一目标的关键技术组件。
至此,我们完成了所有主要技术课件的讲解(从滤波基础到深度识别与分割)。
您提到的资料中还包含两份**期末试卷(22-23 和 23-24)**及其部分答案。您是否希望我们现在开始分析这些试卷,看看上述知识点是如何在考试中体现的?