【计算机视觉】09_分割

图像分割是将图像划分为若干互不交迭的区域，使得同一区域内的像素具有相似性（如灰度、颜色、纹理），而不同区域间差异明显。

利用像素灰度的不连续性（突变）来寻找区域边界。

将相似的像素聚集在一起。

种子区域生长： 从种子点开始，不断合并周围相似的像素。
大津法 (Otsu's Method)： 经典的阈值分割 算法。核心思想是寻找一个阈值，使得类间方差最大（前景和背景区分度最大），要求物体内部纹理紧凑。

这是本课件的重点。深度学习方法（尤其是全卷积网络）彻底改变了分割领域。

在分割任务中，我们需要将经过卷积和池化变小的特征图恢复到原图大小（上采样）。

FCN 是语义分割的开山之作，它将端到端的卷积网络推广到了分割任务。

去全连接层： 传统的 CNN（如 AlexNet）最后有全连接层，要求输入尺寸固定。FCN 将全连接层替换为 1×11 \times 11×1 卷积层 ，使得网络可以接受任意尺寸的输入图像。
跳跃连接 (Skip Connections)： 为了解决上采样导致的细节丢失问题，FCN 将浅层（高分辨率、低语义）的特征与深层（低分辨率、高语义）的特征进行融合，从而同时保留细节和语义信息。

CNN

FCN

CNN 的全连接层的输入必须固定，这也导致反推出卷积层的输入需要是固定的

FCN 由于采用卷积，输入可以不固定

FCN 过程

DeepLab 是语义分割领域的另一个标杆，引入了几个关键技术：

空洞卷积 (Dilated/Atrous Convolution)： 在卷积核中"打洞"（插入零），可以在不降低分辨率 （不进行下采样）的情况下扩大感受野。这解决了池化层导致分辨率下降的问题。
ASPP (空洞空间金字塔池化)： 使用不同采样率的空洞卷积并行采样，以捕获多尺度的上下文信息。
CRF (条件随机场)： 作为后处理步骤，利用像素间的关系优化分割边界，使结果更加精细。

课件最后介绍了 Meta 在 2023 年提出的基础模型 SAM，它开启了"分割一切"的时代。

提示工程 (Promptable)： SAM 可以通过点、框或文本提示来分割图像中的任何物体，具有强大的零样本 (Zero-shot) 迁移能力。
架构： 包含强大的图像编码器 （基于 ViT）、提示编码器 和轻量级的掩码解码器。
数据引擎： 使用了包含 1100 万张图像和 10 亿个掩码的超大数据集 (SA-1B) 进行训练。

总结： 本课件梳理了从简单的阈值分割（大津法）到复杂的深度神经网络（FCN, DeepLab）的演进。核心在于理解网络如何从"分类"转向"像素级预测"，其中转置卷积 和空洞卷积是实现这一目标的关键技术组件。

至此，我们完成了所有主要技术课件的讲解（从滤波基础到深度识别与分割）。

您提到的资料中还包含两份**期末试卷（22-23 和 23-24）**及其部分答案。您是否希望我们现在开始分析这些试卷，看看上述知识点是如何在考试中体现的？