【项目实战】ISIC 数据集上的实验揭秘：UNet + SENet、Spatial Attention 和 CBAM 的最终表现

"听说有人用UNet找到了CT里的小肿块，也有人用它画了比自己还帅的自拍照。于是我想，UNet这么万能，是不是还能帮我找到我丢的袜子？"

别急，这篇文章不会帮你找袜子，但绝对会让你搞懂UNet的精髓！从医学影像到图像分割，UNet堪称卷积神经网络界的全能选手。如果你也是对它一知半解的"小白"，那么欢迎加入本次轻松又高效的学习旅程，咱们一起把这个强大的网络拆解明白！

"这是我的个人主页，喜欢的话记得点赞👍、收藏📂、评论📝哦！你的每一个支持都是我更新的动力💪！有问题或者想法的话，也欢迎在评论区和我唠唠～咱们一起进步吧！🚀"

────────────────────────────👆👆👆────────────────────────────

链接: 代码资源

用到的数据：ISIC数据集下载

──────────────────────────────────────────────────────────────

[第一章引言](#第一章引言)
- 1.1医学图像分割的重要性
- [2. 深度学习在医学图像分割中的应用](#2. 深度学习在医学图像分割中的应用)
- [3. 本文的研究内容与创新点](#3. 本文的研究内容与创新点)
[第二章相关工作](#第二章相关工作)
- [2.1 医学图像分割方法综述](#2.1 医学图像分割方法综述)
- [2.2 注意力机制在深度学习中的应用](#2.2 注意力机制在深度学习中的应用)
- [2.3 Unet模型的改进与发展](#2.3 Unet模型的改进与发展)
[第三章数据准备及预处理](#第三章数据准备及预处理)
- [3.1 数据集介绍](#3.1 数据集介绍)
- [3.2 数据预处理](#3.2 数据预处理)
- - [3.2.1 数据清理](#3.2.1 数据清理)
  - [3.2.2 图像标准化](#3.2.2 图像标准化)
  - [3.2.3 数据增强](#3.2.3 数据增强)
- [5.3 数据可视化](#5.3 数据可视化)
- [5.4 数据集划分](#5.4 数据集划分)
[第四章研究方法](#第四章研究方法)
- [4.1 Unet模型架构](#4.1 Unet模型架构)
- - 1）Unet的主要结构如下：
  - 2）公式化描述：
- [4.2 注意力机制](#4.2 注意力机制)
- - [4.2.1 SENet](#4.2.1 SENet)
  - [4.2.2 Spatial Attention](#4.2.2 Spatial Attention)
  - [4.2.3 CBAM](#4.2.3 CBAM)
- [4.3 模型改进方法](#4.3 模型改进方法)
[第五章评价指标](#第五章评价指标)
- [5.1 Accuracy](#5.1 Accuracy)
- [5.2 Dice 系数](#5.2 Dice 系数)
- [5.3 IoU（Intersection over Union）](#5.3 IoU（Intersection over Union）)
- [5.4 Sensitivity](#5.4 Sensitivity)
- [5.5 Specificity](#5.5 Specificity)
- [5.6 指标总结与实际意义](#5.6 指标总结与实际意义)
[第六章实验结果与分析](#第六章实验结果与分析)
- [6.1 基准Unet模型的性能分析](#6.1 基准Unet模型的性能分析)
- - [1. 实验设置](#1. 实验设置)
  - [2. 模型性能趋势](#2. 模型性能趋势)
  - [3. 定量分析](#3. 定量分析)
  - [4. 性能不足与改进方向](#4. 性能不足与改进方向)
  - [5. 结论](#5. 结论)
- [6.2 各种注意力机制的对比分析](#6.2 各种注意力机制的对比分析)
- - [6.2.1 添加SENet后的实验结果](#6.2.1 添加SENet后的实验结果)
  - - [1. 实验设置](#1. 实验设置)
    - [2. 模型性能趋势](#2. 模型性能趋势)
    - [3. 定量分析](#3. 定量分析)
    - [4. 性能分析与改进效果](#4. 性能分析与改进效果)
    - [5. 结论](#5. 结论)
  - [6.2.2 添加Spatial Attention的实验结果](#6.2.2 添加Spatial Attention的实验结果)
  - - [1. 实验设置](#1. 实验设置)
    - [2. 模型性能趋势](#2. 模型性能趋势)
    - [3. 定量分析](#3. 定量分析)
    - [4. 性能分析与改进效果](#4. 性能分析与改进效果)
    - [5. 结论](#5. 结论)
  - [6.2.3 添加CBAM的实验结果](#6.2.3 添加CBAM的实验结果)
  - - [1. 实验设置](#1. 实验设置)
    - [2. 模型性能趋势](#2. 模型性能趋势)
    - [3. 定量分析](#3. 定量分析)
    - [4. 性能分析与改进效果](#4. 性能分析与改进效果)
    - [5. 结论](#5. 结论)
- [6.3 消融实验分析](#6.3 消融实验分析)
- - - [1. 实验目的](#1. 实验目的)
    - [2. 消融实验设置](#2. 消融实验设置)
    - [3. 实验结果](#3. 实验结果)
    - [4. 消融实验分析](#4. 消融实验分析)
- [6.4 预测结果分析](#6.4 预测结果分析)
- [6.5 结论](#6.5 结论)
- [6.6. 后续工作](#6.6. 后续工作)
[第七章讨论](#第七章讨论)
- [7.1 不同注意力机制对模型性能的影响](#7.1 不同注意力机制对模型性能的影响)
- [7.2 模型改进的局限性与挑战](#7.2 模型改进的局限性与挑战)
- [7.3 对未来工作的展望](#7.3 对未来工作的展望)
[第八章总结](#第八章总结)
- [8.1 本文工作总结](#8.1 本文工作总结)
- [8.2 实验结果的意义](#8.2 实验结果的意义)

医学图像分割是计算机辅助诊断（Computer-Aided Diagnosis,CAD）的核心技术之一，在疾病检测、治疗规划和术后评估中发挥重要作用。传统分割方法因对复杂病灶区域的适应能力不足而受到限制。随着深度学习的发展，基于卷积神经网络（CNN）的Unet模型在医学图像分割中展现了卓越的性能。然而，其在处理边界细节和复杂病灶特征时仍存在局限性。本文提出了一种改进的Unet模型，将三种典型的注意力机制（SENet、Spatial Attention和CBAM）分别嵌入模型，提升了模型对关键区域的关注能力。通过在ISIC皮肤病病灶分割数据集上的实验对比和消融实验，结果表明，改进模型在分割精度（Dice系数）、区域完整性（IoU）及鲁棒性等方面均优于基准模型。本文研究为医学图像分割中的注意力机制应用提供了新思路，同时为实际临床应用奠定了基础。

**关键词：**医学图像分割；卷积神经网络；Unet；注意力机制；SENet；CBAM；皮肤病灶检测；深度学习

第一章引言

1.1医学图像分割的重要性

医学图像分割是计算机辅助诊断（Computer-Aided Diagnosis,CAD）的核心技术之一，其目标是将医学图像中的感兴趣区域（Region ofInterest,ROI）精确地提取出来，从而为疾病诊断、治疗规划和术后评估提供有力支持。在皮肤病病灶的检测中，分割技术尤为关键，因为它能够准确定位病灶区域，量化病变范围，并为皮肤癌等严重疾病的早期筛查提供高效的工具。然而，医学图像分割任务面临许多挑战，包括图像中病灶区域边界模糊、形态多样以及不同患者之间的个体差异等，这对算法的泛化能力提出了更高的要求。传统的分割方法如阈值法、区域生长和基于手工特征的机器学习模型，虽然在某些特定场景下取得了一定效果，但普遍存在对噪声敏感、泛化能力弱以及对复杂病灶结构适应性差的问题。

2. 深度学习在医学图像分割中的应用

近年来，随着深度学习技术的发展，卷积神经网络（Convolutional Neural Networks, CNNs）在医学图像分割领域展现出了强大的性能，特别是Unet模型因其高效的编码-解码结构成为该领域的经典模型。Unet通过对图像的全局上下文信息和局部细节信息进行有效融合，在处理医学图像分割问题上具有较大的优势。然而，尽管Unet在许多医学场景下取得了优异的表现，其仍存在一些局限性，例如对于复杂病灶的特征表达能力不足，尤其是在病灶边界细节捕获和特征选择方面。因此，如何在Unet模型基础上进一步优化特征提取能力，提升分割性能，已成为当前研究的热点。

在众多改进方法中，注意力机制的引入成为有效增强模型性能的技术之一。注意力机制能够模仿人类视觉系统对关键信息的选择性关注，动态调整网络对重要区域特征的权重分配，从而提升模型的表达能力和分割精度。典型的注意力机制包括Squeeze-and-Excitation Network（SENet）、Spatial Attention以及融合通道和空间注意力的Convolutional Block Attention Module（CBAM）。这些机制分别从不同角度优化了模型对全局和局部特征的建模能力，为深度学习在医学图像中的应用提供了新的方向。

3. 本文的研究内容与创新点

针对上述背景与挑战，本文提出基于Unet模型和注意力机制的改进方法，以ISIC皮肤病病灶数据集为实验对象，探索不同注意力机制对分割性能的提升效果。通过系统性地引入三种典型注意力机制（SENet、Spatial Attention和CBAM），本文设计了一系列对比实验和消融实验，重点分析注意力机制在提升模型分割能力方面的作用，并对其在不同网络模块中的贡献进行深入讨论。实验结果表明，改进后的模型在分割精度、边界细节还原以及模型鲁棒性等方面均优于基准模型。

本文的主要贡献和创新点总结如下：

（1）改进Unet模型：将三种注意力机制分别嵌入Unet模型中，并比较其对分割性能的影响。

（2）消融实验设计：通过消融实验系统分析不同注意力机制在不同模块中的作用，明确性能提升的来源。

（3）全面的实验分析：结合多种评价指标和可视化方法，对改进模型的性能进行定量和定性评估。

第二章相关工作

2.1 医学图像分割方法综述

医学图像分割作为医学影像分析的重要任务，经历了从传统方法到深度学习方法的演进。传统的医学图像分割方法通常依赖于图像处理技术和手工设计特征。这些方法包括：

1，基于边缘的分割：通过检测图像中灰度值或纹理变化的区域边界来完成分割，例如Canny边缘检测器和Sobel算子。这类方法对噪声敏感，难以适应医学图像中的模糊边界。
2，基于区域的分割：例如区域生长和水平集方法，通过定义初始区域并根据相似性准则扩展区域来完成分割。这些方法对初始条件依赖较大，容易陷入局部最优。
3，基于模型的分割：例如主动轮廓模型（Active Contour Model,

ACM）和图切割方法（Graph

Cut）。这些方法通常需要复杂的参数调优，对图像质量要求较高。

尽管这些传统方法在特定场景下具有一定的效果，但由于医学图像的复杂性（如纹理变化、病灶形态多样性以及低对比度），其性能在真实应用中受到限制。

近年来，深度学习，尤其是卷积神经网络（CNNs）的引入，为医学图像分割提供了强大的工具。基于深度学习的方法能够从大规模数据中自动学习特征表达，摆脱了手工特征设计的限制。例如：

1，基于全卷积网络（FCN）的分割方法：FCN是最早应用于语义分割的深度学习模型，通过全卷积层代替全连接层，实现了端到端的像素级预测。

2，基于Unet的分割方法：Unet作为经典的编码-解码网络结构，通过跳跃连接（skip connections）有效结合了编码器的高层语义特征和解码器的低层空间信息，在医学图像分割任务中表现卓越。

3，基于改进网络的分割方法：例如DeepLab系列通过引入空洞卷积和条件随机场（CRF）增强了对细节的捕获能力，DenseNet系列通过密集连接优化了梯度传播。

尽管深度学习方法显著提高了分割精度，但模型的计算复杂度较高，且对特征的关注能力仍存在不足，特别是在应对医学图像中的小目标或复杂边界时，表现仍有提升空间。

2.2 注意力机制在深度学习中的应用

注意力机制作为模仿人类视觉系统的一种技术，能够使模型更专注于关键特征区域，显著提升了深度学习模型的性能。其发展主要经历了以下几个阶段：

1，通道注意力（Channel Attention）：最早的注意力机制之一是Squeeze-and-Excitation

Network（SENet），通过自适应调整不同通道的权重提升了特征表示能力。SENet使用全局平均池化对每个通道进行特征聚合，并通过全连接层计算权重，从而增强了对重要通道的关注。

2，空间注意力（Spatial Attention）：通过关注特定的空间位置来增强模型对局部特征的表达能力。典型方法如Spatial Transformer Networks和Spatial Attention模块，能够对输入特征图的空间分布进行动态调整。

3，通道与空间联合注意力（CBAM）：Convolutional Block Attention Module（CBAM）结合了通道注意力和空间注意力，通过逐步优化通道和空间特征权重，进一步提升了模型的表达能力。

4，多头注意力（Multi-Head Attention）：最初在Transformer中引入，通过在多个子空间中并行计算注意力，显著提升了模型对全局信息的建模能力。该方法也被逐步应用到分割任务中，例如使用ViT（Vision Transformer）或Swin Transformer的分割模型。

注意力机制在医学图像分割中的应用取得了显著进展。例如，某些研究通过引入SENet改进Unet结构，使模型能够更准确地捕获病灶区域的关键特征；其他研究通过结合空间注意力提升了对边界信息的捕获能力。然而，如何有效结合不同类型的注意力机制以实现特征的高效建模，仍然是一个亟待解决的研究课题。

2.3 Unet模型的改进与发展

Unet自提出以来，被广泛应用于各种医学图像分割任务。其经典的编码-解码结构通过跳跃连接（skip

connections）有效融合了多尺度信息，并在多个医学数据集上表现出色。然而，随着医学图像分割需求的复杂化，研究者们对Unet模型进行了多种改进：

（1）网络结构的优化：如Unet++通过设计更密集的跳跃连接结构，进一步提升了特征融合能力；Attention

Unet在解码阶段引入了注意力机制，有效聚焦于病灶区域。

（2）特征提取能力的增强：例如R2Unet结合了残差块（Residual Block）和循环神经网络（Recurrent Network），增强了特征提取的表达能力。

（3）融合注意力机制：多种改进版本（如SE-Unet、CBAM-Unet）通过嵌入注意力机制提升了模型对重要特征的关注能力，同时抑制了背景噪声的干扰。

（4）轻量化与高效化：针对医学图像分割任务中计算资源有限的问题，许多研究通过设计轻量化网络（如Mobile-Unet、Efficient-Unet）减少了模型的计算复杂度，同时保持较高的分割性能。

在本研究中，我们将经典Unet模型作为基准，结合三种主流注意力机制（SENet、Spatial Attention和CBAM），系统分析其在ISIC皮肤病病灶分割任务中的表现。通过对比和消融实验，我们旨在揭示注意力机制在提升Unet模型性能中的关键作用，为进一步改进医学图像分割算法提供参考。

第三章数据准备及预处理

3.1 数据集介绍

本文实验使用的数据集为 ISIC（International Skin Imaging Collaboration）皮肤病病灶分割数据集，下载网页：ISIC数据集下载, 该数据集是皮肤病变检测和分割领域的权威数据集，广泛用于评估不同算法在医学图像分割任务中的表现。数据集由2600 张高质量的皮肤病变图像及其对应的分割标签组成，具体包括以下两部分：

（1）图像数据：为RGB格式的彩色图片，分辨率多为 512 × 512 512 \times 512 512×512。每张图片展示了病患皮肤区域，其中可能包含可见的病灶（如色素沉着、斑块等）。

（2）分割标签（Ground Truth,GT）：为每张图片提供的像素级标注，采用二值化图像形式，病灶区域用像素值 1 1 1 表示，背景区域用像素值 0 0 0表示。这些标签由专业皮肤科医生标注，确保标注的准确性。

数据集中的图片展示了多种类型的皮肤病变形态，包括清晰边界的良性病灶、模糊边界的恶性病灶、以及与周围皮肤难以区分的复杂病灶区域。因此，该数据集具有如下挑战性特点：

（1）病灶形态多样性：病灶的大小、形状、颜色均存在显著差异，小病灶区域可能仅占整张图像面积的极小比例。

（2）病灶边界模糊：部分病灶的边界与正常皮肤区域过渡较平滑，难以精确分割。

（3）光照与纹理干扰：由于图像采集设备和拍摄环境的限制，部分图像可能受到光照、阴影及皮肤纹理的干扰。

3.2 数据预处理

为了保证模型在训练过程中的稳定性，并提高分割任务的准确性，本文对数据集进行了多步骤的数据预处理，具体包括：

3.2.1 数据清理

（1）检查图片和标签对齐性：确保所有图片和标签成对存在，避免遗漏或对齐错误的样本。

（2）去除异常数据：排除分辨率异常或标签不完整的图片，保证数据质量一致性。

（3）灰度值检查：验证分割标签是否完全二值化（像素值仅为 0 0 0 和
1 1 1），排除非二值化的异常标签。

3.2.2 图像标准化

（1）将所有图片的分辨率统一调整为
256 × 256 256 \times 256 256×256，以减少模型训练过程中的计算开销，同时平衡模型性能与计算资源。

（2）对图片像素值进行归一化处理，将像素值映射到 [ 0 , 1 ] \lbrack 0,1\rbrack [0,1]

区间：

I ′ = I − I min I max − I min \begin{array}{r} I^{'} = \frac{I - I_{\text{min}}}{I_{\text{max}} - I_{\text{min}}}\ \end{array} I′=Imax−IminI−Imin

其中， I min I_{\text{min}} Imin 和 I max I_{\text{max}} Imax分别表示图片的最小值和最大值。归一化后的图片能够加快模型的收敛速度。

3.2.3 数据增强

由于数据集规模有限，为提高模型的泛化能力，本文对训练数据进行了数据增强操作，包括：

1.几何变换：

随机旋转：在 [ − 3 0 ∘ , + 3 0 ∘ ] \left\lbrack - 30^{\circ}, + 30^{\circ} \right\rbrack [−30∘,+30∘]

的范围内随机旋转图像及其标签，增加病灶区域的方向多样性。
翻转：包括水平翻转和垂直翻转。
缩放：随机裁剪或缩放图像，增强对多尺度病灶的鲁棒性。

色彩变换：

亮度调整：随机改变图像的亮度值（增减幅度为 [ − 0.1 , + 0.1 ] \lbrack - 0.1, + 0.1\rbrack [−0.1,+0.1]），模拟不同的光照条件。
对比度调整：随机增强或降低图像对比度。
噪声添加：模拟拍摄过程中的噪声干扰，如高斯噪声（零均值、0.01方差），以增强模型的鲁棒性。

5.3 数据可视化

为了直观展示 ISIC数据集中图片和标签的特点，本文对部分样本进行了可视化处理。以下是几组示例图片及其对应的标签：

图一：清晰的病灶图片

如图一显示了一个清晰边界的病灶区域，其颜色与周围皮肤有显著差异，病灶面积较小且集中。右侧标签图中病灶区域被准确标注为白色，背景为黑色。

图二：模糊的病灶图片

如图二所示，这个数据病灶边界模糊，病灶区域与周围皮肤颜色接近，且病灶形状不规则。右侧标签图中医生通过经验标注出病灶的大致边界，较难确定准确范围。

图三：复杂的病灶图片

如图三所示，病灶区域较大，但纹理复杂，受光照影响明显，边界呈现不连续性。病灶区域清晰标注，整体轮廓完整，但边界处可能存在一些细微的偏差。

5.4 数据集划分

为确保训练、验证和测试过程中数据分布的一致性，本文将数据集按照

7:2的比例划分为训练集和验证集：

（1）训练集：包含 1820 张图片及其对应标签，用于模型参数的学习。

（2）验证集：包含张图片及其对应标签，用于模型训练过程中的性能监控和超参数调整。

在划分过程中，本文严格保证不同子集之间的独立性，且确保病灶区域的分布尽量均匀，以避免类别不平衡对模型训练和评估造成影响。

第四章研究方法

4.1 Unet模型架构

Unet是一种经典的卷积神经网络，最初被提出用于生物医学图像分割任务。其核心特点是对称的编码-解码结构，通过跳跃连接（skip connections）将编码器的特征直接传递到解码器相应层，结合了全局上下文信息和局部空间细节。

1）Unet的主要结构如下：

图4-1：UNet网络结构

如图4-1所示，UNet网络结构主要包含一下几个部分：

（1）编码器（Encoder）：由若干个卷积层和最大池化层组成，逐层提取特征的高层语义信息。每个编码模块包括两次卷积操作（每次卷积后附加ReLU激活函数）和一次 2 × 2 2 \times 2 2×2 的最大池化操作。

（2）解码器（Decoder）：由上采样（Up-sampling）操作和卷积层组成，逐步恢复图像的空间分辨率，同时结合编码器传递的跳跃连接特征。上采样通过转置卷积或双线性插值实现，跳跃连接在解码过程中增强了细节恢复能力。

（3）跳跃连接（Skip Connections）：在编码器和解码器之间建立对应的连接，使模型能够结合高分辨率的空间特征和低分辨率的语义特征。

2）公式化描述：

（1）编码阶段：给定输入图像
X X X，编码器通过多个卷积操作和池化操作逐层提取特征：

F l = f conv ( F l − 1 ) , l ∈ { 1 , 2 , ... , L } \begin{array}{r} F^{l} = f_{\text{conv}}\left( F^{l - 1} \right),\quad l \in \left\{ 1,2,\ldots,L \right\}\ \end{array} Fl=fconv(Fl−1),l∈{1,2,...,L}

其中， F l F^{l} Fl 表示第 l l l 层特征， f conv f_{\text{conv}} fconv 表示卷积操作。

（2）解码阶段：解码器通过上采样和卷积逐步恢复特征：

G l = f upconv ( G l + 1 ) + F l \begin{array}{r} G^{l} = f_{\text{upconv}}\left( G^{l + 1} \right) + F^{l}\ \end{array} Gl=fupconv(Gl+1)+Fl

其中， f upconv f_{\text{upconv}} fupconv 表示上采样操作， + + + 表示跳跃连接的特征融合。

4.2 注意力机制

注意力机制通过引导网络关注更重要的特征区域，有效提升了模型的性能。本文引入三种典型的注意力机制（SENet、Spatial Attention 和 CBAM）对 Unet 模型进行改进。

4.2.1 SENet

Squeeze-and-Excitation Network（SENet）是一种通道注意力机制，通过对每个通道的全局信息建模，自适应调整不同通道的权重。具体结构如图4-2所示。

图4-2：SENet结构

核心流程：

（1）Squeeze：通过全局平均池化（Global Average Pooling,GAP）提取通道的全局信息：

z c = 1 H × W ∑ i = 1 H ∑ j = 1 W F c ( i , j ) \begin{array}{r} z_{c} = \frac{1}{H \times W}\sum_{i = 1}^{H}{\sum_{j = 1}^{W}F_{c}}(i,j)\ \end{array} zc=H×W1∑i=1H∑j=1WFc(i,j)

其中， z c z_{c} zc 是第 c c c 个通道的全局描述， H H H 和 W W W分别是特征图的高和宽。

（2）Excitation：通过两层全连接网络（含 ReLU 和 Sigmoid激活函数）生成通道的权重：

s c = σ ( W 2 δ ( W 1 z c ) ) \begin{array}{r} s_{c} = \sigma\left( W_{2}\delta\left( W_{1}z_{c} \right) \right) \end{array} sc=σ(W2δ(W1zc))

其中， δ \delta δ 表示 ReLU， σ \sigma σ 表示 Sigmoid， W 1 W_{1} W1 和 W 2 W_{2} W2为全连接层的权重。

（3）重加权：将权重应用到输入特征图：

F c ′ = s c ⋅ F c \begin{array}{r} F_{c}^{'} = s_{c} \cdot F_{c}\ \end{array} Fc′=sc⋅Fc

SENet 能够增强关键通道的特征表达能力，同时抑制冗余信息。

4.2.2 Spatial Attention

Spatial Attention 机制通过捕获空间上的重要区域来提升特征表达能力，与SENet 聚焦于通道不同，它专注于位置上的特征。

图4-3：Spatial Attention结构

核心流程：

（1）特征融合：通过对通道维度上的全局池化（平均池化和最大池化）生成二维特征图：

M = sigmoid ( conv ( [ AvgPool ( F ) , MaxPool ( F ) ] ) ) \begin{array}{r} M = \text{sigmoid}\left( \text{conv}\left( \left\lbrack \text{AvgPool}(F),\text{MaxPool}(F) \right\rbrack \right) \right)\ \end{array} M=sigmoid(conv([AvgPool(F),MaxPool(F)]))

其中， [ ⋅ , ⋅ ] \lbrack \cdot , \cdot \rbrack [⋅,⋅]表示通道上的连接操作， conv \text{conv} conv 是卷积操作。

（2）特征加权：通过生成的二维注意力图对输入特征进行加权：

F ′ = M ⋅ F \begin{array}{r} F^{'} = M \cdot F\ \end{array} F′=M⋅F

Spatial Attention 适用于增强边界信息和细节特征。

4.2.3 CBAM

Convolutional Block Attention Module（CBAM）将通道注意力和空间注意力结合，逐步优化特征表达。

图4-4：CBAM结构

核心流程：

（1）通道注意力：首先应用 SENet 的机制计算通道权重，并进行加权。

（2）空间注意力：接着通过 Spatial Attention模块计算空间权重，并再次加权。

（3）模块组合：将通道注意力和空间注意力模块串联，实现联合优化。

CBAM 具有较强的特征建模能力，能够同时关注到重要的通道和关键的空间区域。

4.3 模型改进方法

基于 Unet 模型和上述注意力机制，本文设计了三种改进模型：SE-Unet、Spatial Attention Unet 和 CBAM-Unet。改进方法的核心是将注意力模块嵌入到 Unet的跳跃连接或解码模块中，以增强特征表达能力。具体如下：

（1）注意力嵌入位置：将注意力模块插入到 Unet的跳跃连接中，以优化编码器特征与解码器特征的融合。在解码模块中插入注意力模块，提升解码过程对关键区域的关注能力。

（2）网络架构：

SE-Unet：在跳跃连接中加入 SENet模块，使编码器特征在传递到解码器之前进行通道加权。
Spatial Attention Unet：在解码模块的上采样输出后加入 Spatial Attention模块，优化细节还原。
CBAM-Unet：在跳跃连接和解码模块中同时加入 CBAM模块，实现通道和空间联合优化。

第五章评价指标

在医学图像分割任务中，模型的性能不仅需要衡量整体的准确性，还需要特别关注病灶区域的检测效果，因为在实际诊断中漏检或误检都会对患者治疗产生重大影响。为此，本文从多个维度对分割结果进行评估，采用以下评价指标：Accuracy、Dice系数、IoU（Intersection over Union）、Sensitivity 和 Specificity。

这些指标分别从全局正确性、病灶区域的重叠程度、分割边界的匹配程度以及对背景和病灶区域的分类能力等方面进行全面衡量。接下来，我们将结合数学公式和实际意义对这些指标逐一介绍。

5.1 Accuracy

Accuracy（准确率）是分割任务中最直观的评价指标，它衡量了预测结果中正确分类的像素占总像素的比例。公式定义如下：

Accuracy = T P + T N T P + T N + F P + F N \begin{array}{r} \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}\ \end{array} Accuracy=TP+TN+FP+FNTP+TN

其中：

TP（True Positive）：正确分类为病灶区域的像素数；

TN（TrueNegative）：正确分类为背景区域的像素数；

FP（False Positive）：错误分类为病灶区域的背景像素数；

FN（False Negative）：错误分类为背景区域的病灶像素数。

Accuracy表示所有像素中被正确分类的比例，适合用来衡量整体的分割效果。在数据分布均匀的情况下，Accuracy是一个有代表性的指标，数值越高表明分割性能越好。然而，在医学图像分割中，病灶区域通常仅占整个图像的一小部分，背景像素数量远多于病灶像素。这种数据不平衡可能导Accuracy偏高，即使模型无法很好地分割病灶区域，仍然会由于背景分类正确而获得较高的Accuracy。因此，Accuracy通常与其他指标结合使用，才能全面反映模型的性能。

5.2 Dice 系数

Dice 系数（Dice Coefficient）是衡量预测分割结果与真实分割结果的重叠程度的核心指标，尤其适用于评估目标区域较小的分割任务。其公式定义如下：

Dice = 2 ⋅ ∣ P ∩ G ∣ ∣ P ∣ + ∣ G ∣ = 2 ⋅ T P 2 ⋅ T P + F P + F N \begin{array}{r} \text{Dice} = \frac{2 \cdot |P \cap G|}{|P| + |G|} = \frac{2 \cdot TP}{2 \cdot TP + FP + FN}\ \end{array} Dice=∣P∣+∣G∣2⋅∣P∩G∣=2⋅TP+FP+FN2⋅TP

其中： P P P表示预测的病灶区域； G G G表示真实标注的病灶区域； ∣ P ∩ G ∣ |P \cap G| ∣P∩G∣表示预测与真实病灶区域的交集像素数。

Dice 系数的值范围为 [ 0 , 1 ] \lbrack 0,1\rbrack [0,1]，当预测与真实结果完全一致时，Dice 系数为 1 1 1，表示完美分割；当两者无重叠时，Dice 系数为 0 0 0。在医学图像分割中，Dice系数被广泛使用，因为它能够直接反映预测区域与真实区域的相似程度。尤其是在病灶区域占比很小时，Dice系数比 Accuracy更能突出模型对小目标的分割能力。例如，在皮肤病灶分割中，如果模型仅分割出一小部分病灶区域（FP和 FN 较大），Dice 系数会显著下降，提示模型需要进一步优化。

5.3 IoU（Intersection over Union）

IoU（交并比）是另一种衡量预测结果与真实结果重叠程度的指标，常用于评估分割模型的精度，其定义如下：

IoU = ∣ P ∩ G ∣ ∣ P ∪ G ∣ = T P T P + F P + F N \begin{array}{r} \text{IoU} = \frac{|P \cap G|}{|P \cup G|} = \frac{TP}{TP + FP + FN} \end{array} IoU=∣P∪G∣∣P∩G∣=TP+FP+FNTP

IoU表示预测分割结果与真实病灶区域之间交集的面积占联合面积的比例，其值范围为 [ 0 , 1 ] \lbrack 0,1\rbrack [0,1]。IoU更加严格，因为它同时考虑了假阳性（FP）和假阴性（FN）的影响。在医学图像分割中，IoU是评价分割模型的重要指标之一，与 Dice系数类似，但对分割边界的细节更为敏感。例如，IoU的数值越高，说明模型的预测结果与真实标注区域的匹配程度越高。对于皮肤病灶分割，IoU

能更准确地反映模型在复杂病灶边界上的分割能力。

5.4 Sensitivity

Sensitivity（灵敏度）又称召回率，用于衡量模型检测出病灶区域的能力，其定义如下：

Sensitivity = T P T P + F N \begin{array}{r} \text{Sensitivity} = \frac{TP}{TP + FN} \end{array} Sensitivity=TP+FNTP

Sensitivity反映了真实病灶区域中被模型正确检测的比例，数值越高，说明模型在病灶区域的检测上敏感。Sensitivity在医学图像分割中尤为重要，因为漏检（FN）可能导致患者病情被忽略，从而对后续治疗产生严重后果。例如，对于皮肤病灶分割任务，较高的Sensitivity 表示模型能够有效覆盖病灶区域。然而，过高的 Sensitivity可能会导致假阳性（FP）增加，即模型将背景区域误判为病灶区域。因此，Sensitivity通常需要与 Specificity 配合使用，以平衡漏检和误检。

5.5 Specificity

Specificity（特异性）是衡量模型正确识别背景区域能力的指标，其定义如下：

Specificity = T N T N + F P \begin{array}{r} \text{Specificity} = \frac{TN}{TN + FP} \end{array} Specificity=TN+FPTN

Specificity反映了背景区域中被正确分类的比例，数值越高，说明模型对背景区域的判断越准确。在医学图像分割中，Specificity能有效衡量模型对非病灶区域的抑制能力。高 Specificity表示模型误检（FP）较少，这对于减少不必要的干预和诊断错误至关重要。例如，对于皮肤病灶分割任务，如果模型的Specificity很高，说明它能够很好地区分病灶区域和背景区域。但如果单纯追求高Specificity 可能会导致病灶区域的漏检（FN 增加），因此需要与 Sensitivity平衡。

5.6 指标总结与实际意义

上述五个评价指标各有侧重：

Accuracy提供全局正确性的评估，适合衡量整体分割性能，但在病灶占比较小时可能存在偏差。

2.Dice 系数和 IoU强调分割结果与真实标注的重叠程度，是衡量分割质量的核心指标。

Sensitivity注重病灶区域的召回率，适用于评估模型的检出能力，避免漏检。
Specificity 强调背景区域的准确分类，用于衡量模型的误检能力。

在医学图像分割中，单一指标无法全面反映模型性能，因此需要结合多个指标进行综合评估。本文将通过这些指标，从整体分割性能、病灶区域检出能力和背景抑制能力等多个方面，分析和比较不同模型的实验结果。

第六章实验结果与分析

6.1 基准Unet模型的性能分析

1. 实验设置

使用基准Unet模型在ISIC皮肤病变数据集上进行训练和验证，训练50个epoch，评价指标包括Accuracy、Dice系数、IoU（Intersection over Union）、Sensitivity和Specificity。训练和验证过程中的损失函数为二元交叉熵损失（BCE Loss），并绘制了训练与验证曲线以可视化模型的性能。

2. 模型性能趋势

在训练过程中，各项指标（Accuracy、Dice、IoU、Sensitivity、Specificity）表现出较为稳定的提升趋势，具体分析如下：

（1）Accuracy 曲线分析

图6-1：原始模型准确率图

从图6-1中可以看出，训练准确率（Training Accuracy）和验证准确率（Validation Accuracy）在初期迅速上升，最终在第50个epoch左右趋于平稳。最终训练准确率达到0.96，验证准确率为0.94，说明模型整体分类能力较强，能够有效区分病灶区域和背景区域。验证准确率略低于训练准确率，这可能是由于数据增强和验证集中存在更复杂的病灶区域，导致模型在泛化时存在一定的性能损失。

（2）Dice系数曲线分析

图6-2：原始模型Dice图

根据图6-2分析可知，Dice系数在训练和验证中均表现出逐步上升的趋势，最终训练Dice系数接近0.91，验证Dice系数为0.83。Dice系数反映了病灶区域的重叠程度，相较于Accuracy更能体现分割效果的细节。验证Dice系数略低于训练Dice系数，表明模型在边界捕捉上存在进一步优化空间。

（3）IoU 曲线分析

图6-3：原始模型Iou图

根据图6-3分析可知，IoU（交并比）在训练中逐步提高，训练IoU最终达到0.89，验证IoU达到0.79。IoU对假阳性（FP）和假阴性（FN）更敏感，相较Dice更加苛刻。从验证IoU的数值可见，模型在病灶区域边界的处理能力有待进一步提升。

（4）Sensitivity 和 Specificity 曲线分析

图6-4：原始模型Sensitivity图

Sensitivity（灵敏度）表明模型对病灶区域的检测能力。根据图6-4分析可知，训练和验证的Sensitivity均表现出逐步提升的趋势，最终验证Sensitivity达到0.83，表明模型对病灶的检出能力较强，但仍存在漏检的可能。

图6-5：原始模型Specificity图

根据图6-5分析可知，Specificity（特异性）反映模型对背景区域的分类能力，训练和验证的Specificity始终保持在较高水平（接近0.99），说明模型在避免将背景误分类为病灶方面表现出色。

3. 定量分析

从训练和验证的关键指标（最终结果）总结如表6-1所示：
表6-1 原始模型训练结果

指标	训练集	验证集
Accuracy	0.96	0.94
Dice	0.91	0.83
IoU	0.89	0.79
Sensitivity	0.85	0.83
Specificity	0.99	0.98

（1）验证性能与训练性能差距：虽然验证性能略低于训练性能，但差距控制在合理范围内，表明模型具有良好的泛化能力。

（2）Sensitivity和Specificity对比：Sensitivity（0.83）低于Specificity（0.98），表明模型更擅长背景区域的识别，而对小目标病灶的漏检问题尚未完全解决。

4. 性能不足与改进方向

（1）对小目标病灶的敏感性不足：从Sensitivity的表现来看，模型在检测小面积、模糊边界的病灶区域时可能存在漏检。需要进一步引入针对小目标的特征增强模块。

（2）病灶边界细节不足：从Dice系数和IoU的表现来看，模型对病灶边界的捕捉能力有待提升，可能需要结合更精细的边界信息建模方法。

5. 结论

基准Unet模型在ISIC皮肤病变分割任务中表现出较高的分割准确性和良好的整体性能。其验证Accuracy达到0.94，验证Dice系数为0.83，验证IoU为0.79，表明模型具有良好的分割能力。然而，对小目标病灶的漏检和病灶边界的精确捕捉仍然是需要解决的主要问题。后续研究将基于基准Unet模型，结合注意力机制（如SENet、CBAM等），进一步提升分割性能。