【图像分割大模型】医学图像分割的大突破！Pact-Net 双分支网络碾压 SOTA，皮肤癌早筛精度飙升至 86.95%

前言

最近在顶刊《Computer Methods and Programs in Biomedicine》（2023 年 IF=7.0+）上看到一篇论文 ------《Pact-Net：Parallel CNNs and Transformers for Medical Image Segmentation》，读完直接被圈粉！这篇文章提出的 Pact-Net 网络，完美解决了医学图像分割中 "局部细节看不清、全局范围抓不准" 的痛点，在皮肤病变、息肉、细胞分割任务中全面碾压传统 U-Net 和 Transfuse 等 SOTA 模型，尤其是在 ISIC 2016 皮肤病变数据集上，关键指标 T-JAC 直接冲到 86.95%，把第二名远远甩在身后。

今天就带大家从头到脚拆解这个神仙模型，从研究背景、核心设计到实验结果，用最通俗的语言讲明白 Pact-Net 到底牛在哪。无论你是医学 AI 领域的研究者、刚入门的算法小白，还是对皮肤癌早筛技术感兴趣的开发者，这篇文章都能让你收获满满～下面就让我们正式开始吧！

一、先聊聊为什么要做医学图像分割？这事儿真能救命！

在开始讲模型之前，咱们先搞清楚一个核心问题：医学图像分割到底有啥用？为啥学术界和工业界都在疯狂卷这个方向？

拿皮肤癌来说，它是全球最常见的癌症之一，而黑色素瘤又是其中最致命的类型。数据显示，如果黑色素瘤能早期诊断，患者 5 年生存率能达到 90%；可一旦延误，生存率会暴跌到 23%（相当于每 4 个人里只有 1 个能活过 5 年）。但现实是，传统的皮肤癌诊断全靠 dermatologist（皮肤科医生）用肉眼看 ------ 医生通过 dermoscopy（皮肤镜）观察皮肤病变的形态、颜色、边界，再凭经验判断是否为恶性。可即便如此，专业医生的诊断准确率也只有 60% 左右，很多早期小病变会被漏诊，等发现时已经晚了。

这时候，医学图像分割就派上大用场了。它能自动从皮肤镜图像中把病变区域 "抠" 出来，精确标注病变的边界、大小、形状，相当于给医生装上了 "AI 放大镜"。医生再也不用对着模糊的图像反复琢磨 "这到底是不是病变"，直接看 AI 生成的分割结果就能快速判断，大大提高诊断效率和准确率。

但问题来了：医学图像分割真的太难了！尤其是皮肤病变分割，简直是 AI 的 "地狱级任务"，主要难在这三点：

图像质量差：皮肤镜图像对比度极低，病变和周围健康皮肤颜色差别很小，有时候肉眼都分不清边界；

干扰因素多：图像里可能有毛发遮挡、气泡反光、标记物残留，这些都会让 AI 认错病变范围；

病变多变：不同患者的病变大小、形状、位置千差万别，有的像芝麻一样小，有的能占满半张脸，AI 很难 "一视同仁"。

以前大家解决这个问题，要么用 CNN（卷积神经网络），要么用 Transformer。但这俩都有致命缺点：

CNN 的短板：擅长抓局部细节（比如病变边缘的纹理），但看不远 ------ 没法获取全局上下文信息，经常把相邻的健康皮肤误判成病变（这叫 "过分割"），或者漏判小病变（这叫 "欠分割"）；

Transformer 的短板：擅长看全局（比如病变在整个皮肤上的位置），但看不清细节 ------ 局部特征提取能力弱，分割出来的病变边界毛毛糙糙，跟实际边界差很远。

那有没有一种方法，能把 CNN 的 "局部眼" 和 Transformer 的 "全局眼" 结合起来？Pact-Net 就是为解决这个问题而生的 ------ 它用并行双分支结构同时抓局部和全局特征，再通过一个超高效的融合模块把两者捏合在一起，直接把医学图像分割的精度拉到了新高度。下图为该模型的图像处理结果：

二、Pact-Net 核心设计拆解：从输入到输出，每一步都藏着巧思

Pact-Net 的整体架构其实很清晰，其实就是一条 **"特征提取→特征融合→结果输出"**的流水线。咱们从左到右一步步看，搞明白每个模块的作用。

2.1 输入层：图像预处理，给 AI"喂" 好数据

工欲善其事，必先利其器。Pact-Net 处理图像时，先做了两件关键的预处理：

分辨率统一：不管输入图像是多大尺寸，都统一缩放成 192×256（皮肤病变任务）、352×352（息肉任务）或 256×256（细胞任务）。这样做是为了让模型训练更稳定，避免因图像大小不一导致的训练波动；

数据增强：通过垂直翻转、水平翻转、平移、缩放旋转、随机亮度调整等操作，把训练数据 "变多"。医学数据集本来就少，比如 ISIC 2016 只有 1279 张图，数据增强能有效避免模型过拟合，让 AI 在不同场景下都能稳定工作。

预处理后的图像，会同时送入两个并行的分支 ------CNN 分支和 Transformer 分支，这就是 Pact-Net 最核心的创新点之一：双分支编码器。

2.2 双分支编码器：左手 CNN 抓细节，右手 Transformer 看全局

咱们先明确一个概念：编码器的作用是**"从图像中提取有用的特征"**。Pact-Net 的编码器不是一个，而是两个，而且是并行工作的 ------ 就像两个人同时看一张图，一个人专注看细节（比如病变上的小黑点），另一个人专注看整体（比如病变在左脸颊还是右脸颊），最后把两人的发现结合起来，就能得到更全面的信息。

2.2.1 CNN 分支：用 ResNet 做 "局部侦探"，不放过任何细节

CNN 分支选择的基础模型是 ResNet（残差网络），但不是完整版的 ResNet，而是做了一点小改动：删除了 ResNet 原有的最后一个卷积块。

为什么要删？因为 ResNet 的最后一个块参数很多，但经过多次下采样后，很多参数都是 0，相当于 "无效计算"。Pact-Net 只用了 ResNet 的第 2、3、4 个块，让它们分别输出分辨率为原始图像 1/4、1/8、1/16 的特征图。

举个例子：如果输入图像是 192×256，那么 CNN 分支会输出 3 组特征图，尺寸分别是 48×64（192/4=48，256/4=64）、24×32（192/8=24）、12×16（192/16=12）。这三组特征图都饱含局部细节信息 ------ 比如 48×64 的特征图能看清病变的边缘纹理，12×16 的特征图能捕捉病变的局部结构。

ResNet 的另一个好处是有残差连接，能解决深度网络的梯度消失问题。简单说就是：即便网络很深，前面层学到的细节特征也不会在后面层 "弄丢"，保证 CNN 分支能一直专注于提取高质量的局部特征。

2.2.2 Transformer 分支：用 Swin Transformer 做 "全局导航"，定位更精准

Transformer 分支选择的基础模型是 Swin Transformer（窗口注意力 Transformer），这也是目前计算机视觉领域的 "明星模型"。和 CNN 分支一样，Pact-Net 也对 Swin Transformer 做了裁剪：删除最后一个块，只用前 3 个块。

Swin Transformer 的核心优势是窗口注意力机制 （W-MSA）和移位窗口注意力机制（SW-MSA）。咱们用通俗的话解释一下：

普通 Transformer 看图像时，会把整个图像当成一个整体计算注意力，这样虽然能看全局，但计算量巨大；

Swin Transformer 不一样，它把图像分成一个个小窗口（比如 8×8 的窗口），先在每个窗口内计算注意力（W-MSA），再把窗口移位后计算跨窗口注意力（SW-MSA）。这样既保证了全局信息的获取，又大大减少了计算量，让模型能在 GPU 上跑起来。

Swin Transformer 分支同样输出 3 组特征图，分辨率和 CNN 分支完全对应 ------1/4、1/8、1/16。但这些特征图的侧重点和 CNN 分支不同：它们包含的是全局上下文信息，比如病变在整个皮肤中的位置、病变和周围器官（如眼睛、鼻子）的相对关系。

2.2.3 双分支的互补性：1+1 远大于 2

这里有个关键问题：为什么一定要用并行双分支？串行（先 CNN 后 Transformer）不行吗？

论文里做了对比实验：如果用串行结构，先让 CNN 提取局部特征，再让 Transformer 处理这些特征，会导致 "局部特征被全局特征覆盖"------Transformer 在处理全局信息时，会不小心把 CNN 提取的细节弄丢。而并行结构能让两个分支独立工作，各自保留最擅长的特征，不会互相干扰。

后续的消融实验也证明了这一点：双分支编码器的 ACC（准确率）达到 94.35%，JAC（Jaccard 指数）达到 79.31%；而单 CNN 分支的 ACC 只有 93.56%，JAC 只有 77.15%；单 Transformer 分支更惨，ACC 只有 87.44%，JAC 直接跌到 51.99%。这说明双分支的互补性带来的提升是实实在在的，1+1 真的远大于 2。

2.3 CSMF 融合模块：把 CNN 和 Transformer 的特征 "捏" 成黄金搭档

双分支编码器输出了 3 组对应分辨率的特征（CNN 的局部特征 + Transformer 的全局特征），但这两组特征就像 "两门不同语言的报告"，直接放在一起用肯定不行 ------ 得有个 "翻译官" 把它们翻译成同一种语言，再整合出一份更全面的报告。这个 "翻译官" 就是 Pact-Net 的另一个核心创新：CSMF 融合模块（Channel-Space and Multi-Scale Fusion Module，通道 - 空间 - 多尺度融合模块）。

CSMF 由两个子模块组成：CSF（通道 - 空间融合子模块）和SSMF（自选择多尺度融合子模块）。咱们先看 CSF，它负责 "翻译"；再看 SSMF，它负责 "整合"。

2.3.1 CSF 子模块：用注意力机制做 "翻译"，筛选关键信息

CSF 的作用是从 "通道" 和 "空间" 两个维度，把 CNN 的局部特征和 Transformer 的全局特征 "翻译" 成可融合的形式。咱们先搞懂两个基本概念：

通道注意力：判断哪些 "特征通道" 是有用的。比如在皮肤病变图像中，"色素通道" 很重要，"背景噪声通道" 没用，通道注意力会给有用通道加权重，没用通道减权重；

空间注意力：判断图像中哪些 "区域" 是有用的。比如病变区域有用，毛发遮挡区域没用，空间注意力会给有用区域加权重，没用区域减权重。

CSF 的具体操作分三步：

第一步：给双分支特征分别加注意力。

对 CNN 的局部特征（记为 t^i）：先通过 SE-Block （通道注意力模块）生成 "局部 - 通道特征"，再通过 CBAM（空间注意力模块）生成 "局部 - 空间特征"；

对 Transformer 的全局特征（记为 g^i）：同样先过 SE-Block 生成 "全局 - 通道特征"，再过 CBAM生成 "全局 - 空间特征"。

这样一来，我们就有了 4 类精细化特征：局部 - 通道 、局部 - 空间 、全局 - 通道 、全局 - 空间。

**第二步：计算交互特征。**把 CNN 的局部优化特征和 Transformer 的全局优化特征通过 3×3 卷积层相乘，得到一个 "交互特征"（记为 b^i）。这个特征的作用是捕捉两个分支的关联 ------ 比如 "病变边缘"（局部）和 "病变整体位置"（全局）的对应关系，避免两个分支的特征 "各说各的"。

**第三步：残差级联融合。**把前面得到的 "局部 - 空间特征"、"全局 - 空间特征" 和 "交互特征" 通过残差块拼接起来，得到 CSF 的输出特征（记为 f^i）。残差连接在这里很重要，能避免融合过程中细节特征的丢失 ------ 比如不会因为融合全局特征，就把病变的微小边缘弄丢了。

通过 CSF 的处理，CNN 和 Transformer 的特征终于 "说上话了"，但还有一个问题：不同分辨率的特征之间存在 "语义 gap"（比如 1/16 分辨率的特征很抽象，1/4 分辨率的特征很具体），直接送给解码器会导致分割结果 "断层"。这时候就需要 SSMF 子模块出场了。

2.3.2 SSMF 子模块：用多尺度融合做 "整合"，消除语义 gap

SSMF 的作用是把 CSF 输出的 3 组不同分辨率特征（1/4、1/8、1/16）整合到同一语义层面，让解码器能 "顺畅阅读"。

举个例子：假设我们要得到 1/8 分辨率的融合特征，SSMF 会做两件事：

把 1/4 分辨率的特征通过 3×3 卷积下采样到 1/8，这样它的语义就和 1/8 分辨率的原始特征更接近；

把 1/16 分辨率的特征通过 3×3 卷积上采样到 1/8，同样对齐语义；

把这三个 1/8 分辨率的特征（原 1/8 特征 + 下采样后的 1/4 特征 + 上采样后的 1/16 特征）通过特征叠加块融合，得到最终的 1/8 分辨率融合特征。

这个过程的核心是**"自适应选择"**------ 模型会自动学习不同尺度特征的权重，比如在病变边界区域，会给 1/4 分辨率的细节特征加更高权重；在病变内部区域，会给 1/16 分辨率的全局特征加更高权重。这样融合出来的特征，既有细节又有全局，完美适配解码器的需求。

2.3.3 CSMF 的优势：比传统融合方法强在哪？

传统的特征融合方法要么直接相加，要么直接相乘，根本不考虑特征的有用性和语义差异。而 CSMF 有两个明显优势：

注意力筛选：通过通道 + 空间注意力，只保留有用特征，剔除无用噪声，融合效率比传统方法提升 4%-5%；

多尺度对齐：通过上 / 下采样消除语义 gap，让融合特征在全网络中语义一致，分割边界精度提升 2%-3%。

论文中的消融实验也证明了这一点：用 CSMF 的模型 JAC 达到 79.31%，而不用 CSMF、直接相加的模型 JAC 只有 74.56%，差距非常明显。

2.4 解码器与损失函数：从融合特征到分割结果，精准优化

CSMF 输出 3 组融合特征后，会送入解码器。解码器的结构比较常规，主要通过 3 次上采样操作，把融合特征的分辨率恢复到原始图像大小（比如从 12×16 恢复到 192×256），同时通过 "跳连接" 把编码器的特征直接传给解码器，进一步补充细节信息。

但 Pact-Net 的解码器有个小创新：深度监督。它不是只在解码器的最后输出层计算损失，而是在 3 个 CSMF 输出层和 3 个解码器中间层共 6 个位置计算损失。这样做能让模型在训练过程中更早发现错误，避免训练 "走偏"------ 比如如果某个中间层的分割结果漏了小病变，深度监督会及时调整参数，让后续层不再犯同样的错。

损失函数方面，Pact-Net 用了**"加权 IOU 损失 + Binary Cross Entropy（BCE）损失"** 的组合：

加权 IOU 损失：比传统 IOU 损失更关注病变边缘。它会给边缘像素加更高权重，让模型在分割时更精准地定位病变边界；

BCE 损失：适配医学图像分割的 "二分类任务"（像素要么是病变，要么是健康皮肤），能有效区分两类像素。

组合损失函数的公式是：。实验证明，这个组合比单一损失函数的效果好得多 ------ 用组合损失的模型 DICE（Dice 系数）达到 86.23%，而只用 IOU 损失的模型 DICE 只有 84.32%。

三、实验结果：碾压 SOTA！Pact-Net 在三大任务中表现封神

讲完了模型设计，咱们最关心的肯定是：Pact-Net 到底有多厉害？论文在三个医学图像分割任务上做了实验：皮肤病变分割、息肉分割、细胞分割。每个任务都用了多个公开数据集，结果只能用 "封神" 来形容 ------ 全面碾压 U-Net、U-Net++、Transfuse 等 SOTA 模型。

3.1 皮肤病变分割：ISIC 三大数据集全面夺冠

皮肤病变分割是 Pact-Net 的主要目标任务，实验用了 ISIC 系列的三个权威数据集：ISIC 2016、ISIC 2017、ISIC 2018。这三个数据集是国际皮肤成像协作组织（ISIC）发布的，包含了来自全球多个医疗中心的皮肤镜图像，是皮肤病变分割领域的 "金标准"。

实验的主要评价指标是T-JAC（阈值 Jaccard）------ 这是 ISIC 挑战赛的官方主指标，规则是：如果 JAC≥0.65，就算有效分割；否则算无效分割。T-JAC 越高，说明模型的稳定分割能力越强。

咱们先看 ISIC 2018 数据集的对比结果（因为这个数据集最大，最有说服力）：

模型	T-JAC（%）	JAC（%）	DICE（%）	ACC（%）
U-Net	77.56	77.33	85.45	94.01
U-Net++	78.51	78.56	87.61	94.98
Transfuse	81.01	84.47	90.89	95.48
Pact-Net（Ours）	84.14	84.32	90.75	96.91

从表格能看出，Pact-Net 的 T-JAC 达到 84.14%，比第二名 Transfuse 高 3.13 个百分点，比传统 U-Net 高 6.58 个百分点。这意味着在 ISIC 2018 的 260 张测试图中，Pact-Net 能正确分割的图像数量比 Transfuse 多 8 张左右 ------ 别小看这 8 张，在临床诊断中，每多正确分割一张，就可能多挽救一个生命。

再看 ISIC 2016 和 ISIC 2017 数据集：

ISIC 2016：Pact-Net 的 T-JAC 达到 84.06%，比第二名高 2.93 个百分点；

ISIC 2017：Pact-Net 的 T-JAC 达到 72.99%，比第二名高 1.98 个百分点。

而且 Pact-Net 在其他指标上也全面领先：ACC（准确率）达到 96.91%，意味着每 100 个像素中，只有 3 个会被误判；DICE（Dice 系数）达到 90.75%，意味着分割结果和医生标注的金标准（GT）重合度极高。

论文还做了可视化对比，从图中能明显看出：Pact-Net 分割出来的病变边界最接近 GT，尤其是在有毛发遮挡、低对比度的复杂场景下 ------ 比如某张图像中病变被毛发挡住了一部分，U-Net 和 Transfuse 都漏判了被遮挡的区域，而 Pact-Net 通过融合局部细节（毛发间隙的病变纹理）和全局信息（病变整体形态），精准分割出了完整的病变区域。

3.2 息肉分割：Kvasir 数据集 DICE 突破 90%

为了验证 Pact-Net 的泛化能力（能不能处理其他类型的医学图像），论文还在息肉分割任务上做了实验，用了 Kvasir 这个权威的息肉数据集（包含 1000 张结肠镜下的息肉图像）。

对比结果如下：

模型	DICE（%）	IOU（%）
U-Net	89.55	83.51
U-Net++	89.65	83.71
Transfuse	90.26	83.90
Pact-Net（Ours）	90.61	84.71

Pact-Net 的 DICE 达到 90.61%，IOU 达到 84.71%，比 Transfuse 分别高 0.35 和 0.81 个百分点。息肉分割的难点在于息肉和肠道黏膜的颜色很接近，边界模糊，但 Pact-Net 通过 CNN 抓息肉的局部纹理（比如息肉表面的褶皱）和 Transformer 抓息肉的全局位置（比如息肉在肠道的哪个部位），依然实现了高精度分割。

3.3 细胞分割：DSB2018 数据集 IOU 接近 80%

最后，论文在细胞分割任务上做了实验，用了 DSB2018 数据集（Kaggle 细胞分割竞赛的数据集，包含 670 张细胞图像）。细胞分割的难点在于细胞数量多、大小不一，而且细胞之间可能重叠。

对比结果如下：

模型	DICE（%）	IOU（%）
U-Net	85.57	76.47
U-Net++	86.02	77.20
Transfuse	87.10	78.59
Pact-Net（Ours）	87.53	79.28

Pact-Net 的 DICE 达到 87.53%，IOU 达到 79.28%，比 Transfuse 分别高 0.43 和 0.69 个百分点。这说明 Pact-Net 不仅能处理皮肤病变、息肉这种 "大目标"，还能处理细胞这种 "小目标"，泛化能力极强。

四、消融实验：搞懂每个模块到底有多重要

一篇好的论文不仅要展示模型的性能，还要证明每个模块的必要性 ------ 也就是**"ablation study（消融实验）"**。这篇论文通过消融实验，逐一验证了双分支编码器、CSF 子模块、SSMF 子模块的重要性。

4.1 双分支编码器的必要性

实验对比了 "单 CNN 分支"、"单 Transformer 分支" 和 "双分支" 的性能：

模型	ACC（%）	JAC（%）	DICE（%）
单 CNN 分支	93.56	77.15	85.51
单 Transformer 分支	87.44	51.99	65.53
双分支（Ours）	94.35	79.31	86.23

结果很明显：双分支的性能全面优于单分支。尤其是单 Transformer 分支，JAC 只有 51.99%，说明纯 Transformer 在局部特征提取上真的不行；而双分支通过互补，把 JAC 提升了 27.32 个百分点，充分证明了双分支结构的必要性。

4.2 CSF 和 SSMF 子模块的必要性

实验对比了 "无 CSF"、"无 SSMF" 和 "完整 CSMF" 的性能：

模型	JAC（%）	DICE（%）
基础模型（BM）	72.34	81.58
BM+CSF	74.56	84.32
BM+SSMF	75.60	85.05
BM+CSF+SSMF（Ours）	79.31	86.23

从结果能看出：

加了 CSF 后，JAC 提升了 2.22 个百分点，说明通道 - 空间注意力能有效筛选关键特征；

加了 SSMF 后，JAC 提升了 3.26 个百分点，说明多尺度融合能有效消除语义 gap；

同时加 CSF 和 SSMF 后，JAC 提升了 6.97 个百分点，说明两个子模块是 "相辅相成" 的，缺一不可。

4.3 CNN 分支基础模型的选择

实验对比了 ResNet、VGG、MobileNet、ConvNeXt 等常用 CNN 模型作为分支的性能：

模型	ACC（%）	JAC（%）	DICE（%）
VGG	90.23	75.42	77.47
MobileNet	93.89	77.74	85.44
ConvNeXt（tiny）	91.53	70.86	79.98
ResNet（Ours）	94.35	79.31	86.23

结果显示，ResNet 作为 CNN 分支的性能最好。原因是 ResNet 的残差连接能更好地保留局部细节，而且和 Swin Transformer 的兼容性更强 ------ 其他模型要么细节保留不够（如 VGG），要么计算量太大（如 ConvNeXt），只有 ResNet 能在 "细节保留" 和 "计算效率" 之间找到平衡。

五、Pact-Net 的局限性与未来方向

虽然 Pact-Net 的性能很惊艳，但它也不是完美的。论文诚实地指出了三个局限性，这也是未来可以优化的方向：

5.1 小数据集泛化能力弱

Pact-Net 在大规模数据集（如 ISIC 2017，2750 张图）上表现很好，但在小数据集或未训练过的数据集上表现一般。比如在 ETIS 息肉数据集（只有 192 张图）上，Pact-Net 的 IOU 只有 63.58%，远低于在 Kvasir 数据集上的 84.71%。

未来方向：引入迁移学习，用大规模通用医学数据集预训练模型，再用小数据集微调；或者设计轻量化的 Transformer 层，减少模型对数据量的依赖。

5.2 复杂场景分割精度不足

在极低对比度、严重毛发遮挡的复杂场景下，Pact-Net 的分割精度依然有提升空间。比如在 ISIC 2017 数据集中，JAC<0.65 的无效分割图像有 91 张，占测试集的 15.17%。

未来方向：设计 "边界聚焦" 的损失函数，专门针对病变边界进行优化；或者增加一个辅助的边界学习网络，让模型专门学习病变边界的特征。

5.3 训练效率低

Pact-Net 的双分支结构和 CSMF 模块虽然性能强，但计算量也很大 ------ 在 NVIDIA RTX 2080Ti GPU 上，训练一轮 ISIC 2018 数据集需要 15 分钟左右，比 U-Net 慢了近 5 分钟。

未来方向：结合云计算技术，把模型训练部署在云端 GPU 集群上，提升训练速度；或者对模型进行剪枝、量化，减少冗余参数，让模型在本地设备上也能快速训练和推理。

总结

总的来说，Pact-Net 是医学图像分割领域的一个重要突破，它不仅为皮肤癌早筛提供了更精准的 AI 工具，也为其他医学图像分割任务提供了可借鉴的框架。相信在不久的将来，随着模型的不断优化，Pact-Net 这类 AI 技术会走进更多医院，帮助医生更快速、更准确地诊断疾病，挽救更多生命。

如果你对 Pact-Net 感兴趣，强烈建议去读一下原文（论文标题：Pact-Net: Parallel CNNs and Transformers for medical image segmentation，发表在 Computer Methods and Programs in Biomedicine 242 (2023)）。