【图像分割大模型】医学图像分割的大突破!Pact-Net 双分支网络碾压 SOTA,皮肤癌早筛精度飙升至 86.95%

目录

前言

一、先聊聊为什么要做医学图像分割?这事儿真能救命!

[二、Pact-Net 核心设计拆解:从输入到输出,每一步都藏着巧思](#二、Pact-Net 核心设计拆解:从输入到输出,每一步都藏着巧思)

[2.1 输入层:图像预处理,给 AI"喂" 好数据](#2.1 输入层:图像预处理,给 AI"喂" 好数据)

[2.2 双分支编码器:左手 CNN 抓细节,右手 Transformer 看全局](#2.2 双分支编码器:左手 CNN 抓细节,右手 Transformer 看全局)

[2.2.1 CNN 分支:用 ResNet 做 "局部侦探",不放过任何细节](#2.2.1 CNN 分支:用 ResNet 做 "局部侦探",不放过任何细节)

[2.2.2 Transformer 分支:用 Swin Transformer 做 "全局导航",定位更精准](#2.2.2 Transformer 分支:用 Swin Transformer 做 "全局导航",定位更精准)

[2.2.3 双分支的互补性:1+1 远大于 2](#2.2.3 双分支的互补性:1+1 远大于 2)

[2.3 CSMF 融合模块:把 CNN 和 Transformer 的特征 "捏" 成黄金搭档](#2.3 CSMF 融合模块:把 CNN 和 Transformer 的特征 "捏" 成黄金搭档)

[2.3.1 CSF 子模块:用注意力机制做 "翻译",筛选关键信息](#2.3.1 CSF 子模块:用注意力机制做 "翻译",筛选关键信息)

[2.3.2 SSMF 子模块:用多尺度融合做 "整合",消除语义 gap](#2.3.2 SSMF 子模块:用多尺度融合做 "整合",消除语义 gap)

[2.3.3 CSMF 的优势:比传统融合方法强在哪?](#2.3.3 CSMF 的优势:比传统融合方法强在哪?)

[2.4 解码器与损失函数:从融合特征到分割结果,精准优化](#2.4 解码器与损失函数:从融合特征到分割结果,精准优化)

[三、实验结果:碾压 SOTA!Pact-Net 在三大任务中表现封神](#三、实验结果:碾压 SOTA!Pact-Net 在三大任务中表现封神)

[3.1 皮肤病变分割:ISIC 三大数据集全面夺冠](#3.1 皮肤病变分割:ISIC 三大数据集全面夺冠)

[3.2 息肉分割:Kvasir 数据集 DICE 突破 90%](#3.2 息肉分割:Kvasir 数据集 DICE 突破 90%)

[3.3 细胞分割:DSB2018 数据集 IOU 接近 80%](#3.3 细胞分割:DSB2018 数据集 IOU 接近 80%)

四、消融实验:搞懂每个模块到底有多重要

[4.1 双分支编码器的必要性](#4.1 双分支编码器的必要性)

[4.2 CSF 和 SSMF 子模块的必要性](#4.2 CSF 和 SSMF 子模块的必要性)

[4.3 CNN 分支基础模型的选择](#4.3 CNN 分支基础模型的选择)

[五、Pact-Net 的局限性与未来方向](#五、Pact-Net 的局限性与未来方向)

[5.1 小数据集泛化能力弱](#5.1 小数据集泛化能力弱)

[5.2 复杂场景分割精度不足](#5.2 复杂场景分割精度不足)

[5.3 训练效率低](#5.3 训练效率低)

总结


前言

最近在顶刊《Computer Methods and Programs in Biomedicine》(2023 年 IF=7.0+)上看到一篇论文 ------《Pact-Net:Parallel CNNs and Transformers for Medical Image Segmentation》,读完直接被圈粉!这篇文章提出的 Pact-Net 网络,完美解决了医学图像分割中 "局部细节看不清、全局范围抓不准" 的痛点,在皮肤病变、息肉、细胞分割任务中全面碾压传统 U-Net 和 Transfuse 等 SOTA 模型,尤其是在 ISIC 2016 皮肤病变数据集上,关键指标 T-JAC 直接冲到 86.95%,把第二名远远甩在身后。

今天就带大家从头到脚拆解这个神仙模型,从研究背景、核心设计到实验结果,用最通俗的语言讲明白 Pact-Net 到底牛在哪。无论你是医学 AI 领域的研究者、刚入门的算法小白,还是对皮肤癌早筛技术感兴趣的开发者,这篇文章都能让你收获满满~下面就让我们正式开始吧!


一、先聊聊为什么要做医学图像分割?这事儿真能救命!

在开始讲模型之前,咱们先搞清楚一个核心问题:医学图像分割到底有啥用?为啥学术界和工业界都在疯狂卷这个方向?

拿皮肤癌来说,它是全球最常见的癌症之一,而黑色素瘤又是其中最致命的类型。数据显示,如果黑色素瘤能早期诊断,患者 5 年生存率能达到 90%;可一旦延误,生存率会暴跌到 23%(相当于每 4 个人里只有 1 个能活过 5 年)。但现实是,传统的皮肤癌诊断全靠 dermatologist(皮肤科医生)用肉眼看 ------ 医生通过 dermoscopy(皮肤镜)观察皮肤病变的形态、颜色、边界,再凭经验判断是否为恶性。可即便如此,专业医生的诊断准确率也只有 60% 左右,很多早期小病变会被漏诊,等发现时已经晚了。

这时候,医学图像分割就派上大用场了。它能自动从皮肤镜图像中把病变区域 "抠" 出来,精确标注病变的边界、大小、形状,相当于给医生装上了 "AI 放大镜"。医生再也不用对着模糊的图像反复琢磨 "这到底是不是病变",直接看 AI 生成的分割结果就能快速判断,大大提高诊断效率和准确率。

但问题来了:医学图像分割真的太难了!尤其是皮肤病变分割,简直是 AI 的 "地狱级任务",主要难在这三点:

  1. 图像质量差:皮肤镜图像对比度极低,病变和周围健康皮肤颜色差别很小,有时候肉眼都分不清边界;
  2. 干扰因素多:图像里可能有毛发遮挡、气泡反光、标记物残留,这些都会让 AI 认错病变范围;
  3. 病变多变:不同患者的病变大小、形状、位置千差万别,有的像芝麻一样小,有的能占满半张脸,AI 很难 "一视同仁"。

以前大家解决这个问题,要么用 CNN(卷积神经网络),要么用 Transformer。但这俩都有致命缺点:

  • CNN 的短板:擅长抓局部细节(比如病变边缘的纹理),但看不远 ------ 没法获取全局上下文信息,经常把相邻的健康皮肤误判成病变(这叫 "过分割"),或者漏判小病变(这叫 "欠分割");
  • Transformer 的短板:擅长看全局(比如病变在整个皮肤上的位置),但看不清细节 ------ 局部特征提取能力弱,分割出来的病变边界毛毛糙糙,跟实际边界差很远。

那有没有一种方法,能把 CNN 的 "局部眼" 和 Transformer 的 "全局眼" 结合起来?Pact-Net 就是为解决这个问题而生的 ------ 它用并行双分支结构同时抓局部和全局特征,再通过一个超高效的融合模块把两者捏合在一起,直接把医学图像分割的精度拉到了新高度。下图为该模型的图像处理结果:

二、Pact-Net 核心设计拆解:从输入到输出,每一步都藏着巧思

Pact-Net 的整体架构其实很清晰,其实就是一条 **"特征提取→特征融合→结果输出"**的流水线。咱们从左到右一步步看,搞明白每个模块的作用。

2.1 输入层:图像预处理,给 AI"喂" 好数据

工欲善其事,必先利其器。Pact-Net 处理图像时,先做了两件关键的预处理:

  • 分辨率统一:不管输入图像是多大尺寸,都统一缩放成 192×256(皮肤病变任务)、352×352(息肉任务)或 256×256(细胞任务)。这样做是为了让模型训练更稳定,避免因图像大小不一导致的训练波动;
  • 数据增强:通过垂直翻转、水平翻转、平移、缩放旋转、随机亮度调整等操作,把训练数据 "变多"。医学数据集本来就少,比如 ISIC 2016 只有 1279 张图,数据增强能有效避免模型过拟合,让 AI 在不同场景下都能稳定工作。

预处理后的图像,会同时送入两个并行的分支 ------CNN 分支和 Transformer 分支,这就是 Pact-Net 最核心的创新点之一:双分支编码器

2.2 双分支编码器:左手 CNN 抓细节,右手 Transformer 看全局

咱们先明确一个概念:编码器的作用是**"从图像中提取有用的特征"**。Pact-Net 的编码器不是一个,而是两个,而且是并行工作的 ------ 就像两个人同时看一张图,一个人专注看细节(比如病变上的小黑点),另一个人专注看整体(比如病变在左脸颊还是右脸颊),最后把两人的发现结合起来,就能得到更全面的信息。

2.2.1 CNN 分支:用 ResNet 做 "局部侦探",不放过任何细节

CNN 分支选择的基础模型是 ResNet(残差网络),但不是完整版的 ResNet,而是做了一点小改动:删除了 ResNet 原有的最后一个卷积块。

为什么要删?因为 ResNet 的最后一个块参数很多,但经过多次下采样后,很多参数都是 0,相当于 "无效计算"。Pact-Net 只用了 ResNet 的第 2、3、4 个块,让它们分别输出分辨率为原始图像 1/4、1/8、1/16 的特征图。

举个例子:如果输入图像是 192×256,那么 CNN 分支会输出 3 组特征图,尺寸分别是 48×64(192/4=48,256/4=64)、24×32(192/8=24)、12×16(192/16=12)。这三组特征图都饱含局部细节信息 ------ 比如 48×64 的特征图能看清病变的边缘纹理,12×16 的特征图能捕捉病变的局部结构。

ResNet 的另一个好处是有残差连接,能解决深度网络的梯度消失问题。简单说就是:即便网络很深,前面层学到的细节特征也不会在后面层 "弄丢",保证 CNN 分支能一直专注于提取高质量的局部特征。

2.2.2 Transformer 分支:用 Swin Transformer 做 "全局导航",定位更精准

Transformer 分支选择的基础模型是 Swin Transformer(窗口注意力 Transformer),这也是目前计算机视觉领域的 "明星模型"。和 CNN 分支一样,Pact-Net 也对 Swin Transformer 做了裁剪:删除最后一个块,只用前 3 个块。

Swin Transformer 的核心优势是窗口注意力机制 (W-MSA)和移位窗口注意力机制(SW-MSA)。咱们用通俗的话解释一下:

  • 普通 Transformer 看图像时,会把整个图像当成一个整体计算注意力,这样虽然能看全局,但计算量巨大;
  • Swin Transformer 不一样,它把图像分成一个个小窗口(比如 8×8 的窗口),先在每个窗口内计算注意力(W-MSA),再把窗口移位后计算跨窗口注意力(SW-MSA)。这样既保证了全局信息的获取,又大大减少了计算量,让模型能在 GPU 上跑起来。

Swin Transformer 分支同样输出 3 组特征图,分辨率和 CNN 分支完全对应 ------1/4、1/8、1/16。但这些特征图的侧重点和 CNN 分支不同:它们包含的是全局上下文信息,比如病变在整个皮肤中的位置、病变和周围器官(如眼睛、鼻子)的相对关系。

2.2.3 双分支的互补性:1+1 远大于 2

这里有个关键问题:为什么一定要用并行双分支?串行(先 CNN 后 Transformer)不行吗?

论文里做了对比实验:如果用串行结构,先让 CNN 提取局部特征,再让 Transformer 处理这些特征,会导致 "局部特征被全局特征覆盖"------Transformer 在处理全局信息时,会不小心把 CNN 提取的细节弄丢。而并行结构能让两个分支独立工作,各自保留最擅长的特征,不会互相干扰。

后续的消融实验也证明了这一点:双分支编码器的 ACC(准确率)达到 94.35%,JAC(Jaccard 指数)达到 79.31%;而单 CNN 分支的 ACC 只有 93.56%,JAC 只有 77.15%;单 Transformer 分支更惨,ACC 只有 87.44%,JAC 直接跌到 51.99%。这说明双分支的互补性带来的提升是实实在在的,1+1 真的远大于 2。

2.3 CSMF 融合模块:把 CNN 和 Transformer 的特征 "捏" 成黄金搭档

双分支编码器输出了 3 组对应分辨率的特征(CNN 的局部特征 + Transformer 的全局特征),但这两组特征就像 "两门不同语言的报告",直接放在一起用肯定不行 ------ 得有个 "翻译官" 把它们翻译成同一种语言,再整合出一份更全面的报告。这个 "翻译官" 就是 Pact-Net 的另一个核心创新:CSMF 融合模块(Channel-Space and Multi-Scale Fusion Module,通道 - 空间 - 多尺度融合模块)。

CSMF 由两个子模块组成:CSF(通道 - 空间融合子模块)和SSMF(自选择多尺度融合子模块)。咱们先看 CSF,它负责 "翻译";再看 SSMF,它负责 "整合"。

2.3.1 CSF 子模块:用注意力机制做 "翻译",筛选关键信息

CSF 的作用是从 "通道" 和 "空间" 两个维度,把 CNN 的局部特征和 Transformer 的全局特征 "翻译" 成可融合的形式。咱们先搞懂两个基本概念:

  • 通道注意力:判断哪些 "特征通道" 是有用的。比如在皮肤病变图像中,"色素通道" 很重要,"背景噪声通道" 没用,通道注意力会给有用通道加权重,没用通道减权重;
  • 空间注意力:判断图像中哪些 "区域" 是有用的。比如病变区域有用,毛发遮挡区域没用,空间注意力会给有用区域加权重,没用区域减权重。

CSF 的具体操作分三步:

第一步:给双分支特征分别加注意力。

  • 对 CNN 的局部特征(记为 t^i):先通过 SE-Block (通道注意力模块)生成 "局部 - 通道特征",再通过 CBAM(空间注意力模块)生成 "局部 - 空间特征";
  • 对 Transformer 的全局特征(记为 g^i):同样先过 SE-Block 生成 "全局 - 通道特征",再过 CBAM生成 "全局 - 空间特征"。

这样一来,我们就有了 4 类精细化特征:局部 - 通道局部 - 空间全局 - 通道全局 - 空间

**第二步:计算交互特征。**把 CNN 的局部优化特征和 Transformer 的全局优化特征通过 3×3 卷积层相乘,得到一个 "交互特征"(记为 b^i)。这个特征的作用是捕捉两个分支的关联 ------ 比如 "病变边缘"(局部)和 "病变整体位置"(全局)的对应关系,避免两个分支的特征 "各说各的"。

**第三步:残差级联融合。**把前面得到的 "局部 - 空间特征"、"全局 - 空间特征" 和 "交互特征" 通过残差块拼接起来,得到 CSF 的输出特征(记为 f^i)。残差连接在这里很重要,能避免融合过程中细节特征的丢失 ------ 比如不会因为融合全局特征,就把病变的微小边缘弄丢了。

通过 CSF 的处理,CNN 和 Transformer 的特征终于 "说上话了",但还有一个问题:不同分辨率的特征之间存在 "语义 gap"(比如 1/16 分辨率的特征很抽象,1/4 分辨率的特征很具体),直接送给解码器会导致分割结果 "断层"。这时候就需要 SSMF 子模块出场了。

2.3.2 SSMF 子模块:用多尺度融合做 "整合",消除语义 gap

SSMF 的作用是把 CSF 输出的 3 组不同分辨率特征(1/4、1/8、1/16)整合到同一语义层面,让解码器能 "顺畅阅读"。

举个例子:假设我们要得到 1/8 分辨率的融合特征,SSMF 会做两件事:

  1. 把 1/4 分辨率的特征通过 3×3 卷积下采样到 1/8,这样它的语义就和 1/8 分辨率的原始特征更接近;
  2. 把 1/16 分辨率的特征通过 3×3 卷积上采样到 1/8,同样对齐语义;
  3. 把这三个 1/8 分辨率的特征(原 1/8 特征 + 下采样后的 1/4 特征 + 上采样后的 1/16 特征)通过特征叠加块融合,得到最终的 1/8 分辨率融合特征。

这个过程的核心是**"自适应选择"**------ 模型会自动学习不同尺度特征的权重,比如在病变边界区域,会给 1/4 分辨率的细节特征加更高权重;在病变内部区域,会给 1/16 分辨率的全局特征加更高权重。这样融合出来的特征,既有细节又有全局,完美适配解码器的需求。

2.3.3 CSMF 的优势:比传统融合方法强在哪?

传统的特征融合方法要么直接相加,要么直接相乘,根本不考虑特征的有用性和语义差异。而 CSMF 有两个明显优势:

  1. 注意力筛选:通过通道 + 空间注意力,只保留有用特征,剔除无用噪声,融合效率比传统方法提升 4%-5%;
  2. 多尺度对齐:通过上 / 下采样消除语义 gap,让融合特征在全网络中语义一致,分割边界精度提升 2%-3%。

论文中的消融实验也证明了这一点:用 CSMF 的模型 JAC 达到 79.31%,而不用 CSMF、直接相加的模型 JAC 只有 74.56%,差距非常明显。

2.4 解码器与损失函数:从融合特征到分割结果,精准优化

CSMF 输出 3 组融合特征后,会送入解码器。解码器的结构比较常规,主要通过 3 次上采样操作,把融合特征的分辨率恢复到原始图像大小(比如从 12×16 恢复到 192×256),同时通过 "跳连接" 把编码器的特征直接传给解码器,进一步补充细节信息。

但 Pact-Net 的解码器有个小创新:深度监督。它不是只在解码器的最后输出层计算损失,而是在 3 个 CSMF 输出层和 3 个解码器中间层共 6 个位置计算损失。这样做能让模型在训练过程中更早发现错误,避免训练 "走偏"------ 比如如果某个中间层的分割结果漏了小病变,深度监督会及时调整参数,让后续层不再犯同样的错。

损失函数方面,Pact-Net 用了**"加权 IOU 损失 + Binary Cross Entropy(BCE)损失"** 的组合:

  • 加权 IOU 损失:比传统 IOU 损失更关注病变边缘。它会给边缘像素加更高权重,让模型在分割时更精准地定位病变边界;
  • BCE 损失:适配医学图像分割的 "二分类任务"(像素要么是病变,要么是健康皮肤),能有效区分两类像素。

组合损失函数的公式是:。实验证明,这个组合比单一损失函数的效果好得多 ------ 用组合损失的模型 DICE(Dice 系数)达到 86.23%,而只用 IOU 损失的模型 DICE 只有 84.32%。

三、实验结果:碾压 SOTA!Pact-Net 在三大任务中表现封神

讲完了模型设计,咱们最关心的肯定是:Pact-Net 到底有多厉害?论文在三个医学图像分割任务上做了实验:皮肤病变分割、息肉分割、细胞分割。每个任务都用了多个公开数据集,结果只能用 "封神" 来形容 ------ 全面碾压 U-Net、U-Net++、Transfuse 等 SOTA 模型。

3.1 皮肤病变分割:ISIC 三大数据集全面夺冠

皮肤病变分割是 Pact-Net 的主要目标任务,实验用了 ISIC 系列的三个权威数据集:ISIC 2016、ISIC 2017、ISIC 2018。这三个数据集是国际皮肤成像协作组织(ISIC)发布的,包含了来自全球多个医疗中心的皮肤镜图像,是皮肤病变分割领域的 "金标准"。

实验的主要评价指标是T-JAC(阈值 Jaccard)------ 这是 ISIC 挑战赛的官方主指标,规则是:如果 JAC≥0.65,就算有效分割;否则算无效分割。T-JAC 越高,说明模型的稳定分割能力越强。

咱们先看 ISIC 2018 数据集的对比结果(因为这个数据集最大,最有说服力):

模型 T-JAC(%) JAC(%) DICE(%) ACC(%)
U-Net 77.56 77.33 85.45 94.01
U-Net++ 78.51 78.56 87.61 94.98
Transfuse 81.01 84.47 90.89 95.48
Pact-Net(Ours) 84.14 84.32 90.75 96.91

从表格能看出,Pact-Net 的 T-JAC 达到 84.14%,比第二名 Transfuse 高 3.13 个百分点,比传统 U-Net 高 6.58 个百分点。这意味着在 ISIC 2018 的 260 张测试图中,Pact-Net 能正确分割的图像数量比 Transfuse 多 8 张左右 ------ 别小看这 8 张,在临床诊断中,每多正确分割一张,就可能多挽救一个生命。

再看 ISIC 2016 和 ISIC 2017 数据集:

  • ISIC 2016:Pact-Net 的 T-JAC 达到 84.06%,比第二名高 2.93 个百分点;
  • ISIC 2017:Pact-Net 的 T-JAC 达到 72.99%,比第二名高 1.98 个百分点。

而且 Pact-Net 在其他指标上也全面领先:ACC(准确率)达到 96.91%,意味着每 100 个像素中,只有 3 个会被误判;DICE(Dice 系数)达到 90.75%,意味着分割结果和医生标注的金标准(GT)重合度极高。

论文还做了可视化对比,从图中能明显看出:Pact-Net 分割出来的病变边界最接近 GT,尤其是在有毛发遮挡、低对比度的复杂场景下 ------ 比如某张图像中病变被毛发挡住了一部分,U-Net 和 Transfuse 都漏判了被遮挡的区域,而 Pact-Net 通过融合局部细节(毛发间隙的病变纹理)和全局信息(病变整体形态),精准分割出了完整的病变区域。

3.2 息肉分割:Kvasir 数据集 DICE 突破 90%

为了验证 Pact-Net 的泛化能力(能不能处理其他类型的医学图像),论文还在息肉分割任务上做了实验,用了 Kvasir 这个权威的息肉数据集(包含 1000 张结肠镜下的息肉图像)。

对比结果如下:

模型 DICE(%) IOU(%)
U-Net 89.55 83.51
U-Net++ 89.65 83.71
Transfuse 90.26 83.90
Pact-Net(Ours) 90.61 84.71

Pact-Net 的 DICE 达到 90.61%,IOU 达到 84.71%,比 Transfuse 分别高 0.35 和 0.81 个百分点。息肉分割的难点在于息肉和肠道黏膜的颜色很接近,边界模糊,但 Pact-Net 通过 CNN 抓息肉的局部纹理(比如息肉表面的褶皱)和 Transformer 抓息肉的全局位置(比如息肉在肠道的哪个部位),依然实现了高精度分割。

3.3 细胞分割:DSB2018 数据集 IOU 接近 80%

最后,论文在细胞分割任务上做了实验,用了 DSB2018 数据集(Kaggle 细胞分割竞赛的数据集,包含 670 张细胞图像)。细胞分割的难点在于细胞数量多、大小不一,而且细胞之间可能重叠。

对比结果如下:

模型 DICE(%) IOU(%)
U-Net 85.57 76.47
U-Net++ 86.02 77.20
Transfuse 87.10 78.59
Pact-Net(Ours) 87.53 79.28

Pact-Net 的 DICE 达到 87.53%,IOU 达到 79.28%,比 Transfuse 分别高 0.43 和 0.69 个百分点。这说明 Pact-Net 不仅能处理皮肤病变、息肉这种 "大目标",还能处理细胞这种 "小目标",泛化能力极强。

四、消融实验:搞懂每个模块到底有多重要

一篇好的论文不仅要展示模型的性能,还要证明每个模块的必要性 ------ 也就是**"ablation study(消融实验)"**。这篇论文通过消融实验,逐一验证了双分支编码器、CSF 子模块、SSMF 子模块的重要性。

4.1 双分支编码器的必要性

实验对比了 "单 CNN 分支"、"单 Transformer 分支" 和 "双分支" 的性能:

模型 ACC(%) JAC(%) DICE(%)
单 CNN 分支 93.56 77.15 85.51
单 Transformer 分支 87.44 51.99 65.53
双分支(Ours) 94.35 79.31 86.23

结果很明显:双分支的性能全面优于单分支。尤其是单 Transformer 分支,JAC 只有 51.99%,说明纯 Transformer 在局部特征提取上真的不行;而双分支通过互补,把 JAC 提升了 27.32 个百分点,充分证明了双分支结构的必要性。

4.2 CSF 和 SSMF 子模块的必要性

实验对比了 "无 CSF"、"无 SSMF" 和 "完整 CSMF" 的性能:

模型 JAC(%) DICE(%)
基础模型(BM) 72.34 81.58
BM+CSF 74.56 84.32
BM+SSMF 75.60 85.05
BM+CSF+SSMF(Ours) 79.31 86.23

从结果能看出:

  • 加了 CSF 后,JAC 提升了 2.22 个百分点,说明通道 - 空间注意力能有效筛选关键特征;
  • 加了 SSMF 后,JAC 提升了 3.26 个百分点,说明多尺度融合能有效消除语义 gap;
  • 同时加 CSF 和 SSMF 后,JAC 提升了 6.97 个百分点,说明两个子模块是 "相辅相成" 的,缺一不可。

4.3 CNN 分支基础模型的选择

实验对比了 ResNet、VGG、MobileNet、ConvNeXt 等常用 CNN 模型作为分支的性能:

模型 ACC(%) JAC(%) DICE(%)
VGG 90.23 75.42 77.47
MobileNet 93.89 77.74 85.44
ConvNeXt(tiny) 91.53 70.86 79.98
ResNet(Ours) 94.35 79.31 86.23

结果显示,ResNet 作为 CNN 分支的性能最好。原因是 ResNet 的残差连接能更好地保留局部细节,而且和 Swin Transformer 的兼容性更强 ------ 其他模型要么细节保留不够(如 VGG),要么计算量太大(如 ConvNeXt),只有 ResNet 能在 "细节保留" 和 "计算效率" 之间找到平衡。

五、Pact-Net 的局限性与未来方向

虽然 Pact-Net 的性能很惊艳,但它也不是完美的。论文诚实地指出了三个局限性,这也是未来可以优化的方向:

5.1 小数据集泛化能力弱

Pact-Net 在大规模数据集(如 ISIC 2017,2750 张图)上表现很好,但在小数据集或未训练过的数据集上表现一般。比如在 ETIS 息肉数据集(只有 192 张图)上,Pact-Net 的 IOU 只有 63.58%,远低于在 Kvasir 数据集上的 84.71%。

未来方向:引入迁移学习,用大规模通用医学数据集预训练模型,再用小数据集微调;或者设计轻量化的 Transformer 层,减少模型对数据量的依赖。

5.2 复杂场景分割精度不足

在极低对比度、严重毛发遮挡的复杂场景下,Pact-Net 的分割精度依然有提升空间。比如在 ISIC 2017 数据集中,JAC<0.65 的无效分割图像有 91 张,占测试集的 15.17%。

未来方向:设计 "边界聚焦" 的损失函数,专门针对病变边界进行优化;或者增加一个辅助的边界学习网络,让模型专门学习病变边界的特征。

5.3 训练效率低

Pact-Net 的双分支结构和 CSMF 模块虽然性能强,但计算量也很大 ------ 在 NVIDIA RTX 2080Ti GPU 上,训练一轮 ISIC 2018 数据集需要 15 分钟左右,比 U-Net 慢了近 5 分钟。

未来方向:结合云计算技术,把模型训练部署在云端 GPU 集群上,提升训练速度;或者对模型进行剪枝、量化,减少冗余参数,让模型在本地设备上也能快速训练和推理。


总结

总的来说,Pact-Net 是医学图像分割领域的一个重要突破,它不仅为皮肤癌早筛提供了更精准的 AI 工具,也为其他医学图像分割任务提供了可借鉴的框架。相信在不久的将来,随着模型的不断优化,Pact-Net 这类 AI 技术会走进更多医院,帮助医生更快速、更准确地诊断疾病,挽救更多生命。

如果你对 Pact-Net 感兴趣,强烈建议去读一下原文(论文标题:Pact-Net: Parallel CNNs and Transformers for medical image segmentation,发表在 Computer Methods and Programs in Biomedicine 242 (2023))。

相关推荐
西格电力科技1 小时前
源网荷储如何重塑能源产业格局
大数据·运维·人工智能·架构·能源
c#上位机1 小时前
halcon图像腐蚀—erosion1
图像处理·人工智能·计算机视觉
物流可信数据空间1 小时前
数据要素×数智住建:可信数据空间筑牢底座 “数据+AI”激活变革新动能
人工智能
wshzd1 小时前
LLM之Agent(三十七)|AI Agents(六):AI Agents架构
人工智能·架构
阿桂天山1 小时前
怎样让数据资产灵动起来
大数据·人工智能
知行力1 小时前
AI一周资讯 251129-251205
人工智能·chatgpt
老赵聊算法、大模型备案1 小时前
新规解读|《公安机关网络空间安全监督检查办法(征求意见稿)》发布,AI与互联网企业需重点关注哪些合规义务?
人工智能·安全·web安全
艾莉丝努力练剑1 小时前
【Python基础:语法第三课】Python 函数详解:定义、参数、返回值与作用域
服务器·人工智能·windows·python·pycharm
丝斯20111 小时前
AI学习笔记整理(29)—— 计算机视觉之人体姿态估计相关算法
人工智能·笔记·学习