用于病理图像多类分割的弱监督状态空间模型PathMamba

论文题目：PathMamba: Weakly Supervised State Space Model for Multi-class Segmentation of Pathology Images

摘要：

病理图像的准确分割在数字病理工作流中起着至关重要的作用。全监督模型通过密集的像素级标注取得了优异的性能。然而，在十亿像素的病理图像上进行注释是非常昂贵和耗时的。最近，被称为Mamba的高效硬件感知设计的状态空间模型取得了令人印象深刻的结果。本文提出了一种弱监督状态空间模型(PathMamba)，用于仅使用图像级标签对病理图像进行多类分割。我们的方法综合了像素级和斑块级病理图像的标准特征，可以产生更具区域一致性的分割结果。具体地说，我们首先基于多实例多标签学习方法提取像素级特征图，将其作为实例注入到我们设计的对比Mamba块中。对比Mamba块采用状态空间模型，结合对比学习的概念，提取病理图像中的非因果双粒度特征。此外，为了充分利用弱监督方法中有限的标注信息，我们提出了深度对比度监督损失。我们的方法促进了一个全面的特征学习过程，并捕获了病理图像中复杂的细节和更广泛的全局上下文语义。在两个公共病理图像数据集上的实验表明，该方法比现有的弱监督方法具有更好的性能。

1、介绍

病理图像对疾病的临床诊断和预后有重要意义。在过去的十年里，随着人工智能技术的蓬勃发展，组织病理图像的自动分析在某些任务上取得了与人类病理学家相当的性能 $5，17$ 。然而，大多数方法都是基于监督学习的，它们的性能主要依赖于大量带有详细注释的训练样本 $6，7$ 。这些注释通常需要有经验的病理学家，获取成本很高，而且容易出现人为错误。

与监督学习和非监督学习相比，弱监督学习算法只需要粗粒度的标注就可以自动进行语言语义分割 $11，13$ 。因此，在代价和精度之间取得良好平衡的弱监督学习算法是一种很有前途的方法。根据粗粒度标注的程度，弱监督图像分割的标注可以分为图像标注 $11$ 、边界框标注 $15$ 和点标注 $18$ 。在这些标注中，图像级标签标注的成本最低，应用范围最广 $20$ 。在这项工作中，我们的动机是在组织病理学图像的像素级别分割癌症区域，并且仅依赖于图像级别的标签。

然而，现有的大多数弱监督病理图像分割方法都是基于CAM方法 $9，19$ 。然而，基于CAM的方法面临着巨大的挑战，因为分类网络倾向于通过它们最具区分性的特征来区分对象，而分割任务的目标是找到完整的对象。同时，忽略了不同位置之间的空间相关性。

最近，受状态空间模型(SSM) $12$ 的启发，研究人员开发了Mamba $8$ 来解决冗长序列建模的瓶颈。其主要思想是通过选择扫描机制和实现硬件感知算法，有效地捕获远程依赖关系，提高训练和推理效率。基于SSM的U-Mamba $14$ 和Vision Mamba $21$ 已被用于全监督图像分类和语义分割任务。

受此启发，我们提出了一种新的用于弱监督多类病理图像分割的框架--PathMamba。与只考虑像素或斑块的方法不同，我们的框架综合考虑了标准像素级和斑块级的病理图像特征。具体地说，我们的PathMamba首先利用多实例多标签通过将像素视为实例来提取像素级特征地图。随后，我们设计了一种新的对比曼巴块(Contrastive Mamba Block，CMB)来研究病理图像不同粒度之间的相关性。由于选择性扫描的结构化状态空间序列模型(S6) $8$ 只能捕获数据的扫描部分的信息，因此它不能处理非因果数据，例如图像中的多个对比度信息。为此，我们将双粒度比较Mamba(DC-Mamba)--一种具有对比度选择扫描的结构化状态空间序列模型--融入到块级别的编码器中，以实现高效的视觉表示学习。此外，由于弱监督方法缺乏监督且难以约束学习过程，我们引入了一种基于深度监督的深度对比监督损失(DCL) $11$ 。它可以更好地利用图像级标注来监督各网络层的特征学习。最后，我们采用一个轻量级的解码头来整合双粒度对比特征序列来预测分割掩码。

我们使用两个数据集，LUAD-HistoSeg $9$ 和BCS-WSSS $1$ ，验证了我们提出的PathMamba在弱监督病理图像分割任务中的有效性。与现有的最先进的弱监督方法相比，我们的方法产生了更好的性能。总之，这项工作的主要贡献如下：

提出了一种仅使用图像级标签的弱监督状态空间模型(PathMamba)，用于病理图像的多类分割。据我们所知，这是将Mamba引入弱监督图像分割任务的第一个工作。
我们将对比学习和视觉Mamba相结合，设计了一种新的对比Mamba块，它可以探索病理图像中非因果双粒度特征的相干学习。
我们提出了一种深度对比度监督丢失，使网络能够充分利用有限的注释信息。
在两个公共病理图像数据集上的实验表明，我们提出的方法比现有的弱监督方法具有更好的性能。

2、方法

图1说明了所提出的用于病理图像多类分割的弱监督状态空间模型(PathMamba)的基本结构。我们提出了多实例多标签学习(MIML)的概念来提取像素级特征和空间联系。我们的对比Mamba块(CMB)被设计为使用提取的像素级特征和原始图像作为输入。CMB采用视觉Mamba和对比学习，在学习的每个阶段将注意权重分配给像素级和斑块级特征。同时，我们提出了一种双粒度比较Mamba(DCMamba)来捕捉像素级和斑块级对比度选择的空间特征，而原始Mamba模型由于其在捕捉非因果信息方面的局限性而无法做到这一点。此外，我们遵循了Jia等人提出的方法。 $11$ 针对弱监督学习中监督数据不足的问题，提出了一种深度异类监督损失算法。在接下来的部分中，我们将详细介绍我们的组件。

2.1、生成像素级要素地图

多实例学习(MIL)方法将一组实例分配为"负"或"正"，其中这组实例称为包。其目标是预测包级和实例级标签，但它更常用于解决图像的二进制分类问题。在本文中，我们考虑了多实例多标签学习(MIML)，它可以仅依靠图像级标签来完成多标签分割任务。在我们的例子中，我们将图像称为包，并将图像中的每个像素称为实例。每个袋子可以与多个标签相关联。ResNet-50 $10$ 的最初三个卷积阶段，在图1中描绘为绿色块，作为捕捉像素级特征的基本组件。在我们的研究中，树干上的三个卷积块足以用于特征提取。使用1×1卷积将输出通道大小减小到1。通过在双线性上采样过程之后将图像恢复到其原始大小来创建像素级特征地图。

2.2、Contrastive Mamba Block

探索非因果的双粒度信息和全局联系是病理性图像分割的关键。Transformer的设计可以有效地捕获全局信息，但在处理过长的特征序列时面临着巨大的计算挑战。为了克服这一局限性，我们提出了一种对比Mamba块(CMB)，它可以有效地对双粒度信息和全局信息进行建模。

图2a展示了CMB利用Patch嵌入层将输入的病理图像分割成不重叠的Patch并执行映射过程。平坦的序列在被馈入双粒度比较Mamba模块(DC-Mamba)和深卷积层之前通过层归一化来归一化。DC-MAMBA模块在几个级别的患病图像之间创建对比度差异，而深度卷积功能旨在保留复杂的细节。通过执行逆过程获得原始形状。CMB层的过程可以描述为：

其中ϕ表示转置和平坦运算，ϕ−1表示其逆运算，L∈ $1，Nm$ 。

双粒度比较Mamba：尽管S6具有时态数据的因果属性，但它不能处理多输入的非因果信息。为了解决这个问题，我们设计了DC-MAMBA，它结合了病理图像的不同粒度信息进行比较建模，如图2b所示。具体地说，为了明确探索斑块级和像素级特征之间的关系，我们首先通过扫描扩展操作将每个病理图像沿着四个不同的方向扩展成一个序列。这些序列然后被S6块处理以进行特征提取，确保来自所有方向的信息被彻底扫描以捕获不同的特征。然后，设计对比度相关运算，得到对比度图。给定一张贴片级别的特征图P，基于对比学习思想的对比相关运算定义如下：

其中CSM表示余弦相似度。As和Aw表示像素级特征映射的关键和弱关注区域向量。运算N是二维归一化运算，η∈ $0，1$ 是正常数。

DC-MAMBA算法考虑了病理图像块级别和像素级特征的一致性，并利用并行SSM建立远程依赖关系，从而实现了更有效的视觉表征学习。

2.3、高对比度监督损失

训练集由S={(Xn，Yn)，n=1，2，3，.。。，t}，其中Xn是第n个输入画面，Yn−{0，1，.。。，m}表示第n−个输入图像的标签。Y'n(i，j)表示第n−个图像的预测中位于位置pi，j的像素的概率。对比曼巴区块的输出表示为Y''n。因此，可以将图像级预测定义为：

参数r控制与硬函数的清晰度和贴近度：y→max，i，yn(i，j)as r→∞，用于控制减重。通过最小化产量预测与实际情况之间的损失来训练模型。以交叉熵损失函数的形式设计的高对比度监督损失：

其中i(·)是指示器函数。

3、实验

**数据集：**为了证明我们提出的PathMamba的有效性，我们使用两个数据集LUAD-HistoSeg $9$ 和BCS-WSSS $1$ 来评估我们的弱监督多类病理图像分割方法。LUAD-OrganoSeg数据集有31,826张大小为224 x 224的病理图片。标本由四类组织组成：肿瘤上皮(TE)、肿瘤相关间充质(TAS)、坏死(NEC)和淋巴细胞(LYM)。BCS-WSSS集合有17,286张大小为224 x 224的病理图片。该数据集包含五个不同类别的每个感兴趣区(ROI)的像素级别的详细注释：肿瘤(TUM)、间质(STR)、淋巴细胞浸润性(LYM)、坏死(NEC)和其他(OTR)。

**竞争方法和评价指标：**我们通过与弱监督分割方法(如组织分段网 $2$ 、SC-CAM $3$ 、C-CAM $4$ 和WSSS-组织 $9$ )的比较来评估所提出的方法。同时，将其与全监督UNT $16$ 方法进行了比较。所有方法都使用四个指标进行评估：骰子、IOU、召回和精确度。

**实现细节：**我们的实验是在NVIDIA GeForce RTX A6000 GPU上进行的，48G内存，重复五次计算平均值。使用ADAM优化器训练该模型，权值衰减为5E−4，固定学习率为1E−5。我们将批量设置为16，训练周期为100。将广义平均函数的参数r设置为4，并且将控制损失重量的参数ξ设置为0.5。

**与SOTA方法的比较：**表1报告了建议的方法与最近最先进的方法的定量比较。实验结果表明，我们的方法在测试中优于其他模型(图3)。我们将这归因于Contrastive Mamba Block的全局建模能力，以及它通过在斑块和像素两个粒度上的对比学习来表征病理图像的能力。具体来说，在这两个数据集上，我们的方法分别比目前领先的弱监督分割方法WSSSTIssue提高了2.2%和2.4%。此外，可以注意到，我们的PathMamba的性能几乎等同于完全监控的U-Net。这可以归因于两个因素：1)PathMamba同时考虑了病理图像中的两种不同粒度的信息，这有助于病理图像的分割。2)提出的深度对比度监督损失有效地捕捉了模型中间各层的充分语义信息，提高了分割性能。综上所述，该框架可以仅使用病理图像的图像级标签来生成准确的预测掩码。不需要对病理图像进行密集像素级注释。

**消融研究：**我们进行消融研究，以确定单个组件的效率并确定最佳设置。表2显示了包括多实例多标签学习(MIML)、对比Mamba块(CMB)和深度对比度监督丢失(DCL)等几个组件对分割性能的影响。引入由MIML(模型b)创建的像素级特征地图改进了Dice，展示了像素级粒度的好处。模型c和d表明，加入CMB提高了分割精度，展示了全局建模和特征表示的双粒度对比学习的有效性。此外，利用动态链接库对模型f的性能进行了优化。我们认为这是因为DCL使网络能够有效地提取目标信息，而不需要依赖于像素级标记。结果表明，对于多类病理图像，弱监督分割方法在配对对比视觉Mamba时优于单粒度基线。