文献学习-27-基于连通性感知图Transformer的数字病理图像乳腺癌分类

Breast Cancer Classification from Digital Pathology Images via Connectivity-aware GraphTransformer

Authors: Kang Wang, Feiyang Zheng, Lan Cheng, Hong-Ning Dai, Qi Dou, Jing Qin, Member, IEEE

Source: IEEE TRANSACTIONS ON MEDICAL IMAGING (TMI)

Keywords: Tissue connectivity, Tissue topology phenotyping, Graph Transformer, Cancer classification, Entity graph

Abstract:

由于组织微环境中细胞的复杂空间模式,从数字病理图像中自动分类乳腺癌亚型一直是一项极具挑战性的任务。尽管新提出的图Transformer能够捕获更多的长程依赖关系以提高准确性,但它们在很大程度上忽略了图节点之间的拓扑连通性,而这对于提取更具代表性的特征以解决这一困难任务至关重要。在本文中,提出了一种新颖的连通性感知图Transformer(CGT)用于表征从数字病理图像构建的组织图的拓扑连通性,以进行乳腺癌分类。CGT通过使用局部连通性聚合,在每个图Transformer层无缝地将连通性嵌入到节点特征中,以产生更全面的图表示来区分不同的乳腺癌亚型。根据真实的细胞间通信模式,然后将两个任意节点之间的空间距离编码为自注意力计算中的连通性偏差,从而允许CGT根据两个节点的距离有区别地利用连通性嵌入。在一个大型的苏木精-伊红染色的乳腺癌数字病理图像队列上广泛评估了所提出的CGT。实验结果证明了CGT的有效性,其性能大大优于最先进的方法。

核心技术术语：

组织图(Tissue graph):从数字病理图像中抽取组织区域作为节点,构建组织图作为网络输入。
连接性嵌入(Connectivity embedding):通过学习方法为每个节点赋予其度数对应的embedding,以编码图结构信息。
本地连接性聚合(Local connectivity aggregation):在每一层graph transformer中,将近邻节点的连接性embedding聚合到中心节点。
连接性偏差(Connectivity bias):考虑节点间空间距离这一节点对特征的影响,将距离编码为注意力计算中的偏差项。
连接性意识图转换器(Connectivity-aware graph transformer, CGT):整合以上技术,提出的一种新的基于图transformer的分类网络,能够充分利用组织图的结构信息并表征组织组织关系。

尽管这种全连接机制在所有节点之间传递消息,但它在很大程度上忽略了输入图的实际连通性,从而在一定程度上丢失了图的结构信息。为了解决这一缺点,最近提出的一些基于Transformer的GNN试图将更多的结构信息整合到图表示中,以提高其能力。然而,仍然存在两个局限性。首先,大多数现有的基于Transformer的GNN通常只通过将每个节点的可学习位置编码注入输入层来合并结构信息。然而,由于这种注入是一次性的,因此该方案仍然忽略了连接节点在后续训练epoch中的影响,从而使结构信息难以对生成的表示产生有效和深远的影响。其次,当基于Transformer的GNN计算所选节点的自注意力时,它们平等地对待其他节点,忽略了它们与所选节点的空间距离对其表示至关重要的事实。为此提出了一种新颖的连通性感知图Transformer(CGT)用于乳腺癌分类,以充分考虑组织区域之间的连通性属性和空间距离。方法的输入是从病理图像构建的组织图,而不是直接使用病理图像的简单像素信息。

这项工作的主要贡献如下:

• 提出了局部连通性聚合方法,在每个图Transformer层将连通性嵌入添加到节点特征中,从而使其能够映射具有乳腺癌亚型结构信息的综合图表示。

• 根据真实的细胞间通信模式,提出将节点对的空间距离编码为连通性偏差,以有效地驯服自注意力计算中的连通性嵌入。

• 在两个公开注释的乳腺病理图像数据集上评估了提出的CGT。大量实验证明了提出的方法的有效性,其始终以较大优势优于最先进的方法。

图1。8个用于乳腺癌分类的数字病理图像样本，说明了不同肿瘤类别之间在组织微环境中细胞的复杂空间格局。上面一行显示了不同类别之间的相似性。底部一行显示了相同类别之间的变化。

Preliminary

本文将乳腺癌分类任务视为一个多类分类问题。给定一个从病理图像构建的属性无向实体图(即组织图),其中是节点集合,是边集合,是节点数。节点特征集合表示为,其中是特征维度。两个连接节点之间的边表示为。图的拓扑结构由对称邻接矩阵描述,如果,则。节点的邻域表示为。给定一个用于多类分类的GNN,其函数空间为,训练该网络就是要找到一个分类器函数,它可以有效地将乳腺癌数据的输入图表示映射到适当的预测或分数。

Tissue Graph Construction

组织图的构建包括两个步骤:1)使用无监督分割方法SLIC将像素初始分组为个不重叠的超像素;2)通过比较超像素的RGB值,将几个相似的不重叠超像素合并为一个捕获有意义组织信息的同质组织区域。合并后的组织区域的质心被视为组织图的节点。节点特征通过对其组成超像素的CNN特征进行平均得到。最后,根据区域邻接图添加边,构建出组织图。

CGT for Histopathological Representation

Connectivity Embedding with Local Connectivity Aggregation

为了从先验组织拓扑知识中获得更好的连通性表示,提出在每个图Transformer层(GTL)为节点特征添加连通性嵌入(CE)并使用局部连通性聚合(LCA)方法来聚合CE

Connectivity Bias in Self-attention

考虑到细胞间通信的现实模式,提出将空间距离编码为自注意力计算中的连通性偏差(CB)

图2。CGT表型如何在乳腺癌分类中的组织拓扑连接的组织病理学表现。组织图T G（V，E，H）由输入图像作为CGT的输入构造。组织图中的节点被平面为一个添加了连通性嵌入的序列，然后将其提供给提出的gtl。为了执行分类，在序列中添加了一个额外的可学习的分类标记（CLS）。

实验

A. 实验设置

数据集:本文在两个数据集上评估了所提出的CGT方法:

BRACS数据集:包含4,391个乳腺肿瘤区域,来自325个苏木精-伊红染色的乳腺癌全切片图像,由病理学家标注为7个类别。原始的训练、验证和测试数据集的划分比例为3163:602:626。
BACH数据集:一个公开的数字病理图像数据集,由两位医学专家标注为4个类别。训练和测试图像的比例为400:100。

实现细节:实现包括三个过程:组织图构建、节点距离计算和乳腺癌分类。所有方法都使用交叉熵损失函数进行训练,Adam优化器,batch size为4。CGT的详细模型设置如表II所示。
比较方法:将CGT与三组方法进行比较:消息传递GNN、基于Transformer的GNN和基于视觉Transformer的方法。

B. 实验结果

在BRACS数据集上使用交叉验证与SOTA方法的比较:表III显示,所提出的算法在加权F1分数和准确度方面优于SOTA方法。
在BRACS数据集上与SOTA GNN的比较:表IV显示,CGT在加权F1分数方面始终优于所有竞争对手。表V显示,与病理学家的统计数据相比,CGT的较低标准差表明其在乳腺癌分类中具有优越和稳定的性能。
在BACH数据集上与集成和单一网络的比较:表VI显示,CGT在单一网络中实现了最佳分类性能,在集成网络中实现了相当的准确性,证明了CGT在轻量级数据集上的乳腺癌分类能力。
对病理学家的可解释性:采用GraphGradCAM方法突出显示组织图中的节点及其对应区域的重要性。图3表明CGT可以模拟真实的病理诊断。
超参数选择:图4显示,当λ=2时,CGT产生最高的加权F1分数均值。

C. 消融研究

局部连通性聚合:表VII表明,使用LCA的变体显著优于使用LFA的变体,证明了所提出的LCA能够有效地将组织图的结构信息映射到综合组织学表示。
连通性偏差:表VII显示,使用CB的变体优于基线和使用SPD的变体,证实了乳腺癌分类确实受益于所提出的CB作为注意力偏差。
图结构:图5显示,具有适当节点数量的图可以提供病理图像中更具代表性的特征,从而提高乳腺癌的诊断性能。

表i为针对乳腺癌分类的BRACS数据集的关键数据描述，包括亚型分布、组织图成分的统计和ROIS分裂策略。具体来说，ROIS有三个分布度量，包括ROIS的数量、像素数（百万计）和最大像素和最小像素的比率。有三个指标来描述组织图的分布，包括节点和边的数量，以及节点的程度。同时还提供了均值和标准偏差。

表二：拟议的CGT模型设置。

在使用五文件夹交叉验证的BRACS数据集上的性能改进。结果包括加权f1评分的平均值和标准差，以及总7类分类的准确性。结果以%表示。最佳结果将用粗体表示。

图3。CGT使用GraphGrahGradCAM和4个样本组织图在BRACS数据集上进行7类乳腺癌分类。带有图形图形的样本组织图包括(a) ADH、(c) FEA、(e) DCIS和(g) IC，其中也提供了部分放大的图形。(b) (d) (f) (h)表示相应的具有不同重要性得分的组织区域。

图4。在BRACS测试数据集上使用不同的超参数λ值对所提出的CGT变量进行分类性能比较。直方图包括7类分类的加权F1得分的平均值和标准差。

图5。利用具有不同图结构的输入图，即稀疏的图和稀疏的图的消融结果。这些不同类型的图的数据分布都在中间区域提供了，包括节点的数量和程度。乳腺癌分类结果的区域包含三个相应的解释图和一个平均f1评分直方图。

自动分类乳腺癌亚型数字病理图像是一个极具挑战性的任务,因为组织中细胞的空间模式极为复杂。在本文中,提出了CGT,即基于图形转换器的连接感知分类方法来表型数字病理图像构建的组织图的拓扑连接性,从而进行乳腺癌分类。两个主要贡献如下:

(1) CGT利用图形转换器架构在每一图转换层加入连接嵌入,通过使用局部连接聚合来记录组织图的完整表达,进而映射到乳腺癌亚型。

(2) 还将空间距离编码到注意力计算中两个任意节点之间的连接偏差中,更效果地捕获和区分节点之间的连接关系。

在BRACS数据集上评估了这一新颖网络,该数据集包含了血伊红染色胸腺癌组织数字病理图像区域的注释。CGT超越了现有最佳方法,表明它更有效地表型组织拓扑来进行乳腺癌分类。与病理医生统计结果相比,CGT的标准差更低,表明其分类效果更稳定可靠。还在公开数字病理图像数据集BACH上进行了各项实验,证明CGT有潜力准确分类前癌亚型,且计算成本较低。深入分析表明,方法的主要组成部分(即通过局部连接聚合实现的连接嵌入,以及注意力计算中的连接偏差)都是必要的,且相互促进组织病理学表征的乳腺癌分类。通过从不同数字病理图像构建实体图,CGT有潜在应用前景用于其他癌种的诊断。

总的来说,提出的CGT方法在数字病理图像分类上已得到很好结果。但目前仅在片段级图像数据集上验证,而临床应用更需要整个切片级图像分类。方法可以很容易地修改为任何多实例学习方法的实例级特征提取器,表明它也可以用于切片级分类。在未来研究中,将研究如何将临床信息(如患者人口统计学数据、医史和基因序列)整合到方法中,以帮助实际诊断流程和改善患者预后。

Reference

$1$ Wang, K., Zheng, F., Cheng, L., Dai, H. N., Dou, Q., & Qin, J. (2024). Breast Cancer Classification from Digital Pathology Images via Connectivity-aware Graph Transformer. IEEE Transactions on Medical Imaging.