2026.1.29
本文比较并评估了多视图乳腺X线摄影癌症分类任务中基于卷积神经网络、图神经网络和Transformer的三种不同架构的性能和可解释性,发现Transformer表现最佳,但不同架构具有互补性,集成模型能进一步提升准确性和鲁棒性,强调了在数据量有限情况下结合多种归纳偏置的价值。
Title 题目
01
Mammography classification with multi-view deep learning techniques: Investigating graph and transformer-based architectures
多视图深度学习乳腺X线摄影分类技术:图和Transformer架构的探究
文献速递介绍
02
乳腺X线摄影是乳腺癌筛查的主要成像方式,但面临癌症患病率低、需处理高分辨率图像以及整合多尺度和多视图信息等挑战。多视图架构通过结合四种视图(如CC和MLO)进行同侧和对侧分析,有望实现自动筛查。Transformer因其建模长距离依赖和跨视图注意力的能力,以及图神经网络因其模拟放射科医生解读模式的能力,被认为是比传统卷积神经网络更具潜力的替代方案。现有研究对不同架构的直接比较受限于实验设置差异。本文旨在通过扩展Transformer和图卷积网络以处理四种视图,并引入新的Transformer架构与同侧和对侧跨视图注意力机制,在一个可比较的弱监督设置下,从性能和局部-全局特征整合角度全面评估这些多视图架构,以期发现不同架构的互补性。
Aastract摘要
02
乳腺X线摄影筛查中,深度学习系统在提供独立评估和减轻放射科医生负担方面展现出巨大潜力,但癌症低患病率、高分辨率图像处理需求以及多视图和多尺度信息整合等问题仍是技术挑战。结合四种乳腺X线摄影视图信息以产生检查级别分类分数的多视图架构是一种有前途的方法。本文评估了新型Transformer和图神经网络架构与最先进的多视图卷积神经网络在弱监督设置下的性能和可解释性。在CSAW数据集上的大量实验表明,尽管Transformer架构优于其他架构,但不同的归纳偏置导致了互补的优势和劣势,每种架构对不同的征象和乳腺X线摄影特征敏感。因此,集成不同架构应优于"赢者通吃"的方法,以实现更准确和鲁棒的结果。总体而言,研究结果强调了在相对适中数据集上,各类多视图架构在乳腺癌分类中的潜力,尽管在没有像素级监督或专用网络的情况下,小病灶的检测仍然具有挑战性。
Method 方法
03
本研究将乳腺癌检测和召回预测任务公式化为多任务学习问题。实验对比了三种多视图架构:基于Wu et al. (2020)的基线CNN模型、扩展的四视图解剖感知图卷积网络(AGN4V)和提出的乳腺X线摄影多视图Transformer(MaMVT)。基线模型采用共享骨干的ResNet-22,通过连接特征进行预测。AGN4V是AGN的扩展,包含双向图卷积网络(BGN)和Inception图卷积网络(IGN)模块,分别模拟同侧和对侧几何与结构关系,并需预先提取伪特征点。MaMVT采用Swin Transformer作为共享骨干,并在网络中间层引入跨视图注意力层,以整合左右乳房及CC/MLO视图信息,还引入了额外的补丁级监督任务。所有架构均采用NLL损失函数,Transformer额外使用Focal Loss进行补丁级分类。预训练方面,基线和AGN4V骨干使用SWaV自监督预训练,MaMVT则比较了ImageNet和PEAC自监督预训练。数据方面,使用了CSAW数据集,并辅以DDSM数据集和合成病灶进行增强。所有图像经过统一预处理和数据增强,包括随机缩放、对比度调整和高斯噪声,并引入了左右乳房随机交换以提高泛化性。
Discussion讨论
04
本研究比较了多视图乳腺X线摄影分类中具有不同归纳偏置的CNN、图神经网络和Transformer架构。Transformer架构在AUC上表现更优,但不同架构的预测差异大,且检测特征类型不同,在训练数据有限时,结合这些架构至关重要。基线架构的性能与原论文相似,预训练是实现泛化的关键,自监督预训练在欧洲筛查项目中更为实用且能提升鲁棒性。解释性指标表明,各架构关注的区域通常包含但超出放射科医生标注的病灶范围。基线和AGN4V在病灶定位方面表现更好,但Transformer架构(MaMVT)的注意力图更分散,倾向于全局特征,这给临床解释带来了挑战,可能与整体乳腺解剖或供应商差异等虚假关联有关。相较于单视图分析,Transformer在多视图设置下优势更明显,这归因于其跨视图注意力能力,而CNN的局部性偏置在单视图内表现更佳。所有架构都能直接处理四视图,无需配准。AGN4V需要额外的预处理步骤(如乳腺和胸肌分割、伪特征点识别),这在数字乳腺X线摄影上计算成本低,但在胶片乳腺X线摄影上准确性较低,且图组件对骨干初始化敏感,收敛性不佳,若在更大数据集上训练可能改善。研究结论受限于训练集规模,随着数据增加,Transformer的性能优势可能进一步扩大。本研究仅在一个供应商和机构的数据上进行了验证,未来需进行外部验证以评估泛化能力。
Conclusion结论
05
本文对用于乳腺癌分类的三种多视图架构------四视图卷积网络、基于图的架构和基于Transformer的架构进行了比较分析。这些架构因其根本不同的归纳偏置,不仅实现了不同的性能,而且倾向于关注乳房的不同区域。尽管基于Transformer的架构在三者中取得了最有希望的结果,但结果表明,集成模型可以通过提高AUC和降低假阳性率来改善整体性能。通过热图分析了每个模型预测最相关的乳房区域。根据架构的不同,所选区域并非总是与病灶标注对齐,而是倾向于集中在高密度区域。总体而言,研究结果强调了即使在相对适中的数据集上,各种多视图架构在乳腺癌分类中的潜力。需要进一步研究在更大规模数据集上验证这些发现,并增强多视图架构整合局部线索的能力,以改善对小而模糊病灶的检测。
Results结果
06
研究结果显示,自监督预训练显著提升了基线和AGN4V的性能,而MaMVT-v1通过PEAC预训练也获得了小幅提升。随机交换左右乳房的数据增强对所有架构均有益,其中AGN4V受益最大。MaMVT-v2(未采用侧面不变性且结合随机翻转)是性能最佳的单一架构,其次是PEAC预训练的MaMVT-v1。基线和AGN4V在验证集上表现出过拟合迹象。不同架构的预测相关性较低,表明它们关注不同的特征模式,这支持了它们具有互补性的观点。一个由所有架构(包括ImageNet预训练的MaMVT-v1)预测平均组成的简单集成模型,在癌症和召回预测方面均优于所有单一架构,证明了集成策略的有效性。测试时间增强(TTA)能提高单个模型的性能,但对集成模型影响不大。在可解释性方面,AGN4V和基线模型的Grad-CAM热图更能准确地定位病灶区域(DICE得分分别为0.09和0.07),但错误预测时DICE得分显著下降。MaMVT模型的热图则更分散,覆盖整个乳房,表明其偏向全局特征。MaMVT-v2在局部特征关注度上有所改善。MaMVT-v2参数量和推理速度略高于基线,而AGN4V因图处理步骤而推理最慢。
Figure 图
07

图1.Wu et al. (2020)提出的NYU模型的示意图。骨干参数在相同视图(CC和MLO)的图像之间共享,如不同颜色所示。损失根据softmax输出计算,并在推理时对CC和MLO视图的预测进行平均。

图2.同一乳房在两种投射下的伪特征点及其相应镶嵌的表示。

图3.整个AGN4V模型的表示。值得注意的是,此架构需要额外的输入集(即伪特征点及其位置),这些输入由IGN和BGN模块用于模拟放射科医生的分析。

图4.本工作中使用的MaMVT架构示意图:四个视图通过共享的Swin骨干网络,在第三个块的第10层之后插入一个额外的跨注意力块,以在每个视图之间执行交叉注意力。每个视图的最终输出通过一个分类层,用于额外的损失计算。两个左右视图还被连接以获得左右表示,这些表示也通过一个分类层,并用于执行损失计算和获取检查的最终分类结果。

图5.补丁监督方法的简化示例:左侧显示的是图像掩码,分割成补丁并转换为下面的标签向量,其中每个值对应一个补丁:索引5和7设为1,因为它们各自的补丁包含病灶。右侧显示的是按照相同结构对每个图像补丁进行的假设预测:在此示例中,除了补丁5之外,所有补丁都正确预测。

图6.侧面相关四视图交叉注意力模块方案。首先,对于每一侧(L-CC和L-MLO,R-CC和R-MLO),执行成对注意力操作,然后加到各自的视图中。然后对每种视图类型(L-CC和L-MLO,R-CC和R-MLO)应用相同的操作。

图7.侧面无关四视图交叉注意力模块方案。首先执行所有成对注意力操作,然后加到各自的视图中。为清晰起见,仅显示了L-CC和R-MLO视图的求和操作。