基于深度学习的乳腺癌淋巴结转移预测模型（E-Transformer）

乳腺癌细胞淋巴结转移是界定乳腺癌早中期的重要标准，需要活检，患者体验较差。

传统的图像辅助诊断需要手动提取特征、组合图像特征，效率低下、效果不佳。新兴的基于深度学习的图像辅助诊断，利用卷积神经网络通过全连接层或机器学习自动分割病灶、提取图像特征，并自动组合特征对癌症进行分类，为临床医生的诊断和治疗方案提供了新思路。但癌细胞是否有淋巴结转移在乳腺钼靶摄影中差异不大，难以区分，属于细粒度图像分类的问题。

本文提出一种基于深度学习的乳腺癌淋巴结转移预测模型，命名为E-Transformer，解决了乳腺癌淋巴结转移的细粒度分类问题。该模型使用EfficientNet进行粗粒度特征提取，添加Transformer-encoder引入注意力机制来增强模型的细粒度特征处理能力，最后使用Lightgbm进行特征组合和二分类。

乳腺癌是乳腺上皮细胞在多种致癌因素作用下失控增殖的现象。疾病早期常表现为乳房肿块、腋窝淋巴结肿大、乳头溢液等症状。到了晚期，癌细胞可能会向远处转移，出现多器官疾病，直接威胁患者的生命。目前，乳腺X线摄影是乳腺病变的首选检查。其速度快、成本低、成像清晰度高、检查结果可以保存，作为后续对比评估的依据，非常适合作为后续辅助诊断的数据源。

卷积神经网络，从最初的AlexNet到后来的VGG、GoogleNet、ResNet，深度逐渐加深，层数也不断增加。逐层细化不同类别图像中的粗粒度语义特征，根据真实类别和输出类别计算损失，通过反向传播来更新网络模型的参数。传统的CNN模型通过任意增加神经网络的深度或宽度，或者使用更高分辨率的输入图像进行训练和评估来提高分类的准确性。为了解决手动调参进行优化的问题，我们使用EfficientNet来解决这个问题。

细粒度图像分类

在已知的基本类别的基础上，对更详细的子类别进行分类。目前，医学影像领域有着广泛的业务需求和应用场景。细粒度的图像具有更多相似的外观和特征，再加上集合中姿态、视角以及噪声干扰的影响，导致数据呈现出类间差异大、类内差异小的情况，使得分类变得更加困难。

目前的细粒度分类问题主要集中在自然图像领域，如何将注意力机制引入深度学习模型中一直是近年来的热点。例如，针对目标检测领域的细粒度分类问题，Facebook 在 2020 年提出了用于目标检测的 DETR 模型。这也是第一个成功将 Transformer 集成到检测的中心构建块中的目标检测框架管道。虽然Transformer在视觉领域的应用还不够成熟，在特征提取上离不开CNN的帮助。但它为我们提供了一种思路，将在自然图像目标检测中表现良好的CNN with Transformer模型迁移到医学图像的细粒度分类任务中。

模型结构

本文以乳腺癌淋巴结转移为切入点，提出一种基于深度特征的乳腺癌淋巴结转移预测模型E-Transformer。由于淋巴结转移属于超细粒度图像分类问题，因此需要引入更强的细粒度特征处理方法。针对图像信息冗余，基于注意力机制的Transformer可以将网络有限的注意力集中在关键信息上，从而节省计算资源，快速获取有用信息。

Transformer是注意力机制在计算机视觉领域最新、最成功的应用。首先**要在编码器部分进行细粒度的特征处理，EfficientNet负责粗粒度的特征提取，而lightgbm则负责最终的特征组合和分类。**该模型实现了医学图像的高精度、细粒度分类，成功地将CNN、Transformer和机器学习结合在一起解决了医学图像分类问题。

数据集

乳腺癌淋巴结转移智能诊断算法使用的数据集是河南省人民医院影像中心授权的人工标记钼靶乳腺癌图像。该数据集中共有391条真实临床数据，年龄从28岁到85岁不等，其中有淋巴结转移的患者169例，无转移的患者222例。

乳腺X线摄影图像以DICOM格式存储，掩码肿瘤标志物以mha格式存储。图像分辨率主要有两种，分别是3328 X 4096和2560 x 3328。乳腺X线摄影图像中的肿瘤标志物都是河南省人民医院的放射科医生花费业余时间完成的。所有病例均有医院提供的诊断结果，判断癌细胞是否已迁移至淋巴结。对比实验中，将391例病例按照7:3随机分为训练集和测试集。为了减少实验误差的影响，我们重复实验100次，取平均值作为最终的实验结果。

数据增强

鉴于当前数据集划分为训练集的样本数量仅略多于270个，这使得模型很容易陷入过拟合。因此，采用数据增强的方法来扩大数据集是非常有必要的。在分割的病灶图像的基础上，我们通过镜像、旋转、扩展以及二三者的组合将训练集扩大到原始大小的26倍。

粗粒度图像特征提取

EfficientNet提出了一种更有原则的方法来扩展CNN，以实现更好的准确性和效率。可以使用一系列固定的缩放系数来统一缩放网络维度。通过这种新颖的缩放方法和AutoML技术，它的效率高达 10 倍（模型更小、速度更快）。综上所述，以 EfficientNet-BO 作为粗粒度图像特征提取主干。

EfficientNet的核心思想是在模型的深度、宽度和分辨率这三个维度上同时进行缩放，以达到更好的性能和效率。

MBConv模块则是EfficientNet中用于实现这种缩放的关键部分，它采用了倒转残差结构，即先通过1x1的卷积降低通道数，再进行3x3的深度可分离卷积，最后再通过1x1的卷积恢复通道数。这种结构可以在减少计算量的同时保持模型的性能。

细粒度特征加工

Transformer 有两个模块，self-attention 和 Feed Forward Neural Network，可以通过自身堆叠来构建模型。但是可以采用Transformer的Encoder模块作为细粒度特征整理模块，对CNN提取的粗粒度特征进行进一步处理。

特征组合与分类

决策树工具LightGBM，提出了两项新技术：基于梯度的单边采样（GOSS）和专有特征绑定（EFB）。其中GOSS排除了大部分梯度较小的数据实例，只使用剩余的样本来计算信息增益。GOSS可以在较小的数据量下获得相当准确的信息增益估计。而EFB通过捆绑互斥的特征，减少了特征数量和计算负担。

使用LightGBM作为最后一层特征分类器，对Transformer Encoder的细化特征进行特征组合和二分类。