6.13.1 使用残差神经网络堆叠集成进行乳腺肿块分类和诊断的综合框架

计算机辅助诊断 (CAD) 系统需要将肿瘤检测、分割和分类的自动化阶段按顺序集成到一个框架中，以协助放射科医生做出最终诊断决定。

介绍了使用堆叠的残差神经网络 (ResNet) 模型（即 ResNet50V2、ResNet101V2 和 ResNet152V2）进行乳腺肿块分类和诊断的最后步骤。这项工作提出了将检测到和分割的乳腺肿块分类为恶性或良性的任务，并诊断乳腺影像报告和数据系统 (BI-RADS) 评估类别，评分从 2 到 6，形状为椭圆形、圆形、分叶状或不规则形。

所提出的方法在两个公开可用的数据集上进行了评估，即筛查乳房 X 线摄影数字数据库的精选乳腺影像子集 (CBISDDSM) 和 INbreast，此外还在一个私人数据集上进行了评估。使用 XGBoost 分类器对各个模型和平均模型集合进行了比较实验。定性和定量结果表明，所提出的模型在以下方面取得了更好的表现：(1) 病理分类准确率分别为 95.13%、99.20% 和 95.88%；(2) BI-RADS 类别分类准确率分别为 85.38%、99% 和 96.08%，分别在 CBIS-DDSM、INbreast 和私有数据集上；(3) 形状分类准确率在 CBIS-DDSM 数据集上为 90.02%。结果表明，提出的集成框架可以从所有自动化阶段中受益，从而超越最新的深度学习方法。

一个完全集成的 CAD 系统将开始其第一阶段，即检测和定位可疑病变并区分其类型，即肿块、钙化、结构扭曲等。然后，在第二阶段，CAD 系统应对获得的乳腺病变周围的感兴趣区域 (ROI) 进行分割，以识别其解剖轮廓并去除其组织背景，而不会丢失其形状精度。最后，可以提取有关病变病理的诊断信息，将确定的病变分类为恶性或良性，并识别其特征，例如使用乳腺影像报告和数据系统 (BI-RADS) 评分进行肿瘤分级和形状分类。

最常用的是传统的机器学习分类器和基于手工制作特征的阈值方法。

深度学习模型已经超越了卷积神经网络 (CNN) 算法的简单改编，呈现出几种优于图像分类结果的高级架构。CNN 架构模型最初是为图像分类而提出的，并且已成为许多流行的最先进架构的基础，例如 ResNet、AlexNet、EfficientNet、VGG 等。因此，许多研究已经研究并应用了最近的分类模型进行乳腺病变分类，并且已在 CAD 系统中采用不同的方法，例如使用集成学习、迁移学习和融合建模。

在本文中，我们使用堆叠的神经网络模型集合进行 CAD 系统的最后阶段，即乳腺肿块分类和诊断。随后是乳腺肿块分割步骤。这项工作为乳腺癌 CAD 系统提供了一个综合框架，因为其性能依赖于三个相互关联的阶段，当前步骤将对乳腺肿块的病理（即良性或恶性）、BI-RADS 类别（即得分从 2 到 6）及其形状（即椭圆形、圆形、分叶状或不规则形）做出最终决定。

1. 文献综述

一些研究尝试为计算机辅助诊断 (CAD) 系统提出机器学习方法，以协助专家做出最终诊断决策，并专注于改善数字乳房 X 线摄影中乳房肿块分类的结果。在此背景下，Dhahri 等人使用Tabu搜索来选择最重要的特征，然后将它们输入 K 最近邻 (KNN) 算法，将乳腺病变分类为恶性或良性。

例如，Shen 等人31 开发了一种端到端方法，将数字乳房 X 光照片分类为癌症或正常。该研究使用 VGG 网络和残差网络 (ResNet) 提出了一种现代 CNN 结构，并在 CBIS-DDSM 数据集上实现了 0.91 的 ROC 曲线下面积 (AUC)，在 INbreast 数据集上实现了 0.98 的 AUC。

Shams 等人32 构建了另一个端到端模型，称为 DiaGRAM，它将 CNN 和生成对抗网络 (GAN) 相结合。这项研究旨在将乳房 X 光照片分类为良性或癌症，在 DDSM 数据集上的准确率为 89%，在 INbreast 数据集上的准确率为 93.5%。

Li 等人 33 的论文发明了一种改进的深度学习方法，即 DenseNet-II 模型，用于对乳房 X 线照片的良恶性进行分类。该模型应用于私人收藏的乳房 X 线照片，准确率达到 94.55%。相应地，Zhang 等人 34 提出了一种大规模分类模型，将纹理特征与深度 CNN 特征相融合，在 CBIS-DDSM 数据集上取得了 94.30% 的准确率。

Muramatsu 等人 35 的另一篇论文中，通过添加使用循环 GAN 从计算机断层扫描 (CT) 中的肺结节生成的合成数据来提高 CNN 模型的性能。在 DDSM 数据集上测试了分类性能，准确率达到了 81.4%。

Chakravarthy 等人 36 提出了一种定制方法，将深度学习与极限学习机 (ELM) 相结合，用于将异常 ROI 图像分类为恶性或良性。所提出的研究在 DDSM 上实现了 97.19% 的最大准确率，在乳腺图像分析协会 (MIAS) 数据集上实现了 98.13% 的最大准确率，在 INbreast 数据集上实现了 98.26% 的最大准确率。

在 Khan 等人 37 的最新研究中，实施了一种基于多视图特征融合 (MVFF) 的 CAD 系统，通过结合来自四个乳腺 X 光检查视图的信息来提高 CNN 的性能，以便将其分类为恶性或良性，在 CBIS-DDSM 和 mini-MIAS 数据库上的 AUC 为 0.84。Jasti 等人 38 的研究解决了乳腺癌诊断问题，首先使用 AlexNet 模型进行特征提取，通过救济算法进行特征选择，然后使用 KNN、随机森林和朴素贝叶斯建立简单的机器学习模型进行疾病分类。

Kumar 等人39 提出了一种使用 4 类神经网络分类器组合的乳腺密度分类框架。该研究在 DDSM 数据集上的分类准确率为 90.8%。Yurttakal 等人40 最近的一项研究引入了梯度增强和深度学习模型的堆叠组合，使用 DCE-MRI 图像对乳腺肿瘤进行分类。该研究在私人乳腺 MRI 数据集上的准确率为 94.87%，AUC 值为 0.9728。

除了集成学习方法外，迁移学习还与深度学习技术相结合，以开发一种区分良性和恶性乳腺癌的方法。因此，在 Alkhaleefah 等人 41 的研究中，使用了双重迁移学习 (DSTL)，一次在 ImageNet 数据集上对各种预训练网络进行微调，另一次在类似于目标数据集的更大数据集上进行微调。该方法在 CBIS-DDSM 上进行了训练，并显示出比单次迁移学习更好的性能，在 MIAS 数据集上的平均 AUC 为 0.99，在 BCDR 数据集上的平均 AUC 为 0.94。

Falconí 等人 42 在 NasNet Mobile 模型上使用迁移学习，并在 VGG 模型上进行微调，根据 BIRADS 量表对乳房 X 光检查图像进行分类，在 INbreast 数据集上的准确率达到 90.9%。

Medeiro 等人 43 的一项研究结合了 DenseNet201 和多感知器层 (MLP) 模型，对乳腺肿块恶性程度在 BI-RADS 3 级和 4 级内的病理进行分类。该模型的准确率达到 63%，比人类专家的表现高出 9.0%。

Tsai 等人 44 的另一项近期研究提出了一种基于深度神经网络 (DNN) 的模型，该模型使用基于块的图像进行训练，以对亚洲私人数据集的 BI-RADS 类别进行分类。

为了实现高效的肿块分类和诊断程序，捕捉纹理和形态特征有助于医生了解乳腺肿瘤的性质并评估其恶性程度。例如，Bi 45等人的研究表明，恶性肿瘤的概率与乳腺病变的形状和形态高度相关。因此，一些研究将分割阶段纳入其中，以提供完整、有意义的诊断。

Tsochatzidis 46等人之前的研究修改了 CNN 的卷积层，以整合输入图像及其相应的分割图，从而提高乳腺癌的诊断率。该方法应用于 DDSM-400 和 CBIS-DDSM 数据集，诊断性能达到 AUC 0.89 和 0.86。同样，Li 47 等人提出了一种双卷积神经网络，可以计算肿块分割并同时预测诊断结果。该模型同时对大规模分割和癌症分类问题做出了改进，在DDSM数据集上实现了0.85的AUC，在INbreast数据集上实现了0.93的AUC。

近期，大多数开发的 CAD 系统都已将乳腺癌诊断程序自动化，即获取整个乳房 X 光检查图像并返回最终诊断。因此，许多研究已将识别乳腺病变可疑区域的第一阶段整合在一起，并基于其自动输出执行分割和分类任务。例如，Sarkar 等人48 提出了一种自动化 CAD 系统，该系统使用深度分层预测网络检测潜在病变的可疑区域，然后使用 CNN 结构将其分类为肿块或非肿块，最后分为恶性或良性。该工作经过测试，在 DDSM 数据集上的准确率为 98.05%，在 INbreast 数据集上的准确率为 98.14%。

Dhungel 等人49 提出的另一个用于乳腺肿块分类的全自动系统将肿块检测和分割集成在一个完整的 CAD 系统中。该方法使用多尺度深度信念网络（m-DBN）分类器，然后级联CNN和随机森林分类器以减少肿块检测的假阳性，使用条件随机场（CRF）进行肿块分割，使用多视图深度残差神经网络（mResNet）进行肿块分类。这项成果在INbreast数据集上实现了0.8的AUC。

Singh等人50最近的研究提出了一种自动化工作流程，该工作流程使用单次检测器（SSD）从乳房X光片中检测乳腺肿瘤区域，然后使用条件生成对抗网络（cGAN）勾勒出其分割掩模，最后使用CNN进行形状分类。该框架在形状分类方面实现了80%的总体准确率。

Al-Antari等人51提出了一种通过深度学习技术实现的数字乳房X光片的完全集成的CAD系统。它首先使用 You-Only Look Once (YOLO) 架构模型进行肿块检测，然后使用全分辨率卷积网络 (FrCN) 对检测到的区域进行肿块分割，最后使用 CNN 模型将检测和分割的肿块分类为良性或恶性。整个框架在 INbreast 数据集上的整体分类准确率为 95.64%。Al-Antari 等人 52 最近的研究中对肿块分类步骤进行了不同的解决，他们分别采用了三种传统的深度学习模型，包括常规前馈 CNN、ResNet-50 和 InceptionResNet-V2。该工作在 INbreast 数据集上实现了 95.32% 的最大准确率。

受到 CNN 模型及其变体在乳腺肿块分类方面不断取得成功的启发，提出了一个堆叠的残差网络 (ResNet) 模型组合，用于对之前检测到和分割的肿块病变进行分类和诊断。所提出的模型使用 ResNet 模型的三种不同架构，即 ResNet50V2、ResNet101V2 和 ResNet152V2，这些架构在乳房 X 线摄影数据集上进行了传输和微调。这些模型的各层堆叠在一起并重新配置为一个完整的模型，用于对以下方面进行整体分类和诊断：1) 病理为恶性或良性；BI-RADS 类别为 2 到 6 的评估分数；3) 病变的形状为圆形、椭圆形、分叶状或不规则形。

1.1 本文贡献

展示了一种集成建模技术（堆叠神经网络集成）的有效性，可以增强用于乳房 X 线摄影图像分类的 SOTA 模型之一的个体性能。

乳腺癌 CAD 系统的集成框架对于精确分类和诊断至关重要，其中重点突出检测和分割结果。

提供完整的乳腺癌诊断，包括恶性肿瘤分类、BI-RADS 评估评分和肿瘤形状分类。

这项研究将作为乳腺癌 CAD 系统集成框架的最后阶段。Baccouche 等人在最近的研究中提出了前几个阶段，其中首先使用基于 YOLO 的融合模型应用检测和分类步骤来定位和识别可疑乳腺病变为肿块或分类 28，然后仅使用检测到的肿块，提出了一种 Connected-UNets 53 模型来改进乳腺肿块分割，该模型结合了 CycleGAN 模型生成的真实数据和合成数据。

本文的灵感来自集成模型学习和融合建模，在最近的许多研究中都表现出了很高的效率。所建议的方法是在两个最受欢迎的公共乳房 X 线摄影数据集上进行的：乳房 X 线摄影筛查数字数据库的精选乳房成像子集 (CBIS-DDSM) 和 INbreast，以及私人乳房 X 线摄影集合。

2. 材料与方法

提出了一个堆叠模型组合来对检测到的和分割出的乳腺肿块进行分类和诊断。基础模型来自 ResNet 架构及其变体。方法采用了不同的策略：迁移学习、堆叠集成学习和图像数据增强。

2.1 ResNet 基础模型：迁移学习和微调

ResNet 是 He 等人 54 提出的一种深度 CNN 架构，自推出以来，已成为在医学成像应用中普遍成功的近期架构之一 55,56。ResNet 使用残差块，在层之间使用跳跃连接，一次绕过几个卷积层。这种架构加速了大量深层的收敛，因此，它被发现可以有效地提供输入图像的紧凑表示并提高分类任务的性能 27。ResNet 有一些常见的架构，如 ResNet-50、101 和 152,46，它们表示深层的数量。或者，ResNet 架构提出了 He 等人 57 提出的 ResNetV2 的改进版本，其中最后一个 ReLU 被删除，以使用简单的身份连接清除快捷路径，如补充图 1 所示。

方法采用了三种预先训练的 ResNetV2 架构。训练深度学习模型通常需要大量带注释的数据，这有助于优化架构中所需的大量参数和计算。然而，可用的医学成像数据集通常规模有限，要么存在标签缺失，要么存在数据分布不平衡的问题。迁移学习通过在大型多样化数据集（即 ImageNet、MSCOCO 等）上训练模型来捕捉与图像分类相关的早期层中的曲线、边缘和边界等通用特征。之后，应在自定义特定数据集上对预训练模型进行提醒和微调，以反映最终分类。此过程提供了对小数据集的快速且可泛化的训练，并避免了深度学习常见的过度拟合问题。

如图 1 所示，我们将迁移学习应用于基础架构 ResNetV2，以便我们提出的方法成为 TF-ResNetV2。该模型最初在 ImageNet 上进行预训练，然后冻结前四个残差层块，但需要重新训练 BN 层以提高训练收敛性。之后，通过添加另一个大小为 1024 的 FC 层来修改整个架构，然后添加一个 dropout 正则化层以保持训练的泛化方面。根据每个分类任务的类别数量放置一个新的最终 FC 层，并重新训练整个 TF-ResNetV2。

2.2 用于乳房肿块分类的 ResNet 模型堆叠集成

集成学习被认为是提高分类任务结果的有效方法。将较弱的分类器组合起来以创建更好的最终分类预测，这种做法已被 bagging、boosting 或 stacking 模型所采用。bagging 是通过从不同模型中独立学习然后对预测取平均值来实现的 ，而 boosting 是通过从同质学习器中顺序学习并将它们迭代组合成最终模型来实现的 。另一方面，stacking 被认为是一种并行学习不同弱学习器并将它们组合成元模型的方法 ，该元模型随后经过训练以实现分类预测 60。

提出了一个由三种不同的 ResNet 模型组成的堆叠集成模型来进行分类任务。在移除每个 ResNetV2 架构的最后一个 FC 层后，将两层网络视为一个元分类器模型，该模型连接三个模型的层，并堆叠三个大小分别为 1000、100 和 10 的不同 FC 层，并结合激活函数 Sigmoid 和 ReLU。如下图所示，在分别训练 ResNet50V2、ResNet101V2 和 ResNet152V2 后，根据前几层的预测，将每个模型的预训练权重提取为大小为 1024 的图像特征，并将其视为整个 ResNet 模型堆叠集成的新输入，用于最终的类别预测.

2.3 集成框架：肿块检测、分割和分类。

最终框架现在应该包含乳腺癌分析和诊断的所有自动化步骤。因此，如图 3 所示，集成框架首先使用基于 YOLO 的融合模型28 检测和定位乳腺肿块，该模型只需要整个乳房 X 光检查图像并输出似是而非的病变周围的边界框。对该模型进行了评估，发现肿块病变的最大检测准确率为 98.1%。下一步应该分割检测到的乳腺肿块 ROI，并生成仅可见病变边界的二元掩模图像。第二步是使用提出的 Connected-UNets 模型53 实现的，该模型通过 CycleGAN 生成的合成数据进行了改进。分割步骤是在缩放到最佳尺寸 256×256 像素的 ROI 图像上进行的。

图三：所提出的集成 CAD 框架。(a) 带有肿块真实值的原始乳房 X 光片（红色）；(b) 叠加在原始乳房 X 光片上的检测到的肿块 ROI（黄色）；(c) 带有真实值的检测到的 ROI 肿块（红色）；(d) 输出 ROI 肿块的分割二进制掩模；(e) 带有标记组织的分割 ROI 肿块。

结果显示：Dice 得分高达 95.88%，交并比 (IoU) 高达 92.27%。之后，使用蒙版组织生成的乳腺肿块的分割和检测 ROI 进行第三步也是最后的分类。堆叠的 ResNet 模型集合针对每个分类任务的输入 ROI 肿块进行独立训练，最终预测病理是恶性还是良性，BI-RADS 类别的评估分数在 2 到 6 之间，形状是圆形、椭圆形、分叶状还是不规则形。

2.4 数据集

在两个公共数据集（CBIS-DDSM 和 INbreast 数据集）和一个独立的私有数据集上评估了所提出的分类方法。CBIS-DDSM 数据集61 是筛查乳房 X 线摄影数字数据库 (DDSM) 的更新和标准化版本，其中的图像由放射科医生审查以消除不准确的病例并从无损联合摄影专家组 (LJPEG) 转换而来。它包含来自 1555 名独特患者的 2907 张乳房 X 线摄影照片，其中 1467 张是通过两种不同视图（即 MLO 和 CC）获得的具有肿块病变的乳房 X 线摄影照片。原始乳房 X 线摄影照片的平均大小为 3000×4800 像素，并与其像素级注释和类标签（即病理学、BI-RADS 类别和形状）相关联。

INbreast 数据集 62 是一个公共数据库，其中包含 DICOM 格式的全视野数字乳房 X 线摄影 (FFDM) 图像。它包含来自 115 名不同患者的 410 张乳房 X 线摄影照片，其中只有 107 例在 MLO 和 CC 视图中均出现肿块病变。原始乳房 X 线摄影照片的平均大小为 3328×4084 像素，包括像素级注释和类别标签（即病理学和 BI-RADS 类别）。

私有数据集是墨西哥城国家癌症研究所 (INCAN) 的乳房 X 光检查集合，包含 3 期和 4 期乳腺癌，共有 208 名患有肿块病变的独特患者的 389 例病例。图像平均为 300×700 像素，从不同视图（即 CC、MLO、ML 和 AT）获取，并包括相关的像素级注释和类别标签（即病理学和 BI-RADS 类别）。

图 4 展示了原始乳房 X 光检查样本及其 ROI 肿块与不同数据集中检测到和分割的 ROI 肿块的比较。

由于在之前的研究中不断探索数据集，在第一步检测和定位中使用了包含肿块和钙化病例的原始乳房 X 线照片；因此，仅保留肿块病例的检测 ROI 进行第二步分割。公平地说，**一些乳房 X 线照片有多个 ROI，因此用于第三步分类和诊断的检测和分割的 ROI 肿块数量可能会有所不同。**由于每个数据集中的 ROI 肿块数量有限，原始 ROI 数据通过以角度 Δθ={0°, 90°, 180°, 270°} 旋转它们增加了四倍，并使用对比度限制自适应直方图均衡化 (CLAHE) 方法进行了两次不同的变换。表 1 详细说明了每个乳房 X 线摄影数据集的数据分布，无论类标签如何。

只有 CBIS-DDSM 数据集包含病变形状的真实类别标签。因此，INbreast 数据集显示 BI-RADS 评分为 2 至 6 的病例，但 CBIS-DDSM 数据集显示 BI-RADS 类别为 2 至 5 的病例，而私有数据集只有恶性病例，因为仅从第 3 和第 4 阶段获取乳腺癌病例。因此，私有数据集中的所有乳房 X 线摄影都属于 BI-RADS 类别 4 和 5。

3. 结果

3.1 数据准备

乳房 X 光检查通常使用数字 X 射线乳房 X 光检查扫描仪收集，该扫描仪通常会挤压乳房，从而降低图像质量。因此，应用预处理技术去除额外的噪声，并使用直方图均衡化来平滑像素分布，从而校正数据。此外，预训练的 ResNet 模型需要 224×224 的输入图像大小；因此，使用区域间重采样插值将检测到的和分割的 ROI 从 256×256 调整大小。最后，将所有图像归一化到 [0, 1] 范围内。

图 5 显示了每个分类类的输入数据样本，其中 ROI 根据乳房 X 光检查数据集中的不同类标签分布。

3.2 评估指标

所有分类任务都使用准确度和曲线下面积 (AUC) 进行整体评估，这些指标反映了在考虑不平衡的乳房 X 线摄影数据集时模型的性能。特别是，对于呈现二元类别情况的病理分类，使用三个附加指标，称为敏感性（Sensitivity）、特异性分数（Specificity）和 F1 分数。

F1 分数是一个表示特异性和敏感性之间的调和平均值的系数，其中其最高分数 1 表示完美的特异性和敏感性，0 表示最差的性能。此外，准确度分数（Accuracy）是所有情况下正确预测的比率，如等式 (4) 中所述，其中 TP、TN、FP 和 FN 是每个预测类定义的，分别表示真阳性、真阴性和假阳性以及假阴性预测的数量。

3.3 超参数调整

对超参数的不同变化进行了广泛的实验，以选择基础 ResNetV2 模型的最佳参数。考虑到它们对分类性能的影响，仅调整了表 5 中详述的超参数，以选择在所有乳房 X 线摄影数据集上表现优于评估网络的最佳配置网络。

对于所有数据集，将每个类别的图像随机分成 80% 的组用于训练，20% 的组在测试集和验证集之间平均分配。在每个实验中，都使用相同的可训练参数，并且每个超参数都相应地变化。对于所有数据集和分类任务，使用 Adam 优化，并使用加权准确度分数报告评估，以反映训练和测试期间的类别不平衡。根据分类任务使用损失函数，二元类使用二元交叉熵函数，多类使用分类交叉熵。在这两种情况下，标签平滑技术用于正则化，以帮助克服过度拟合并提供通用模型。该技术的工作原理是在损失函数期间明确更新标签，并在模型开始发散时降低模型的置信度。此外，使用一种方法来监控训练，当准确度在连续两个迭代中没有改善时，学习率会降低到原来的0.5倍。

最终，报告的最佳评估结果是：批量大小为 32、30 个时期、30% 的丢弃率（用于防止过拟合）、10-2 的学习率以及 25% 的平滑标签。

3.3 定量分类结果

针对不同的乳房 X 线摄影数据集，对提出的乳房肿块分类模型进行了训练，并将其与每个呈现任务的单个基础模型进行了比较。使用 XGBoost 分类器将堆叠的模型集合与不同模型权重的传统平均值进行了比较。

3.3.1 病理分类

如表 6、7 和 8 所示，分别针对 CBIS-DDSM、INbreast 和私有数据集比较了不同模型之间的病理分类结果。值得一提的是，由于私有数据集仅包含恶性病例，因此我们在所有数据集的组合上对模型进行了训练和测试。

比较结果表明，所提出的堆叠模型集成比具有不同深层数的基础 ResNet 模型（即 ResNet50V2、ResNet101V2 和 ResNet152V2）表现更好。因此，提出的方法优于使用 XGBoost 分类器的平均模型集成，而后者的表现略优于单个模型。注意到，在 CBISDDSM 数据集上的准确率高达 95.13%，在 INbreast 数据集上的准确率高达 99.2%，在私有数据集上的准确率高达 95.88%。此外，我们提出的模型在 CBIS-DDSM 数据集上实现了 0.93 的高灵敏度率，在 INbreast 数据集上实现了 1.0，在私有数据集上实现了 0.93 的高灵敏度率。

因此，总体上强调了集成学习技术在提高分类性能方面的优势，特别是使用深度学习模型的堆叠方法所取得的改进。此外，使用所有数据集测试集的 AUC 将病理分类性能与不同模型进行了比较。图 6 显示了真阳性率 (TPR) 与假阳性率 (FPR) 的接收者操作特性 (ROC) 曲线图，所提出的模型优于所有实验技术，CBIS-DDSM 数据集的 AUC 为 0.95，INbreast 数据集的 AUC 为 0.99，私有数据集的 AUC 为 0.96。

3.3.2 BI-RADS 类别分类

表 9、10 和 11 中显示的 BI-RADS 类别分类结果说明了所有乳房 X 线摄影数据集的不同模型之间的比较。如数据集描述部分所述，每个数据集都有不同的类别标签，从类别 2 到类别 6 不等。

与基本模型相比，使用提出的堆叠模型组合的性能明显提高，在 CBIS-DDSM 数据集上的准确率至少为 3.78%，在 INbreast 数据集上的准确率至少为 1%，在私有数据集上的准确率至少为 1.83%。此外，我们的方法比使用 XGBoost 分类器的平均集成模型获得了更好的 AUC 分数， CBIS-DDSM 数据集的 AUC 高达 0.94，在 INbreast 数据集上的 AUC 为 1.00，在私有数据集上的 AUC 为 0.95%。可以通过对所用模型之间的 ROC 曲线图进行视觉比较来确认，如图 7 所示。

3.3.3 形状分类

在 CBIS-DDSM 数据集上对提出的模型进行训练，以对乳腺肿块的形状进行分类，因为它是唯一拥有专家形状注释的数据集。同样，对所有训练过的模型进行了测试。毫无疑问，建议的堆叠模型集合在所采用的模型中准确率最高为 90.02%，与使用 XGBoost 分类器的平均模型集合相比，单独模型的性能显著提高了 1.7%，显著提高了 10.66%.

3.4 定性分类结果

如下所示，INbreast 数据集在恶性和良性类别之间具有最佳病理分类权衡，这可以通过以 FFDM 格式收集的乳房 X 光片的高质量分辨率来解释，这有助于区分两个类别标签。私有数据集也有一个显著的混淆矩阵，其召回率和准确率得分接近，与 CBIS-DDSM 数据集的表现相似。

INbreast 数据集具有最佳的 BI-RADS 分类权衡，每个类别的预测值从 0.92 到 1.0 不等。关于私有数据集，它只有两个 BI-RADS 类别 4 和 5，我们注意到一个类似的令人满意的混淆矩阵，预测分数分别为 0.93 和 0.96。 CBIS-DDSM 数据集对于 BI-RADS 类别分类的权衡略差，这是由于数字化 X 射线乳房 X 光片的 ROI 图像分辨率低造成的。混淆矩阵显示的值从 0.80 到 0.89，我们注意到，由于公共数据集中呈现的质量导致像素分布相似，因此四个类别的预测分数接近。

4. 讨论和总结

本研究中，实现了一个堆叠的 ResNet 模型集成，以将乳腺肿块分类为恶性或良性，并诊断其 BI-RADS 类别评估，评分范围为 2 到 6，形状为椭圆形、圆形、分叶状或不规则形。与单个架构和应用于现有基准数据集的其他方法相比，所提出方法的结果显示分类性能有所提高。

在两个公共数据集上实现了最高的病理分类性能：CBIS-DDSM 的准确率为 95.13%，AUC 得分为 0.95，INbreast 的准确率为 99.20，AUC 得分为 0.99。此外，我们在 CBIS-DDSM 数据集上的 BIRADS 分类结果超越了其他模型，准确率为 85.38%，AUC 得分为 0.94，在 INbreast 数据集上的准确率为 99%，AUC 得分为 1.0。还报告了 CBIS-DDSM 数据集形状分类的最高结果，准确率为 90.02%，AUC 得分为 0.98。

与将所呈现的分类任务应用于分割 ROI 块的类似框架相比，我们的模型在 CBIS-DDSM 数据集上的病理分类优于 MobileNet 和 NasNet 模型26，在 INbreast 数据集上优于基于 AlexNet 的 CNN 模型54 的 Ensemble。此外，在使用单个 CNN 模型55 评估的类似数据集 DDSM 上，形状分类取得了更好的结果。因此，堆叠模型技术提供了一种有效的方法，可以从不同深度的神经网络中学习，并将它们组合到另一个神经网络分类器模型中，以从单独训练的不同权重中受益。

这项工作整合了我们最近的基于 YOLO 的融合模型和 Connected-UNets 模型 53 的工作，这些模型生成了乳腺肿块的检测和分割 ROI。事实上，使用分割 ROI 的性能有所提高，这表明从肿瘤边界掩盖背景组织有助于改善整体分类和诊断，并降低假阳性和假阴性率。所提出方法的局限性在于每个时期的训练时间长达 0.74 秒，这是由于 ResNetV2 模型的可训练参数和计算量很大。总之，这项工作通过深度学习模型提出了乳腺癌 CAD 系统集成框架的最后阶段。检测、分割和分类三个阶段旨在提供一个完整的临床工具，可以帮助放射科医生对自动肿块肿瘤诊断提供第二个建议。未来的工作可以包括结合不同的乳房 X 线摄影数据集，并改进深度学习模型的长期训练以完成分类任务。