6.26.3 基于Transformer的深度神经网络在数字乳腺断层合成图像上的乳腺癌分类

开发一种有效的深度神经网络模型，该模型结合了相邻图像部分的上下文，以检测数字乳腺断层合成(DBT)图像上的乳腺癌。

数字乳房断层合成(DBT)是一种医学成像技术，其中检测器围绕患者以有限角度旋转并记录多幅图像。然后将这些图像重建为二维(2D)切片堆栈，从而改进病变检测、表征和定位。许多研究表明，与2D数字乳房x线摄影相比，DBT在筛查和诊断成像结果方面都有改善(1,2)。虽然DBT正在成为乳腺癌检测的标准，但其解释时间仍然是一个问题(3)。

使用神经网络进行DBT的一个关键挑战是三维(3D)数据量;每次扫描都有很高的空间分辨率和几个部分，这意味着一个病例在未压缩的情况下可以很容易地得到几GB的数据。此外，3D cnn(5)由于其庞大的计算成本而难以应用。因此，大多数DBT的计算机辅助检测方法一次只评估单个部分(6,7)，或者根据每个部分的推理结果将整个DBT堆栈合成为图像并评估该图像(8-10)。这些方法的缺点是区段之间的关系没有得到最佳利用。

在研究中，提出了一种考虑相邻切片的方法来检测DBT图像上的乳腺癌。方法依赖于一个配备了分割时空注意力的变压器来学习相邻部分之间的关系(17)。该方法在多个机构收集的数据集上进行了训练和评估。将提出的模型的分类性能与一次只分析单个DBT部分的基线模型和3D卷积基线模型的分类性能进行了比较。

材料和方法

数据

内部DBT数据集包括6829个(1699个癌症，3418个良性，1712个正常)四视图Hologic DBT研究，这些研究是通过外部实体从美国9个机构回顾性收集的。活检证实为癌，活检或随访影像至少1年证实为良性，随访影像至少1年证实为正常。

数据集分为训练集、验证集和测试集。来自一家机构的655份研究(163份为癌症，328份为良性，164份为正常)被用作测试集。其余的随机分为训练集和验证集，分别由5174个(1286个癌症，2590个良性，1298个正常)研究和1000个(250个癌症，500个良性，250个正常)研究组成。测试集未用于训练或调优。

对于每个DBT研究，放射科医生被要求在显示病变最大横截面积的部分画出病变的轮廓。这被认为比绘制所有剖面的轮廓更具成本效益，并且仍然可以捕获病变的最重要部分。除了轮廓外，注释者还被要求将病变的亚型分类为钙化、软组织病变(包括结构扭曲、肿块和不对称)或两者兼而有之。

模型开发

DBT扫描是由从多个角度拍摄的2D x光片重建的2D切片堆叠而成(1)。方法输入重建切片的DBT堆叠，并为每个切片生成预测。该模型输出其包含恶性病变的分段可能性和包含每个分段中每个像素的预测的热图。像素的值表示该像素属于恶性病变的可能性。

在DBT数据上训练深度神经网络是具有挑战性的，主要是因为它的高内存和计算需求。与2D乳房x线照相术类似，DBT切片以高分辨率(通常为50-80 μm)记录，以捕获钙化等细节。此外，每个视图的切片数量各不相同(每个视图有50到100张图像)，这意味着假设固定大小输入的典型模型不容易采用。

为了在提供给模型的信息和计算成本之间进行权衡，没有将整个DBT堆栈提供给模型，而是一次只提供部分的子集。对相邻部分进行采样，因为可疑病变通常只在堆栈的连续部分可见。通过这种方式，可以更容易地处理大量不同数量的部分。在测试期间，方法对整个DBT堆栈进行预测。模型由三个网络组成:骨干网、交互网络和聚合网络(图1)。骨干网独立地从每个输入部分提取特征图。交互网络随后通过与相邻的部分特征交互产生每个部分的上下文感知表示。最后，聚合网络对邻居特征进行约简，生成最终的预测分数、包含恶性病变的可能性以及恶性病变的热图。下面将详细解释每种网络。

骨干网络

骨干网以单个区段作为输入，输出一个特征表示。骨干网有多种架构选择，从2D CNN到3D CNN或长短期记忆。虽然我们的方法旨在捕获相邻部分之间的关系，但我们选择使用二维主干来适应二维乳房x线照片的预训练。

交互网络

交互网络的目的是捕获相邻部分的上下文，并对骨干网络提取的空间特征进行处理。实验了两种架构:TimeSformer(17)和3D卷积基线(Conv3D)。对于后者，我们堆叠了四个由3D卷积和批归一化和激活层组成的3D残差块(5,18)。

TimeSformer(17)是最近推出的一种用于高效视频分类的变压器架构。它将输入分解为补丁，即我们数据集扫描中的每个部分，这些补丁随后用作Transformer的输入令牌。然后对令牌进行分割时空注意，分别处理时间注意和空间注意(图2)。通过这种方式，可以有效地处理3D体积，而不会牺牲表现能力。当部署到DBT扫描时，剖面轴表示时间维度，高度和宽度表示空间维度。

时序发生器在交互网络中划分时空注意块。对于输入中的一个标记(在左侧块中突出显示)，将计算各部分(中间块)上相同空间位置上的标记的时间注意力。随后，计算同一部分(右块)中标记的空间注意力。

聚合网络

聚合网络结合多个区段的特征，预测每个目标区段的最终区段级分数和热图。使用沿截面方向的最大池化来聚合相邻的特征图。然后使用聚合的特征图来预测中心部分和像素级热图的分数。

子组分析

将测试集分成子组，并分析3D模型在这些特定组上的表现。首先，为了确定在阅读具有挑战性或模棱两可的检查时考虑邻近切片的影响，提取了一个由活检证实的癌症和良性研究组成的子集。活检证实的良性研究被召回并进行活检，因此可以认为是硬阴性结果，因为放射科医生不能单独使用图像对病变进行分类。

首先，数据集根据其放射学发现(即软组织病变、钙化或两者兼而有之)分为三个子集，以确定哪一组模型最有效。其次，根据估计的病灶大小对集合进行分割，病灶大小是基于标注多边形的像素数和医学标题中数字成像和通信的像素间距。数据被分成两个范围:直径小于或等于2厘米和直径大于2厘米。

统计分析

通过三个指标来比较这些方法:(a)受试者工作特征曲线下的面积(AUC)， (b)固定特异度下的灵敏度，(c)固定特异度下的特异性。为了比较灵敏度，选择了一个高特异性为0.8的操作点，这与作为检测辅助操作的系统相关，其中人们更喜欢少量的假阳性结果。为了进行特异性比较，我们选择了一个具有0.8高灵敏度的操作点，这是相关的，例如，在分类应用中，该模型将作为预滤波器工作。

使用DeLong检验(19)生成置信限，并比较不同算法的auc。为了产生置信限并在特定的操作点比较模型，使用了渐近正态近似(20)和McNemar检验。我们还通过计算每秒千兆浮点操作(FLOPS)的数量和测量墙时间中的相对模型延迟来比较不同架构的计算成本。

结果

计算效率

与Conv3D相比，基于TimeSformer架构的方法所需的计算量大大减少。