DBU-Net：用于乳腺超声图像中肿瘤分割的双分支U形网络

摘要
引言
材料和方法
概述所提出的方法

DBU-Net Dual branch U-Net for tumor segmentation in breast ultrasound images

摘要

乳腺超声医学图像通常具有低成像质量沿着不清楚的目标边界。这些问题使得医生在诊断患者时准确识别和概述肿瘤具有挑战性。由于精确的分割是至关重要的诊断，有一个强烈的需要，自动化的方法来提高分割的准确性，这可以作为一个技术辅助诊断。最近，U-Net及其变体在医学图像分割中取得了巨大的成功。在这项研究中，从U-Net概念中汲取灵感，我们提出了一种新的U-Net架构变体，称为DBU-Net，用于乳腺超声图像中的肿瘤分割。为了提高编码器的特征提取能力，我们引入了一种新的方法，涉及利用两个不同的编码路径。在第一条路径中，使用原始图像，而在第二条路径中，我们使用使用Roberts边缘过滤器创建的图像，其中边缘被突出显示。这种双分支编码策略有助于通过相互信息的学习过程来提取语义丰富的信息。在编码器的每一级，两个分支独立地经历两个卷积层，然后是池化层。为了促进分支之间的交叉学习，实现了加权加法方案。这些权重通过考虑相对于损失函数的梯度来动态学习。我们评估了我们提出的DBU-Net模型在两个数据集上的性能，即BUSI和UDIAT，我们的实验结果表明，与最先进的模型相比，它具有上级性能。

引言

乳腺癌对女性健康构成重大威胁，占全球癌症总发病率的11.7%，超过肺癌成为最常见的癌症 $1$ 。早期发现在提供及时的临床决策、治疗和康复计划方面起着至关重要的作用，最终降低死亡率。乳腺癌通常通过体检、成像技术（如乳房X线摄影、超声和乳腺磁共振成像（MRI））以及活检等方法检测 $2$ 。然而，体格检查可能具有挑战性，以区分恶性和良性病变，可能需要经验。活检被认为是确定病变性质的金标准，但可能是一个痛苦和不方便的过程，有时需要多次尝试。在偏远或资源匮乏的地区，活检实验室的使用也可能受到限制，导致诊断延误。

为了减少不必要的活检和不舒服的体检，超声成像是一种有吸引力的替代乳房X线摄影和MRI，由于其提高灵敏度，缺乏辐射，成本低，广泛可用。然而，超声成像有几个局限性，包括低对比度，分辨率差，模糊的边缘，由于噪声，如斑点，声学阴影，和模糊的周围组织。因此，超声图像中的乳腺肿瘤诊断对于放射科医生来说仍然是耗时的、具有挑战性的和主观的。为了简化这一过程，已经开发了计算机辅助诊断（CAD）系统，提供可靠的结果和简化操作 $3$ 。这些方法被认为是成本效益和节省时间。值得注意的是，乳腺癌的发生在低收入或中等收入国家更令人担忧。与发达国家相比，这些国家中的大多数国家的医疗保健基础设施往往不太发达。这对大多数容易感染这些潜在致命疾病（如乳腺癌）的人群构成了重大挑战 $4$ 。CAD系统可以作为医疗行业的宝贵工具，在医疗保健的各个领域实现具有成本效益的解决方案 $5-10$ 。

乳腺癌区域的分割是识别乳腺癌病灶的重要步骤之一。医学图像分割旨在识别和隔离图像中具有重要医学意义的特定区域。通过这样做，可以突出相关领域或感兴趣的区域，这可以用作临床诊断和病理学研究的可靠基础 $11，12$ 。然而，医学图像分析提出了一些挑战，如纹理，形状和个体差异的变化，这使得手动注释在临床环境中的普遍做法。这一过程很耗时，需要专门知识。因此，越来越需要准确可靠的自动分割方法。这些方法可以减少临床专家的工作量，帮助他们提高效率 $11$ 。在文献中，许多分割程序已被各种研究人员采用。在典型的图像分割过程中，考虑输入图像，并且期望相应的分割图作为输出。

自过去十年深度学习兴起以来，基于卷积神经网络（CNN）的模型在各种图像分割任务中取得了显着进展 $13-18$ 。2015年，Jonathan等人 $19$ 开始探索CNN的应用，以端到端的方式执行自动分割任务。他们引入了一种称为全卷积神经网络（FCN）的新型架构，该架构以端到端的方式使用CNN进行图像分割。然而，与ImageNet不同的是，医学图像数据集通常包含高度相似的图像，这使得使用FCN提取足够的上下文信息和感受野具有挑战性。这可能导致分割性能差 $20$ 。为了解决这个问题，研究人员提出了先进的框架来提高效率。一种流行的方法是U-Net $21$ ，它基于FCN，但可以提取更丰富的上下文信息，具有更充分的感受野，从而提高医学图像分割的性能。U-Net是医学图像分割中广泛使用的网络，因为它能够通过跳过连接来提取上下文信息。该网络具有编码器-解码器设置，其中编码器对图像进行下采样以提取特征，而解码器利用这些特征（来自编码器）通过跳过连接的帮助对输出分割掩码进行上采样。这允许网络获得不同粒度的特征，从而生成改进的分割掩码。跳跃连接的存在促进了从编码器到解码器的低级到高级特征的转移，这最终导致对上下文信息的增强理解。总体而言，U-Net通过跳过连接连接上下文信息的有效性使其成为医学图像分割的热门选择 $22，23$ 。

在U-Net出现之后，人们提出了一些新的方法来提高医学图像分割的性能。例如，Deep Residual U-Net $24$ 将残差块集成到编码器和解码器层中，这加深了网络并增强了其性能。其他模型，如Alom等人的RCNN和R2 CNN $25$ ，使用循环机制来积累特征。BCDUNet $26$ 使用双向ConvLSTM而不是skip连接，并将一个密集卷积块应用于底部编码层。注意力机制也被引入到U-Net的跳跃连接中 $27$ 。为了解决在U-Net的常规跳过连接中混合语义上不同的特征的问题，U-Net++ $28$ 用嵌套和密集的跳过连接增强了标准跳过连接。U-Net++实现了一种深度监控机制，允许删除密集的网络结构，从而增加了模型的灵活性。除了改变神经网络的架构，研究人员还考虑并研究了修改这些网络中使用的内核大小的可能性 $29$ 。

虽然这些模型在医学图像分割的某些任务中已经达到了最先进的性能，但它们主要集中在修改上下文特征提取概念以及在编码器和解码器之间传递信息上。这种方法由于没有考虑同时提取空间信息和上下文信息，可能会导致边界区域像素的误分类。这些网络中的每一个，例如UNet++、R2 CNN以及许多其他网络，都利用了由编码器提取的特征的某些特征，这些特征进一步用于生成分割掩码。在这个深度分割网络池中，很少有方法专注于通过使用边缘检测来丰富编码特征。从视觉角度来看，特定对象的边缘可以用于定位对象。受这一想法的启发，在这项工作中，我们提出了一个基于端到端深度神经网络的分割网络，称为DBU-Net，它融合了边缘和原始图像的信息。每个分支学习到的编码信息融合了原始图像的Roberts边缘信息和编码信息。最终的目标是本地化的背景，以产生一个更好的分割掩模，它可以作为一个支持工具，以医疗专业人员的廉价，强大和快速诊断乳腺癌。

本文的主要贡献概括如下：

·介绍了一种新的医学图像精确分割方法DBU-Net。与普通的U-Net不同，我们更加强调编码器路径中的特征提取过程，并提出了一个双编码器模型。

·我们提出的方法涉及利用两个单独的输入路径进行编码过程。其中一个分支包含原始图像，另一个分支使用从原始图像获得的Roberts边缘信息。

·采用双分支编码策略，利用交叉学习方法丰富潜在空间中的语义信息。为了便于交叉学习，利用加权加法机制，而权重是基于模型训练期间的损失梯度来确定的。

·在两个乳腺癌数据集，即BUSI和UDIAT上评估所提出的方法的性能。结果非常令人鼓舞，在BUSI和UDIAT数据集上分别获得了74.34%和77.46%的IoU评分以及85.28%和87.28%的Dice评分。

论文的其余部分结构如下。首先，描述了所提出的方法和所使用的数据集。接下来，给出了实验结果和分析，并对结果进行了讨论。最后，我们总结了我们的工作，并指出了一些局限性和未来的扩展可能性。

材料和方法

在本节中，我们首先对实验所用的数据集进行了全面的解释，然后对我们提出的模型进行了全面的讨论。

数据集描述

在本研究中，使用BUSI $30$ 数据集对所提出的技术进行训练和评估。2018年，收集了600名年龄在25至75岁之间的女性患者的BUSI数据集。基线数据包括乳腺超声图像，平均图像大小为500 × 500像素，PNG格式。该数据集包含780张图像沿着，这些图像带有被分类为三类的真实掩模：正常、良性和恶性。然而，我们已经考虑了当前任务的良性和恶性图像。图1示出了样本图像沿着以及从数据集获取的掩模。表1显示了BUSI图像在三个类别中的分布。

数据预处理和分区---五折交叉验证--二八分

在本节中，我们讨论了我们应用于BUSI数据集图像的数据预处理和分区技术。共647图像从良性和恶性类考虑。由于正常图像没有标签掩码，从当前任务中排除了133个正常图像实例。为了解决原始BUSI图像大小不一致的问题，我们将所有图像调整为256 × 256像素的统一大小。为了优化计算资源，我们通过将像素值从0到255的原始范围缩放到0到1的新范围来执行图像归一化。这是通过将每个像素值除以最大可能像素值（255）来实现的。此外，有17个病例（16个良性病例和1个恶性病例）具有多个掩模，即，这里，对于每个图像，存在多个掩模，但是都属于同一类。在这些情况下，我们将相关的掩码合并在一起以获得单个掩码。这种类型的一个图像如图2所示。

此外，我们使用五重交叉验证方法将数据集分为训练集和测试集。5折交叉验证方法涉及将数据集分成5个相等大小的组，称为折叠。在实验过程中，学习模型在5个折叠中的4个上进行训练，剩余的折叠用于测试。这个过程是重复的所有可能的组合oftraining和测试folds。

概述所提出的方法

U-Net架构由两个组件组成：1）编码器（收缩路径），和2）解码器（扩展路径）。基本结构考虑以离散连续的方式从编码器到解码器的映射。然而，必须注意的是，我们通常只在U-Net中使用CNN。在这项工作中，受U-Net思想的启发，我们提出使用两个由独立输入组成的编码路径。其中一个分支使用原始图像，第二个分支使用Roberts边缘图像，这种双分支编码方案主要是通过交叉学习的方式来丰富潜在空间中的语义信息。在编码器的每一级中，分支分别由两级卷积和池化组成。最后，对于交叉学习，我们利用加权加法方案，其中考虑梯度w.r.t.失去亲人图3提供了整个管道的综合视图。

Dual encoding branch--双重编码分支

图1显示了图像在从图像中分割出病变方面存在重大挑战。这项工作的主要目的是准确地识别包含病变的区域，但在视觉上很明显，病变有时会出现中空。这在区分边界区域方面产生了相当大的困难，这进一步由于整个图像中纹理的相似性而变得复杂。因此，准确地突出边界区域以产生有效的分割图至关重要。我们通过利用Roberts边缘信息来编码和突出显示区域，从而提高分割图的质量来解决这一挑战。确切地说，双分支编码模块考虑两个分支的两个输入。每个分支有两级卷积，滤波器大小为3 × 3。这些卷积中的每一个之后都是整流线性单元（ReLU）激活。在卷积之后，为了降维，我们使用2 × 2窗口大小的Maxpooling操作来池化这些特征，窗口的步幅等于（2，2）。这一过程之后的辍学率为0.2。

我们以一种独特的方式融合这些特征，以庆祝交叉学习。简单地说，我们使用一种融合的方法来实现输入中不同类型特征之间的详细信息交换。这是通过为每种类型的处理后的特征图分配相等的权重来完成的，然后使用适当的优化器在整个网络中优化这些权重。这是根据等式（8）实现的，其中Fx是一种类型的经处理的特征图，Fy是另一种类型的输入，Wi是权重值，其中i 2 {x，y}。运算符（+）和（�）分别是简单的加法和乘法。我们最初将这些值设置为1。我们通过使用适当的优化器优化整个网络来进一步优化这些权重。通过添加原始输入，我们保留了每个生成的特征图的唯一性，并防止两个分支变得相同。这确保了这两种类型的特性在网络的每一层都得到了利用。所提出的DBU-Net模型的架构如图5所示。

Decoding: The expansive path--

在网络的扩展路径中，每一步都涉及到增加特征映射的大小，然后进行2 × 2卷积，将特征通道的数量减少一半。然后将得到的特征图与收缩路径中相应的裁剪特征图连接起来，这是必要的，因为在卷积过程中会丢失边界像素。然后应用两个3 × 3卷积，每个卷积后面都有一个ReLU。网络的最后一层使用1 × 1卷积将每个特征向量映射到所需的类别数量。