0.摘要

大多数人都认为成功训练深度网络需要成千上万个注释训练样本。在本文中，我们提出了一种网络和训练策略，依靠强大的数据增强来更有效地利用现有的注释样本。该架构由一个收缩路径和一个对称扩展路径组成，收缩路径用于捕捉上下文信息，扩展路径用于精确定位。我们证明，这样的网络可以从很少的图像进行端到端的训练，并在ISBI挑战中对电子显微镜堆栈中神经结构分割的先前最佳方法（滑动窗口卷积网络）进行了超越。使用相同的网络在传递光显微镜图像（相差和差分干涉对比）上进行训练，我们在ISBI 2015年细胞跟踪挑战中在这些类别上取得了很大的优势。此外，该网络速度快。在最新的GPU上，对512x512图像的分割只需不到一秒钟。完整的实现（基于Caffe）和训练好的网络可在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net上获取。

1.引言

在过去的两年中，深度卷积网络在许多视觉识别任务中超越了现有技术的水平，例如[7,3]。虽然卷积网络已经存在很长时间了[8]，但由于可用训练集的规模和考虑的网络规模有限，它们的成功受到了限制。Krizhevsky等人的突破[7]是由于在ImageNet数据集上对具有8层和数百万个参数的大型网络进行监督训练，该数据集包含了100万个训练图像。此后，甚至更大更深的网络已经被训练出来[12]。卷积网络的典型用途是在分类任务中，其中图像的输出是一个单一的类别标签。然而，在许多视觉任务中，特别是在生物医学图像处理中，期望的输出应包括定位，即应为每个像素分配一个类别标签。此外，在生物医学任务中，通常难以获得数千个训练图像。因此，Ciresan等人[1]在滑动窗口的设置下训练了一个网络，通过提供围绕该像素的局部区域（补丁）作为输入，来预测每个像素的类别标签。首先，该网络能够进行定位。其次，以补丁的形式提供的训练数据比训练图像的数量要大得多。由此得出的网络在ISBI 2012年的EM分割挑战中以很大的优势获胜。

显然，Ciresan等人[1]的策略有两个缺点。首先，它非常慢，因为网络必须对每个补丁单独运行，并且由于重叠补丁而存在大量冗余。其次，定位精度与上下文的使用之间存在权衡。较大的补丁需要更多的最大池化层，从而降低了定位精度，而较小的补丁只能使网络看到很少的上下文。更近期的方法[11,4]提出了一个分类器输出，该输出考虑了多个层次的特征。同时可以实现良好的定位和上下文的使用。在本文中，我们基于一种更优雅的架构，即所谓的"全卷积网络"[9]进行改进和扩展。我们修改和扩展了这个架构，使其能够使用很少的训练图像并产生更精确的分割结果；见图1。[9]中的主要思想是通过连续的层次来补充通常的收缩网络，其中池化操作符被上采样操作符取代。因此，这些层次增加了输出的分辨率。为了进行定位，从收缩路径中得到的高分辨率特征与上采样的输出相结合。然后，连续的卷积层可以根据这些信息学习组装更精确的输出。

我们架构中的一个重要修改是，在上采样部分我们也有大量的特征通道，这允许网络向更高分辨率的层传播上下文信息。因此，扩展路径与收缩路径在某种程度上是对称的，并产生了一个U形的架构。网络没有任何全连接层，只使用每个卷积的有效部分，即分割图仅包含在输入图像中具有完整上下文的像素。这种策略通过重叠平铺的方式实现对任意大图像的无缝分割（见图2）。为了预测图像边界区域的像素，缺失的上下文通过镜像输入图像进行外推。这种平铺策略对于将网络应用于大图像非常重要，否则分辨率将受到GPU内存的限制。由于我们的任务中只有很少的训练数据可用，我们通过对可用的训练图像应用弹性变形来进行过度的数据增强。这使得网络能够学习对这些变形的不变性，而无需在标注的图像语料库中看到这些变形。在生物医学分割中，这一点尤为重要，因为变形曾经是组织中最常见的变化，并且可以有效地模拟出真实的变形。数据增强在学习不变性方面的价值已经在Dosovitskiy等人的研究[2]中在无监督特征学习的范围内得到证明。

许多细胞分割任务中的另一个挑战是分离同一类别的接触对象；见图3。为此，我们提出使用加权损失，其中在损失函数中，接触细胞之间的分离背景标签获得较大的权重。得到的网络适用于各种生物医学分割问题。在本文中，我们展示了在EM堆叠中神经结构的分割结果（这是一个从ISBI 2012开始的正在进行中的竞赛），在这方面我们超过了Ciresan等人的网络[1]。此外，我们展示了来自ISBI细胞跟踪挑战赛2015的亮场显微图像的细胞分割结果。在最具挑战的两个2D透射光数据集上，我们取得了很大的优势。

2.网络结构

网络架构如图1所示。它由一个收缩路径（左侧）和一个扩张路径（右侧）组成。收缩路径遵循典型的卷积网络架构。它由两个3x3卷积（无填充卷积）的重复应用组成，每个卷积后跟一个修正线性单元（ReLU）和一个2x2最大池化操作，步长为2，用于下采样。在每个下采样步骤中，我们将特征通道的数量加倍。扩张路径中的每个步骤都由特征图的上采样组成，然后是一个2x2卷积（"上采样卷积"），将特征通道的数量减半，与收缩路径中相应的裁剪特征图进行连接，以及两个3x3卷积，每个卷积后跟一个ReLU。由于每次卷积都会丢失边界像素，所以裁剪是必要的。在最后一层，使用1x1卷积将每个64维特征向量映射到所需的类别数。总共有23个卷积层。为了实现平铺的输出分割图（见图2），选择输入块大小时，重要的是确保所有2x2最大池化操作都应用于具有偶数x和y大小的层。

使用输入图像及其对应的分割图像来训练网络，使用Caffe的随机梯度下降算法[6]。由于无填充卷积，输出图像的大小比输入图像小一个固定的边界宽度。为了最小化开销并充分利用GPU内存，我们更倾向于使用大的输入块而不是大批量大小，因此将批量大小减小到一个图像。因此，我们使用高动量（0.99），以便先前训练样本的大部分决定当前优化步骤中的更新。能量函数是通过对最终特征图进行像素级的softmax运算，并结合交叉熵损失函数来计算的。softmax函数定义为pk(x)=exp(ak(x))=PK k0=1 exp(ak0(x))，其中ak(x)表示在像素位置x处的特征通道k的激活值，Ω是一个像素位置的集合，K是类别的数量，pk(x)是近似的最大函数。即对于具有最大激活值ak(x)的k，pk(x)≈1，对于其他所有k，pk(x)≈0。交叉熵函数通过E =X x2Ωw(x)log(p'(x)(x))来惩罚p'(x)(x)与1之间的偏差，其中':Ω!f1;:::;Kg是每个像素的真实标签，w :Ω!R是我们引入的权重映射，用于在训练中给一些像素更重要的权重。

我们预先计算每个地面真实分割的权重图，以补偿训练数据集中某个类别的像素频率差异，并强制网络学习我们在接触细胞之间引入的小分离边界（参见图3c和d）。分离边界是使用形态学运算来计算的。然后，权重图被计算为w(x)=wc(x)+w0 ·exp −(d1(x)+d2(x))2 2σ2 +d2(x))2 2σ2 !(2)，其中wc :Ω!R是用于平衡类别频率的权重图，d1 :Ω!R表示到最近细胞边界的距离，d2 :Ω!R表示到第二近细胞边界的距离。在我们的实验中，我们设置w0 =10和σ≈5像素。在具有许多卷积层和网络中的不同路径的深度网络中，良好的权重初始化非常重要。否则，网络的某些部分可能会给出过高的激活，而其他部分则不会有贡献。理想情况下，初始权重应该适应网络中每个特征图的单位方差。对于我们的架构（交替卷积和ReLU层），可以通过从具有标准差p2/N的高斯分布中抽取初始权重来实现，其中N表示一个神经元的传入节点数[5]。例如，对于3x3卷积和64个特征通道的上一层，N =9 ·64 =576。

3.1数据增强

数据增强对于在只有少量训练样本的情况下教会网络所需的不变性和鲁棒性是至关重要的。在显微图像的情况下，我们主要需要位移和旋转不变性，以及对变形和灰度值变化的鲁棒性。特别是对训练样本进行随机弹性变形似乎是用非常少的标注图像训练分割网络的关键概念。我们使用粗糙的3x3网格上的随机位移向量生成平滑变形。位移是从具有10像素标准差的高斯分布中采样得到的。然后使用双三次插值来计算每个像素的位移。在压缩路径结束时使用的Drop-out层执行进一步的隐式数据增强。

表1. 根据扭曲错误排序的EM分割挑战赛排名[14]（2015年3月6日）

图4. ISBI细胞跟踪挑战赛的结果。

(a) "PhC-U373"数据集中输入图像的一部分。

(b) 使用手动地面真实值（黄色边框）的分割结果（青色掩模）。

(d) 使用手动地面真实值（黄色边框）的分割结果（随机彩色掩模）。

表2. 2015年ISBI细胞追踪挑战赛的分割结果（IOU）

4.实验

我们展示了u-net在三个不同的分割任务中的应用。第一个任务是在电子显微镜记录中分割神经结构。数据集和我们得到的分割示例显示在图2中。我们提供完整的结果作为补充材料。数据集由EM分割挑战赛[14]提供，该挑战赛始于2012年的ISBI，并仍然对新的贡献开放。训练数据是一组来自果蝇一期幼虫腹侧神经索（VNC）的连续切片透射电子显微镜图像（512x512像素）。每个图像都有相应的完全注释的细胞（白色）和膜（黑色）的地面真实分割图。测试集是公开的，但其分割图被保密。可以通过将预测的膜概率图发送给组织者来获得评估。评估是通过在10个不同的阈值上进行分割图的计算和"扭曲错误"、"Rand错误"和"像素错误"的计算来完成的[14]。u-net（在输入数据的7个旋转版本上平均）在没有任何进一步的预处理或后处理的情况下，获得了0.0003529的扭曲错误（新的最佳分数，请参见表1）和0.0382的Rand错误。这明显优于Ciresan等人提出的滑动窗口卷积网络的结果[1]，其最佳提交的扭曲错误为0.000420，Rand错误为0.0504。就Rand错误而言，唯一表现更好的是在这个数据集上，其他算法使用了高度特定于数据集的后处理方法，应用于Ciresan等人的概率图[1]。我们还将u-net应用于光学显微镜图像中的细胞分割任务。这个分割任务是ISBI细胞跟踪挑战赛2014年和2015年的一部分[10,13]。第一个数据集"PhC-U373"包含通过相差显微镜记录在聚丙烯酰胺基质上的胶质母细胞瘤-星形胶质细胞U373（见图4a，b和补充材料）。它包含35个部分注释的训练图像。在这里，我们实现了92%的平均IOU（交并比），这明显优于第二好的算法的83%（见表2）。第二个数据集"DIC-HeLa"是在平坦玻璃上通过差分干涉对比（DIC）显微镜记录的HeLa细胞（见图3，图4c，d和补充材料）。它包含20个部分注释的训练图像。在这里，我们实现了77.5%的平均IOU，明显优于第二好的算法的46%。

5.总结

U-Net架构在各种不同的生物医学分割应用中取得了非常好的性能。通过使用弹性变形的数据增强技术，它只需要很少的标注图像，并且在NVidia Titan GPU（6 GB）上仅需要10小时的训练时间。我们提供了基于Caffe[6]的完整实现和训练好的网络。我们确信U-Net架构可以轻松应用于更多的任务中。