欢迎关注『youcans论文精读』系列
【youcans论文精读】UNet:用于医学图像分割的 U型卷积神经网络
-
- [0. 论文简介](#0. 论文简介)
-
- [0.1 基本信息](#0.1 基本信息)
- [0.2 论文速览](#0.2 论文速览)
- [0.3 摘要](#0.3 摘要)
- [1. 引言](#1. 引言)
- [2. 网络架构](#2. 网络架构)
- [3. 训练](#3. 训练)
-
- [3.1 数据增强](#3.1 数据增强)
- [4. 实验](#4. 实验)
- [5. 结论](#5. 结论)
- [6. 模型架构](#6. 模型架构)
- [7. 参考文献](#7. 参考文献)
Olaf Ronneberger 等人提出的 U-Net是一种用于生物医学图像分割的卷积神经网络。该架构采用编码器-解码器结构,编码器通过卷积层和最大池化操作提取图像的上下文信息,解码器则通过上采样和卷积操作重建分割掩码。
U-Net的创新之处在于其跳跃连接(skip connections),这些连接将编码器中的高分辨率特征与解码器中的对应层相连,从而在分割过程中保留了空间信息。这种设计使得U-Net在生物医学图像分割任务中表现出色,尤其是在处理细胞分割和器官识别等任务时。此外,U-Net在训练数据有限的情况下也能快速获得优秀的分割结果,能够捕捉图像中的局部和全局信息,实现准确和详细的分割。
基于U-Net的成功,许多变体如3D U-Net也被提出,用于处理三维图像数据。.
0. 论文简介
0.1 基本信息
2015年,Ronneberger, O. 等 在MICCAI(Medical Image Computing and Computer-Assisted Intervention)论文 【UNet:用于医学图像分割的 U型卷积神经网络】(U-Net: Convolutional Networks for Biomedical Image Segmentation)。
Olaf Ronneberger 等人提出的 U-Net是一种用于生物医学图像分割的卷积神经网络。该架构采用编码器-解码器结构,编码器通过卷积层和最大池化操作提取图像的上下文信息,解码器则通过上采样和卷积操作重建分割掩码。
论文标题: U-Net: Convolutional Networks for Biomedical Image Segmentation
作者: Olaf Ronneberger, Philipp Fischer & Thomas Brox
论文地址: springer,arxiv
引用格式: Ronneberger, O., Fischer, P., Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. In: MICCAI 2015. Lecture Notes in Computer Science, vol 9351. Springer, Cham. https://doi.org/10.1007/978-3-319-24574-4_28

0.2 论文速览
核心定位与背景:
- 问题背景:传统深度卷积网络需数千张标注样本,且多用于图像分类(输出单类别标签),但生物医学图像分割需像素级定位(每个像素分配类别),且标注样本稀缺。
- 核心目标:设计一种能高效利用少量标注样本、实现高精度生物医学图像分割的网络,同时兼顾速度与实用性。
- 关键突破:基于全卷积网络(FCN)改进,通过对称架构、数据增强和权重损失,解决 "少样本训练" 与 "精确定位" 的矛盾。
模型架构:
- U-Net架构具有对称的编码器-解码器结构,
- 编码器路径通过多个3x3卷积层和2x2最大池化操作提取特征并降低分辨率,
- 解码器路径则利用上采样层和3x3卷积滤波器从编码器路径获得的特征中重建分割掩码。
- 通过跳跃连接将编码器和解码器的特征图结合起来,从而增强模型对特征的精确定位能力。
优势与局限:
U-Net的主要优势在于其能够同时捕捉到图像的全局上下文信息和细节信息,这使得它在像素级任务中表现出色。
U-Net也存在一些局限性,例如其固定的卷积核大小和池化层限制了感受野,降低了其捕捉长距离依赖关系的能力,这对于分割大型或复杂结构是至关重要的。此外,下采样会导致细小空间细节的丢失,而跳跃连接并不能完全恢复这些信息,从而影响小或复杂特征的分割。

0.3 摘要
深度网络的成功训练需要数千个带标注的训练样本。本文提出了一种网络及训练策略,该策略通过充分利用数据增强技术,更高效地利用现有带标注样本。
该网络架构包含一条用于捕捉上下文信息的收缩路径,以及一条能够实现精确定位的对称扩张路径。
实验表明,此类网络仅需少量图像即可进行端到端训练,并且在 ISBI 电子显微镜堆叠图像中神经元结构分割挑战赛中,性能优于此前最优方法(滑动窗口卷积网络)。将同一网络用于透射光显微镜图像(相差显微镜和微分干涉相差显微镜成像)训练后,我们在 2015 年 ISBI 细胞追踪挑战赛的相关类别中以显著优势夺冠。此外,该网络速度较快,在最新 GPU 上对 512×512 像素图像进行分割仅需不到一秒。
完整的实现代码(基于 Caffe 框架)及训练好的网络可在 http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net 获取。
1. 引言
近两年来,深度卷积网络在许多视觉识别任务中已超越现有技术水平,例如文献[7]。尽管卷积网络早已存在[8],但由于训练数据集规模和网络规模的限制,其成功应用较为有限。Krizhevsky等人[7]的突破在于使用ImageNet数据集中100万张训练图像,对具有8层网络结构和数百万参数的大型网络进行了监督训练。此后,研究者们开始训练规模更大、层次更深的网络[12]。
卷积网络的典型应用是分类任务,即对输入图像输出单个类别标签。然而在许多视觉任务中,尤其是在生物医学图像处理领域,期望的输出应包含定位信息,即需要为每个像素分配类别标签。此外,生物医学任务通常难以获取数千张训练图像。
为此,Ciresan等人[2]采用滑动窗口方式训练网络,通过输入目标像素周围局部区域(图像块)来预测每个像素的类别标签。这种方法首先实现了定位功能,其次以图像块为单位的训练数据量远大于原始训练图像数量。该网络在ISBI 2012的EM分割挑战赛中以显著优势获胜。
但Ciresan等人[2]的策略存在两个明显缺陷:首先,由于需要对每个图像块单独运行网络,且重叠块导致大量冗余计算,处理速度较慢;其次,定位精度与上下文信息利用之间存在矛盾------较大的图像块需要更多池化层从而降低定位精度,而较小图像块只能提供有限上下文信息。近期研究[11,4]提出通过融合多层特征的分类器输出,可同时实现精确定位与上下文信息利用。
本文基于更精巧的"全卷积网络"架构[9]进行改进拓展,使其能够在少量训练图像条件下实现更精确的分割(图1)。该架构核心思想是在标准收缩网络基础上叠加上采样层,用上采样算子替代池化算子以提高输出分辨率。通过将收缩路径的高分辨率特征与上采样输出结合实现精确定位,后续卷积层可据此学习生成更精确的输出。

图1:U-Net架构(最低分辨率下32x32像素的例子)。每个蓝色方框对应一个多通道特征图。通道数标在方框顶部。x-y尺寸标在方框左下角。白色方框代表复制的特征图。箭头表示不同的操作。
本架构的重要改进是在上采样部分设置了大量特征通道,使网络能够将上下文信息传播至高分辨率层。因此扩展路径与收缩路径基本对称,形成U型架构。该网络不含全连接层,仅保留卷积的有效部分,确保分割图仅包含输入图像中具备完整上下文的像素。通过重叠切片策略可实现任意尺寸图像的无缝分割(图2)。对于图像边缘区域的像素预测,通过镜像输入图像来推断缺失的上下文。这种切片策略对处理大尺寸图像至关重要,否则分辨率将受GPU内存限制。

图2:重叠-切块策略用于无缝分割任意大小的图像(此处为EM切片中的神经元结构分割)。分割黄色区域的预测需要蓝色区域内的图像数据作为输入。对于缺失的输入数据,通过镜像进行外推。
针对训练数据稀缺的问题,我们通过对现有训练图像施加弹性形变进行数据增强。这使得网络能够学习对这些形变的不变性,而无需在标注图像库中包含这些变换。这在生物医学分割中尤为重要,因为形变是组织最常见的变异形式,且真实形变可通过仿真有效模拟。Dosovitskiy等人[3]已在无监督特征学习领域证明了数据增强对学习不变性的价值。
许多细胞分割任务中另一个挑战是分离同类接触物体(图3)。为此我们提出使用加权损失函数,对接触细胞间的分离背景标签赋予较大权重。

图3:使用相差显微镜(DIC)拍摄的HeLa细胞在玻璃上的原始图像。(a) 原始图像。(b) 带有地面 truth分割的叠加图像。不同颜色表示HeLa细胞的不同实例。© 生成的分割掩码(白色:前景,黑色:背景)。(d) 像素级损失权重图,用于迫使网络学习边界像素。
最终实现的网络可适用于多种生物医学分割问题。本文展示了在EM栈神经元结构分割(始于ISBI 2012的持续竞赛)中超越Ciresan等人[2]网络的成果,以及在ISBI 2015细胞追踪挑战赛中光镜图像细胞分割的成果------我们在两个最具挑战性的2D透射光数据集上以显著优势获胜。
2. 网络架构
网络架构如图1所示,由收缩路径(左侧)和扩展路径(右侧)组成。收缩路径采用典型的卷积网络架构,包含重复应用的两个3×3卷积(无填充卷积),每个卷积后接线性整流单元(ReLU)激活函数和步长为2的2×2最大池化操作进行下采样。在每个下采样步骤中,我们将特征通道数量增加一倍。
扩展路径中的每个步骤包含:对特征图进行上采样,随后进行2×2卷积("反卷积")将特征通道数减半,与从收缩路径对应阶段裁剪的特征图进行拼接,最后经过两个3×3卷积(每个卷积后接ReLU激活函数)。由于每次卷积会损失边界像素,此处的裁剪操作是必要的。在最末层,使用1×1卷积将64维特征向量映射到目标类别数。整个网络共包含23个卷积层。
为实现输出分割图的无缝拼接(见图2),关键需要确保输入图像块的尺寸满足所有2×2最大池化操作应用在长宽均为偶数的特征层上。
3. 训练
使用输入图像及其对应的分割图,通过Caffe框架的随机梯度下降实现来训练网络[6]。由于采用无填充卷积,输出图像尺寸会较输入图像缩小一个固定的边界宽度。为最小化系统开销并最大化GPU内存利用率,我们优先选择较大的输入图像块而非较大的批处理量,因此将批处理大小设为单张图像。相应地,我们采用较高的动量参数(0.99),使得当前优化步骤的更新由大量先前见过的训练样本共同决定。
能量函数通过最终特征图的逐像素soft-max与交叉熵损失函数相结合来计算。其中 soft-max定义为 p k ( x ) = e x p ( a k ( x ) ) 、 ( ∑ k ′ = 1 K e x p ( a k ′ ( x ) ) p_k(x) = exp(a_k(x))、 (\sum_{k'=1}^K exp(a_{k'}(x)) pk(x)=exp(ak(x))、(∑k′=1Kexp(ak′(x)),这里 a k ( x ) a_k(x) ak(x) 表示在像素位置 x∈Ω(其中Ω⊂Z²)处第k个特征通道的激活值,K为类别总数, p k ( x ) p_k(x) pk(x) 是近似的极大值函数。即当某个 k 对应的激活值 a k ( x ) a_k(x) ak(x) 最大时, p k ( x ) p_k(x) pk(x) 约等于1,其余 k 对应的 p k ( x ) p_k(x) pk(x) 则约等于0。交叉熵损失函数通过计算 p ℓ ( x ) ( x ) p_{ℓ(x)}(x) pℓ(x)(x) 与 1 的偏差,对每个位置进行惩罚(其中ℓ:Ω→{1,...,K}是每个像素的真实标签)。

其中 ℓ : Ω → {1, ..., K} 表示每个像素的真实标签,而 w : Ω → R 是我们引入的权重图,用于在训练过程中赋予某些像素更高的重要性。
我们为每个真实分割标注预先计算权重图,旨在缓解数据集中各类别像素频率不均衡的问题,并促使网络学习识别相邻细胞间微小的分离边界(参见图3c和d)。
该分离边界通过形态学运算得到,随后通过以下公式计算权重图:

其中 wc : Ω → R 是用于平衡类别频率的权重图,d1 : Ω → R 表示到最近细胞边界的距离,d2 : Ω → R 表示到第二近细胞边界的距离。在本实验中,我们设定 w0 = 10,σ ≈ 5 像素。
在包含多卷积层和不同路径的深度网络中,权重的良好初始化至关重要。否则,网络某些部分可能产生过度激活,而其他部分则始终无法有效参与计算。理想情况下,初始权重的设置应使网络中每个特征图保持近似单位方差。对于本论文采用的架构(卷积层与ReLU层交替排列),可通过从标准差为√(2/N)的高斯分布中采样初始权重来实现这一目标[5],其中 N 代表单个神经元的输入节点数。例如对于3×3卷积层且前一层包含64个特征通道的情况,N = 9 × 64 = 576。
3.1 数据增强
在训练样本有限的情况下,数据增强对于使网络学习所需的不变性和鲁棒性特性至关重要。对于显微图像而言,我们主要需要实现平移不变性、旋转不变性,以及对形变和灰度值变化的鲁棒性。特别是对训练样本施加随机弹性形变,这似乎是在标注图像极少情况下训练分割网络的关键方法。我们通过在粗糙的3×3网格上生成随机位移向量来产生平滑形变,这些位移量从标准差为10像素的高斯分布中采样得到,随后通过双三次插值计算每个像素的位移量。此外,在收缩路径末端采用Dropout层可实现进一步的隐式数据增强。
这些位移量从标准差为10像素的高斯分布中采样得到,随后通过双三次插值计算每个像素的具体位移量。在收缩路径末端采用的Dropout层还能实现进一步的隐式数据增强。

4. 实验
我们将u-net网络应用于三个不同的分割任务进行性能验证。首个任务是对电子显微镜记录中的神经元结构进行分割。图2展示了数据集样例及我们获得的分割结果,完整结果已作为补充材料提供。
该数据集来源于ISBI 2012启动的EM分割挑战赛[14,1],目前仍接受新的参赛方案。训练集包含30张来自果蝇一龄幼虫腹神经节(VNC)连续切片透射电镜图像(512x512像素),每张图像均配有完整的细胞(白色)与细胞膜(黑色)标注分割图。测试集虽公开可用,但其分割标注图未予公开。参赛者需将预测的细胞膜概率图提交至组委会进行评估。评估过程包含对概率图进行10个不同阈值的二值化,并计算"形变误差"、"兰德误差"和"像素误差"[14]三项指标。
u-net网络(对输入数据的7个旋转版本结果取平均值)在未使用任何预处理或后处理的情况下,取得了0.0003529的形变误差(当前最佳成绩,见表1)和0.0382的兰德误差。该结果显著优于Ciresan等人[2]采用的滑动窗口卷积网络方法------其最佳提交结果的形变误差为0.000420,兰德误差为0.0504。值得注意的是,在兰德误差指标上,仅有的几个更优算法都是在Ciresan等人[2]概率图基础上施加了高度针对数据集的后处理方法。
我们还将U-Net应用于光学显微图像中的细胞分割任务,该任务是ISBI 2014和2015细胞追踪挑战赛的重要组成部分[10,13]。首个数据集"PhC-U373"²包含通过相差显微镜记录的聚丙烯酰胺基底上的胶质母细胞瘤-星形细胞瘤U373细胞(参见图4a、b及补充材料)。该数据集提供35张部分标注的训练图像。在此我们获得了92%的平均交并比(IoU),显著优于第二名算法83%的结果(详见表2)。第二个数据集"DIC-HeLa"³包含通过微分干涉对比显微镜记录的平板玻璃上的HeLa细胞(参见图3、图4c、d及补充材料)。该数据集提供20张部分标注的训练图像。在此我们取得了77.5%的平均交并比,显著优于第二名算法46%的得分。


5. 结论
U-Net网络架构在多种生物医学分割应用中都展现了卓越的性能。通过采用弹性形变的数据增强技术,该网络仅需少量标注图像就能取得优异效果,且在NVidia Titan GPU(6GB显存)上仅需10小时即可完成训练,训练效率非常理想。我们现已提供完整的基于Caffe[6]框架的实现代码及训练好的网络模型⁴。我们确信U-Net架构能够轻松应用于更多样的任务场景。
6. 模型架构
U-Net网络模型由以下三部分组成:
-
缩小路径(Contracting Path)
缩小路径由多个卷积层和最大池化层组成。具体来说,每一步包括两个连续的3x3卷积层,每个卷积层后接一个ReLU激活函数,然后进行一个2x2的最大池化操作,步长为2。每次池化操作后,特征通道的数量会翻倍。这一路径通过连续的下采样操作,逐渐提取图像的浅层特征,同时减少图像的空间尺寸。
-
瓶颈块(Bottleneck Block)
瓶颈块连接缩小路径和扩展路径。它包含两个无填充的卷积层,每个卷积层有1024个滤波器。这一层捕捉最深层次的特征表示,为扩展路径做准备。
-
扩展路径(Expansive Path)
扩展路径通过上采样操作逐步恢复图像的空间分辨率。每一步包括以下操作:
使用2x2的转置卷积("上卷积")进行上采样,将特征图的空间尺寸加倍,同时减少通道数。
将当前解码器层的特征图与缩小路径中对应层的特征图通过跳跃连接进行拼接。
进行两个3x3的卷积操作,每个卷积后接一个ReLU激活函数。
-
跳跃连接(Skip Connections)
跳跃连接将缩小路径中的特征图与扩展路径中对应层的特征图进行拼接。这些连接提供了更高分辨率的特征,有助于更好地定位和学习输入图像的表示。它们还可以帮助恢复在下采样过程中可能丢失的空间信息。
-
最终层(Final Layer)
在最终层,使用1x1的卷积将每个(64个组件)特征向量映射到所需的类别数。
整个网络共有23个卷积层。
7. 参考文献
bash
1. Cardona, A., et al.: An integrated micro- and macroarchitectural analysis of the drosophila brain by computer-assisted serial section electron microscopy. PLoS Biol. 8(10), e1000502 (2010)
2. Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural networks segment neuronal membranes in electron microscopy images. In: NIPS, pp. 2852--2860 (2012)
3. Dosovitskiy, A., Springenberg, J.T., Riedmiller, M., Brox, T.: Discriminative unsupervised feature learning with convolutional neural networks. In: NIPS (2014)
4. Hariharan, B., Arbel´aez, P., Girshick, R., Malik, J.: Hypercolumns for object segmentation and fine-grained localization (2014), arXiv:1411.5752 [cs.CV]
5. He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectifiers: Surpassing humanlevel performance on imagenet classification (2015), arXiv:1502.01852 [cs.CV]
6. Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Caffe: Convolutional architecture for fast feature embedding (2014), arXiv:1408.5093 [cs.CV]
7. Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS, pp. 1106--1114 (2012)
8. LeCun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., Jackel, L.D.: Backpropagation applied to handwritten zip code recognition. Neural Computation 1(4), 541--551 (1989)
9. Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation (2014), arXiv:1411.4038 [cs.CV]
10. Maska, M., et al.: A benchmark for comparison of cell tracking algorithms. Bioinformatics 30, 1609--1617 (2014)
11. Seyedhosseini, M., Sajjadi, M., Tasdizen, T.: Image segmentation with cascaded hierarchical models and logistic disjunctive normal networks. In: 2013 IEEE International Conference on Computer Vision (ICCV), pp. 2168--2175 (2013)
12. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition (2014), arXiv:1409.1556 [cs.CV]
13. WWW: Web page of the cell tracking challenge, http://www.codesolorzano.com/celltrackingchallenge/Cell Tracking Challenge/Welcome.html
14. WWW: Web page of the em segmentation challenge, http://brainiac2.mit.edu/isbi_challenge/
引用格式: Ronneberger, O., Fischer, P., Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. In: MICCAI 2015. Lecture Notes in Computer Science, vol 9351. Springer, Cham. https://doi.org/10.1007/978-3-319-24574-4_28
版权说明:
youcans@xidian 作品,转载必须标注原文链接:
【youcans论文精读】【youcans论文精读】UNet:用于医学图像分割的 U型卷积神经网络(https://youcans.blog.csdn.net/article/details/155264057)
Crated:2025-11