学习日记34：UNETR

摘要：

该文提出了针对3D 医学图像分割的UNETR新型 Transformer 基架构，该架构将 3D 分割任务重构为序列到序列预测问题 ，突破了传统 FCNNs 卷积层局部性导致的长距离空间依赖学习局限；其以Transformer 作为主编码器 有效捕捉全局多尺度信息，搭配CNN 解码器捕捉局部空间信息，通过跨分辨率跳跃连接融合编码器不同层的特征，在BTCV（腹部 CT 多器官）和MSD（MRI 脑肿瘤、CT 脾脏）数据集上完成验证。

介绍：

U型的编码器解码器结构的网络在医学分割任务上取得了相当不错的效果，尤其是典型的U-Net结构，编码器负责通过逐渐对提取的特征进行下采样来学习全局上下文表示，而解码器对提取的表示进行上采样到输入分辨率以进行像素/体素的语义预测。此外，跳过连接以不同的分辨率将编码器和解码器的输出合并，从而允许恢复在下采样期间丢失的空间信息。

虽然基于卷积的方法效果不错，但是还是有很多问题，比如长距离建模能力被它们有限的感受野限制（这块原因和2d的没区别）。受到VIT的启发，该文提出了UNETR，简单来说，就是使用Transformer模型作为编码器提取特征，CNN模型作为解码器输出分割预测。

方法

3D图像首先被切分为N个P×P×P的patch，然后加入一维位置向量后输入编码器，这部分全程固定分辨率，因为调整分辨率，会导致不同层的序列长度剧烈变化，3D 场景下的计算量和显存占用会直接超出硬件承载能力；也就是说Transformer 编码器只负责输出固定长度的 1D 序列，后续的 "降分辨率 / 升分辨率"（比如从 6×6×6→12×12×12→24×24×24），全部由 CNN 解码器的3D 卷积 / 反卷积完成 ------ 而卷积的计算量是线性的，哪怕 3D 卷积计算量比 2D 大，但线性增长的特性让硬件完全能承载。

提取 Transformer 多层序列特征，重塑为 3D 张量再通过卷积投影后，通过跳跃连接传给 CNN 解码器 ------ 这样就能让解码器获得 Transformer 不同层的全局特征，结合 CNN 的局部特征做密集分割。可以看到，这块从 Transformer提取出的张量维度都是相同的，使用的是反卷积和卷积来达到升降分辨率的效果，然后进行解码器的过程。

然后介绍损失函数部分：

学习日记34：UNETR

摘要：

介绍：

相关工作：

CNN

Transformer

方法

实验：