多模式脑肿瘤MRI分割中的视觉变换器：综述

多模式脑肿瘤MRI分割中的视觉变换器：综述
- 脑肿瘤介绍
- 传统方法分割
- [Transformer Method](#Transformer Method)
- - [Pure Transformer](#Pure Transformer)
  - - [VITBIS https://arxiv.org/pdf/2201.05920.pdf](#VITBIS https://arxiv.org/pdf/2201.05920.pdf)
    - [BTSwin-UNet https://link.springer.com/article/10.1007/s11063-022-10919-1](#BTSwin-UNet https://link.springer.com/article/10.1007/s11063-022-10919-1)
    - [VT-UNet https://arxiv.org/pdf/2111.13300.pdf](#VT-UNet https://arxiv.org/pdf/2111.13300.pdf)
    - [CR-Swin2-VT https://arxiv.org/pdf/2209.07704.pdf](#CR-Swin2-VT https://arxiv.org/pdf/2209.07704.pdf)
    - [HRSTNet https://arxiv.org/pdf/2207.11553.pdf](#HRSTNet https://arxiv.org/pdf/2207.11553.pdf)
    - [NestedFormer https://arxiv.org/abs/2208.14876](#NestedFormer https://arxiv.org/abs/2208.14876)
    - TFusion

多模式脑肿瘤MRI分割中的视觉变换器：综述

Meta-Radiology $2023$

在这篇综述中，我们重点介绍了在过去三年中提出的用于脑肿瘤分割的具有代表性的基于Transformer的工作。

脑肿瘤介绍

脑肿瘤可分为四类，即神经胶质瘤、脑膜瘤、垂体瘤和神经鞘瘤。其中，神经胶质瘤是最常见的原发性脑肿瘤，目前提到的脑肿瘤通常指神经胶质瘤，它起源于构成大脑支持组织的细胞，即神经胶质细胞

一般来说，脑肿瘤的位置、形状和大小对医生诊断的这些症状的程度和性质以及制定治疗和手术计划都有重大影响。自动化分割重要

脑肿瘤区域通常可以定义为三类亚区，包括增强型肿瘤（ET ）、肿瘤核心（TC ：增强型肿瘤、坏死和非增强型肿瘤）、全肿瘤（WT：瘤周水肿、增强型肿瘤和非增强性肿瘤和坏死）

T1加权 MRI模态通常用于提供大脑的高分辨率图像，T2加权MRI模态可以提供关于组织的流体含量的信息，这对于区分肿瘤和正常脑组织特别有用。此外，对比增强T1加权MRI模式可以提供关于血管和肿瘤增强模式的信息，这可以用于帮助诊断肿瘤的类型及其侵袭性。多种MRI模式的组合可以提供肿瘤和周围脑组织的更完整和准确的表示，这对于有效的神经胶质瘤分割至关重要。

传统方法分割

传统的方法15-17包括区域增长和水平集方法，以及基于图谱的分割。这些方法使用图像特征，如强度、纹理和梯度信息，将脑肿瘤与周围组织分离。
15. Guo X, Schwartz L, Zhao B. Semi-automatic segmentation of multimodal brain tumor using active contours. Proc MICCAI Brainlesion Workshop, Brainlesion: Glioma, Multiple Sclerosis. 2013;27:27--30.
16. Hamamci A, Unal G. Multimodal brain tumor segmentation using the tumor-cut method on the BraTS dataset. In: Proc. Medical Image Computing and Computer-Assisted Intervention. MICCAI); 2012:19--23.
17. Hamamci A, Kucuk N, Karaman K, Engin K, Unal G. Tumor-cut: segmentation of brain tumors on contrast enhanced MR images for radiosurgery applications. IEEE Trans Med Imag. 2011;31(3):790--804.

Transformer Method

目前，提出了各种基于Transformer的脑肿瘤分割方法，并显示出良好的性能。具体来说，它们大多遵循一个核心思想，即基于具有全局感受场的变换器，通过新颖的设计（如网络单元或结构）来提高变换器对局部特征关系建模的能力，从而使变换器能够有效地捕获全局和局部信息。

Pure Transformer

VITBIS https://arxiv.org/pdf/2201.05920.pdf

在ViTBIS中，特征之间的长程依赖关系通过Transformer很好地建立，而分层U-Net结构在一定程度上降低了模型的复杂性

BTSwin-UNet https://link.springer.com/article/10.1007/s11063-022-10919-1

这是一种基于三维U形对称Swin Transform器的脑肿瘤分割网络。此外，还构建了一个自监督学习框架，通过重建任务对模型编码器进行预训练。在预训练阶段，我们用BTSwiUnet的相同编码器训练一个掩蔽的自动编码器来重建3D MRI图像，该图像掩蔽了部分输入信号，并预测了掩蔽区域中的原始信号。对于掩蔽方法，如图6所示。8，我们采用了补丁对齐的随机掩蔽策略，该策略在补丁嵌入后的特征图上使用，并且用可学习的掩蔽令牌代替掩蔽的补丁。事实上，我们在数据预处理阶段并没有对原始图像进行掩模，而是在补丁嵌入后，以补丁为基本单元对图像补丁进行随机掩模。

VT-UNet https://arxiv.org/pdf/2111.13300.pdf

提出了一种UNet形状的体积变换器（VT-UNet）。在编码器中，VT-UNet使用经典的SwinT块。在解码器中，VT-UNet设计包括两个并行SwinT块的VT块，其中第一和第二SwinT块分别用于处理编码器和解码器特征，并且通过融合两个SwinT块输出和傅立叶特征位置编码来获得最终输出

CR-Swin2-VT https://arxiv.org/pdf/2209.07704.pdf

CR-Swin2-VT，它使用并行的CSwinT和SwinT块作为编码器来提高特征提取质量，从而提高脑肿瘤分割结果。此外，CR-Swin2-VT提出了一种基于可学习权重的特征融合方式，以组合每个阶段CSwinT和SwinT块的输出。

HRSTNet https://arxiv.org/pdf/2207.11553.pdf

HRSTNet采用了并行的多分辨率路径，以有效地保存每个网络阶段内的高分辨率信息。尽管这样的路径增加了一些计算，但它们也有效地减少了由特征重新采样操作引起的空间信息丢失。与上述方法不同，HRSTNet更多地考虑了高分辨率特征，并在每个阶段应用了多分辨率特征融合。通过这种设计，HRSTNet很好地促进了不同尺度特征之间的交互

NestedFormer https://arxiv.org/abs/2208.14876

NestedFormer构造了多个基于变换器的编码器来提取模型特定的特征，并提出了一种嵌套模态感知特征聚合（NMaFA）方案来实现多模态特征融合，从而同时对模态内和模态间的特征关系进行建模。具体而言，NMaFA结合了三向空间注意力和跨模态注意力，前者可以从不同的角度对模态内的空间特征关系进行建模，后者可以对所有模态之间的全局特征关系进行模型化。为了增强跳跃连接，NestedFormer设计了一种模态敏感门控（MSG），它学习不同模态在每个阶段融合特征中的重要性，并通过为不同模态分配权重来为跳跃连接产生更具代表性的特征。总体而言，NestedFormer成功地建立了MRI模态之间的相关性，与transformer结构的进步相比，这是一种新颖可行的方案，可以进一步改进脑肿瘤分割。

TFusion

针对多模态学习中经常出现的模态缺失问题，刘等人37提出了一种基于变换器的多模态特征融合方法，称为TFusion。与以前的工作不同，TFusion不需要对缺失的模态执行零填充或生成缺失的模态特征。具体而言，TFusion通过多个变换器层来学习现有模态特征之间的关系，然后通过模态softmax操作自适应地生成特定于模态的逐像素权重图，以融合现有模态特征，从而生成多模态融合特征。TFusion进一步考虑了多模态学习中的模态缺失情况，并实现了隐式模态不变特征提取，以提高模型的鲁棒性和有效性。此外，TFusion是即插即用的，可以有效地应用于各种基于变压器的方法，并带来令人满意的性能改进。

多模式脑肿瘤MRI分割中的视觉变换器：综述

Vision transformers in multi-modal brain tumor MRI segmentation: A review