HIPT论文阅读 - 技术栈

题目**《Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning》**

论文地址： $2206.02647$ Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning

项目地址：mahmoodlab/HIPT: Hierarchical Image Pyramid Transformer - CVPR 2022 (Oral)

Abstract：

视觉变换器（ViTs）及其多尺度和层次变体在捕获图像表示方面取得了成功，但它们通常被研究用于低分辨率图像（例如256×256，384×384）。对于计算病理学中的千兆像素全切片成像（WSI），WSIs的尺寸可以大至150000×150000像素，在20倍放大倍数下，展现出不同分辨率下的视觉标记的层次结构：从16×16的图像捕获单个细胞，到4096×4096的图像表征组织微环境中的相互作用。我们引入了一种新的ViT架构，称为层次图像金字塔变换器（HIPT），它利用WSI中固有的自然层次结构，通过两级自监督学习来学习高分辨率图像表示。HIPT在33种癌症类型上进行了预训练，使用了10,678个千兆像素WSIs、408,218个4096×4096图像和1.04亿个256×256图像。我们在9个幻灯片级别的任务上对HIPT表示进行了基准测试，并证明了：1）具有层次预训练的HIPT在癌症亚型和生存预测方面超越了当前的最先进方法，2）自监督ViTs能够对肿瘤微环境中表型层次结构的重要归纳偏差进行建模。

Introduction：

在20×目标下扫描WSIs，结果是一个大约每像素0.5微米的固定尺度，允许对视觉元素进行一致的比较，这可能揭示了超出正常参考范围的重要组织形态学特征。此外，WSIs在20×放大倍数下还展现出不同图像分辨率下的视觉标记的层次结构：

16×16的图像包含细胞和其他细粒度特征（基质、肿瘤细胞、淋巴细胞） $23, 37$ ，

256×256的图像捕获细胞间相互作用的局部簇（肿瘤细胞性） $2,8,31,60$ ，

1024×1024-4096×4096的图像进一步表征细胞簇之间的宏观相互作用及其在组织中的组织（描述肿瘤浸润与肿瘤远端淋巴细胞的肿瘤-免疫定位程度） $1, 10$ ，

最后，整个肿瘤内部异质性在WSI的幻灯片级别上描绘 $5,36,40,58,65$ 。本工作测试的假设是，在自监督学习中合理利用这一层次结构可以产生更好的幻灯片级表示。

在HIPT中：

1）我们将学习WSI的良好表示问题分解为通过自监督学习可以学习的层次相关表示；

2）我们使用学生-教师知识蒸馏（DINO $14$ ）在高达4096×4096的区域上对每个聚合层进行预训练。我们将HIPT应用于在20×分辨率下提取的千兆像素组织病理图像的学习表示任务。

Related work：

1、在WSIs中的多重实例学习。 在一般的基于集合的深度学习中，Edwards & Storkey和Zaheer等人提出了第一个在基于集合的数据结构上操作的网络架构，Brendel等人证明了"特征包"能够在ImageNet上达到高精度 $11,26,82$ 。与此同时，在病理学领域，Ilse等人将基于集合的网络架构扩展为组织学感兴趣区域的多重实例学习的方法，Campanella等人后来在千兆像素WSIs上扩展了端到端的弱监督 $13,39$ 。Lu等人证明了通过使用在ImageNet上预训练的ResNet-50编码器进行实例级特征提取，只需要训练一个全局池化操作器就可以用于弱监督的幻灯片级任务 $54$ 。在Lu等人之后，有许多MIL的变体适应了图像预训练技术，如VAE-GANs、SimCLR和MOCO作为实例级特征提取 $46,64,86$ 。最近的MIL变体也发展到扩展聚合层和评分函数 $18,66,70,77,79,80,87$ 。Li等人提出了一个多尺度MIL方法，该方法在20×和5×分辨率下进行斑块切割和自监督实例学习，然后对斑块进行空间解析对齐 $** 46$ 。在WSIs中整合放大目标的工作也在其他工作中跟进 $30,33,57,59$ ，然而，我们注意到跨目标结合视觉标记不会共享相同的尺度。在这项工作中，斑块切割是在单一放大目标下完成的，使用更大的斑块尺寸来捕获宏观形态特征 ，我们希望这将有助于重新思考WSIs的上下文建模。（红色是核心创新点）**

2、视觉变换器和图像金字塔。 Vaswani等人的开创性工作不仅在语言建模方面取得了显著发展，也在通过视觉变换器（ViTs）进行图像表示学习方面取得了进展，其中256×256的图像被构建为 $16\times16$ 视觉标记的图像补丁序列 $24,71,73$ 。受多尺度、金字塔式图像处理的启发 $12,43,63$ ，最近在ViT架构开发中的进展集中在效率和多尺度信息的整合上（例如- Swin, ViL, TNT, PVT, MViT），以解决视觉标记的不同尺度/纵横比问题 $28,32,52,74,83$ 。与病理学相比，我们强调如果图像尺度在给定放大倍数下是固定的，那么学习尺度不变性可能不是必要的。与我们的工作类似的是NesT和Hierarchical Perciever，它们同样通过Transformer块从非重叠的图像区域分割然后聚合特征 $15,85$ 。一个关键的区别是我们展示了每个阶段的ViT块可以单独预训练，用于高分辨率编码（高达4096×4096）。

Method：

Result：