快速准确的千兆像素病理图像分类，采用分层蒸馏多实例学习（每日一文）

Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning

应用领域

计算病理

研究现状

在模型推理中，WSI的裁剪和特征提取占据主要时间消耗，可见数据预处理（裁剪和特征提取）是主要的速度瓶颈。

另外，许多实例的注意力分数极低，对bag级别的分类贡献最小，可以看做是冗余的不相关的patch。

计算注意力分数，需要提取所有patch的特征。

SMT：采用级联视觉转换器（ViT）块来逐步搜索"可疑"区域，并最终仅使用整个 WSI 的一小部分区域进行分类。 SMT的分类性能在很大程度上依赖于准确识别潜在的肿瘤区域。然而，作为SMT初始输入的低分辨率缩略图提供的病理信息不足，容易导致不适当的感兴趣区域被聚焦。因此，与其他非加速MIL方法相比，错误的累积导致SMT的分类性能较差。[Hundredfold Accelerating for Pathological Images Diagnosis and Prognosis through Self-reform Critical Region Focusing]

MIL：用于 WSI 分类的 MIL 可分为两类：基于实例和基于嵌入。

基于实例：首先对每个实例进行分类，然后使用 Max-Pooling、Mean-Pooling 或其他预定义的池化作聚合预测，以生成最终的袋级预测。

基于嵌入：使用网络评估每个实例的重要性，并相应地对所有实例进行加权，从而生成用于分类的袋级表示。对于基于嵌入的方法，观察到每个WSI中的不同实例对袋级表示有不同的贡献。

动态神经网络：可以根据输入数据动态调整其架构，从而自适应地控制计算冗余。

在ViT的研究中，许多研究都是通过减少toekn冗余来提高推理效率。可以利用动态网络减少实例和加快推理速度来弥合计算病理学的差距。

**Kolmogorov-Arnold Networks：**大多数以前的研究在 KAN 之前利用原有的2层结构，探索了基于柯尔莫哥洛夫-阿诺德表示定理构建神经网络的可能性。 KAN 将该定理扩展到任意宽度和深度的网络，探索其作为"人工智能+科学"基本模型的潜力。随后的研究主要集中在改进 KAN 与各种任务的集成或修改其架构。

解决问题

如何快速识别出不相关的patch，从而实现快速准确的分类？

如何将基于切比雪夫多项式的柯尔莫哥洛夫-阿诺德分类器并将其应用于计算病理学？

如何解决要想计算冗余patch的注意力分数，就需要先提取其特征的问题？

方法论

研究理论

动态多实例网络（应用于高分辨率图像）

轻量级实例预筛选网络（应用于低分辨率图像）

在训练过程中，利用从高分辨率 WSI 中所有裁剪的补丁中提取的实例级特征来训练具有自蒸馏策略的动态多实例网络（DMIN）。这种自蒸馏策略约束了DMIN中分别使用全部实例和部分实例进行分类的教师和学生分支，以获得一致的结果，从而使学生分支选择的实例不无关紧要。之后，我们可以根据实例是否被认为与幻灯片分类相关，为每个实例获取一个二进制掩码。然后利用掩码来指导轻量级实例预筛选网络（LIPN）的训练，该网络学习识别相应低分辨率WSI中每个补丁的二进制相关性。

在测试过程中，在LIPN指示不相关的低分辨率补丁后，我们可以确定可以跳过哪些高分辨率补丁，从而节省推理时间。

进一步设计了计算病理学中第一个基于切比雪夫多项式的柯尔莫哥洛夫-阿诺德分类器，它通过可学习的激活层增强了HDMIL的性能。

模型架构

（a）LIPN的交叉蒸馏训练

在训练阶段，首先采用自蒸馏训练策略，在高分辨率WSI上训练DMIN，进行袋级分类和指示不相关区域。在训练有素的DMIN的指导下，我们进行交叉蒸馏训练，使用低分辨率WSI得到LIPN，以极低的计算成本实现对每个区域的二元重要性（重要与否）的区分。

尽管DMIN可以成功识别WSI中不相关的区域，但并没有提高推理速度，因为它仍然提取了所有patch的特征，而这实际上才是WSI推理速度的瓶颈。

研究中使用DMIN来提炼LIPN，这是一个专门为低分辨率WSI定制的轻量级实例筛选网路，经过训练后LIPN可以快速识别低分辨率中WSI中的不相关区域。

具体的，将低分辨率的patch，Xilr直接输入LIPN，生成对于两个类别的双分支预测矩阵P。由于低分辨率patch包含的信息相对较少，因此不需要像DMIN那样具体了解每个patch对bag级分类的具体贡献分数。相反，LIPN更容易了解每个patch是否有助于bag级分类，（这个公式怎么理解）

L2用来约束相关patch的比例。L1表示1范数损失函数，研究采用了在ImageNet上预训练的广泛使用的ResNet50作为特征提取器，并使用了MobileNetV4的轻量级辩题。

（b）

在推理阶段，LIPN依靠低分辨率WSI快速识别与分类无关的区域，并丢弃高分辨率WSI中的相应补丁。随后，将剩余的补丁输入到特征提取器和 DMIN 中以生成分类结果。

（c）DMIN的自蒸馏训练

DMIN旨在对高分辨率WSI进行分类，并识别与bag分类无关的实例。包括投影模块、注意力模块、教师分支、学生分支和CKA分类器五个模块。

投影和注意力模块： 训练期间，从高分辨率WSI中提取所有的patch，Xihr，输入到预训练的特征提取魔铠中生成一组实例级特征，随后通过投影模块进行降维（这个投影模块是如何实现降维的，有具体结构吗），产生的新的特征集Fihr，缩减后的特征维度为Q。降维特征再输入到注意力模块以计算未归一化的注意力分数：