RadioTransformer：用于视觉注意力引导疾病分类的级联全局焦点Transformer

利用放射科医生的注视模式并模拟他们的视觉认知行为，以在胸部X光片上进行疾病诊断。

放射科医生等领域专家依靠视觉信息来解释医学图像。

另一方面，视觉解释有挑战性，但是视线跟踪已被用来捕获领域专家的观看行为，从而深入了解视觉搜索的复杂性。但即使是那些依赖注意力机制的框架，也不会利用这种丰富的领域信息来进行诊断。

RadioTransformer通过学习放射科医生的视觉搜索模式，在级联的全局焦点Transformer框架中被编码为"人类视觉注意区域"。整体图像特征和更详细的局部特征分别由所提出的全局和焦点模块捕获。

级联（Cascade）指多个对象之间的映射关系

介绍

医学图像解释和相关诊断很大程度上依赖于领域专家研究图像的方式。放射科医生在多年的不同领域的医学图像培训中磨练了他们的图像搜索技能。当前的诊断和预后模型仅限于图像内容语义，例如疾病位置、注释和严重程度，并没有考虑到这些丰富的辅助领域知识。他们主要通过手工制作的描述符或深度架构来学习疾病的纹理和空间特征。图像内疾病模式的空间依赖性通常由专家读者隐式解释，仅通过图像特征表示学习可能无法充分捕获。

放射科医生在胸部X光片上的视觉搜索模式首先用于训练 全局焦点教师网络 ，称为人类视觉注意力训练（HVAT）。这个预先训练的教师网络教导 全局焦点 学生网络使用一种新颖的视觉注意力损失来学习视觉注意力。学生-教师网络的实施是为了明确整合放射科医生的视觉注意力，以改善胸部X光片的疾病分类。

学生-教师网络的核心思想是首先用监督方法或者无监督方法训练一个大规模的深层教师模型，然后让小规模的浅层学生模型去模仿教师模型的行为，最终使用学生模型完成部署和应用。

利用Transformer的架构和放射扫描的注意力来提供更好的诊断，因为模型学习跨图像块的自注意力及确定诊断相关的感兴趣区域。尽管这些方法集成了远程特征依赖性并学习高级表示，但他们缺乏先验领域知识，这些知识从根本上来讲，植根于疾病病理生理学及其在图像上的表现。目前尚不清楚如何有效和高效地使用此类搜索模式来提高模型的决策能力。

为了解决这个问题，建议利用领域专家的系统观察模式作为潜在注意力和intention的基础，引导深度学习网络改进疾病诊断。

简单过程

医学图像判读是一个复杂的过程，广泛地包括全局焦点方法。

①从全局角度识别可疑区域；②从焦点角度识别特定异常。

在全局筛查过程中，放射科医生扫描粗略的低对比度特征，其中分析某些纹理属性并识别潜在的异常感兴趣区域。在焦点过程中，重新检查异常区域以确定疾病的严重程度、类型或拒绝异常的假设。

例如，在分析 COVID-19 的胸部 X 光片时，放射科医生会快速浏览胸部区域，根据强度变化识别可疑区域。这有助于通过消除"明显健康"的区域来进行选择性识别。

焦点特征学习过程涉及对可疑区域进行更严格的分析，以了解特定区域及其周围环境的结构和形态特征。这个过程通常涉及特定领域的特征，例如渗透物的分布和流体的积累。

我们以此为动机设计 RadioTransformer，这是一种全局焦点Transformer，它将放射科医生的视觉认知与基于自我注意的变压器学习相结合。

从而导致注意力特征的概率得分与基于人类视觉注意力的诊断高度相关。

工作目标

以认知感知的方式通过特定领域的专家观看模式增强疾病诊断环境中深度网络的学习能力

主要贡献

1.提出了一种基于学生---教师的新型全局焦点RadioTransformer架构，由具有移动窗口的Transformer块组成，从而利用放射科医生的视觉注意力来提高诊断准确性。全局模块学习高级粗略表示，焦点模块学习具有双向横向连接的低级粒度表示，通过平滑移动平均训练解决语义注意力差距。

2.提出了一种新颖的视觉注意损失（VAL），用教师网络的视觉注意力区域来训练学生网络。这种损失教会学生网络使用 注意力区域重叠 以及 中心点和边界点回归 的加权组合来关注教师网络生成的视觉注意力区域。

提出的方法

RadioTransformer 全局焦点学生-教师网络的端到端框架

这包括两个并行架构：学生模型和教师模型。学生和教师网络都由 全局和焦点网络 组成。每个模型中的四个焦点块和两个全局块并行级联。全局块和焦点块通过双向横向（TWL）连接与平滑指数移动平均值（SEMA）。SEMA调节全局块和焦点块之间共享的注意力特征，以弥合这些网络中不同学习规模造成的注意力差距。

教师模型使用从放射科医生的视觉搜索模式获得的人类视觉注意力进行训练。学生模型使用 VAL(视觉注意力损失) 和分类损失从教师网络中学习。教师和学生模型之间有两个 TWL 连接并配以分层的SEMA。

全局-焦点架构

全局焦点网络可以描述为单流架构，其中两个组件并行运行。全局网络由两个shifting-window Transformer块组成，而焦点网络则由四个shifting-window Transformer块组成。

焦点网络的灵感来自于反应缓慢的Parvo细胞的功能，而全局网络则受到快速反应的Magno细胞。

全局-焦点网络

全局-焦点架构的主要思想是以详细的移动窗口方式伪复制注意力学习。

焦点层和全局层分别表示为和，其中

焦点网络

焦点网络的实现是为了通过在串联的四个块上增量地移动窗口来学习高对比度和焦点信息。

焦点网络的第一个块具有多层感知器头（MLP head），注意力头，移位大小。第二、第三和第四块以增量移位窗口大小 进行操作，，，其中

全局网络

全局网络由两个串联级联的移动窗口块组成。实现全局网络的动机是从两个增量移位大小中学习低对比度全局信息 。全局网络中的第一个块的移位大小，第二个块的移位大小。全局网络的多层感知器头是增量的，，全局网络的注意力头是增量的，可以表示为。

TWL(双向横向)连接

引入全局架构和焦点架构之间的TWL连接来解决两者之间固有的语义注意力平均问题。

TWL连接在层之间建立。这些构成了上述层的输出的加权和,并将其与SEMA耦合。

，其中和是表示为的全局焦点网络输出的加权和的超参数。是全局网络的输出，是焦点网络的输出；其中其中in是中间输出，out是最终输出。分别是焦点网路和全局网络中间层的输出。分别是焦点网路和全局网络最终的输出。

平滑移动平均值

其中指的是当前变量在不同 p 的当前迭代中的平滑值，是不同 p 的上一次迭代中变量的平滑值。是全局焦点TWL连接的平滑衰减超参数。，其中N是当前迭代中的样本数。

学生-教师网络

教师网络仅从放射科医生的眼睛注视图中学习视觉注意力模式，而学生则通过利用教师提供的注意力信息直接从医学图像中学习更具体的疾病属性。一般来说，放射科医生的视觉注意力图可能很嘈杂，并且可能表现出可变性。

在单流架构中，除了不同的疾病模式之外，纳入这种变异性是不可行的。学生-教师网络降低了使用视觉注意力图训练单个网络的复杂性，并进一步微调下游任务。模型仅由接受视觉注意力图训练的教师压缩。

教师网络

教师网络是一个级联的全局焦点学习网络，具有两个并行连接的全局块和四个局部块。

其中是教师网络的输入，该网络受到硬增强技术的影响，具有无状态的亮度、对比度、色调和饱和度高值区间。是教师网络的中间输出，其中和分别作为全局块和焦点块的中间输出和最终输出的加权和的超参数。

学生网络

与教师网络相比，学生网络的输入通过亮度、对比度、色调和饱和度的无状态相对低值区间进行软增强。学生预测疾病类别的预测值以及关注区域，该注意力区域受到VAL（视觉注意力损失）的影响，以及来自教师网络注意力区域的输出。

其中是学生网络的输入。是学生网络的中间输出，其中和分别作为全局块和焦点块的中间输出和最终输出的加权和的超参数。

TWL连接

学生和教师架构之间的 TWL 连接在层之间引入。上述各层输出的加权和与SEMA耦合。

其中是student-teacher网络中间TWL连接的输出，是该层的SEMA

其中是学生-教师网络最后一层的输出，是{SEMA1,SEMA4}。{SEMA2,SEMA3}是学生全局焦点网络和教师全局焦点网络中间层的SEMA。

视觉注意力损失（VAL）

视觉注意力区域从教师网络获取，预测注意力区域从学生网络获得。VAL损失包括GIoU和MSE损失。利用超参数来引入损失中的权重

其中，是从教师网络预测的视觉注意力区域，是从学生网络预测的注意力区域。C是和的最小凸包。

"凸包"（Convex Hull）是一个几何概念，指的是包含一组点（在这里是 Ahva 和 Apred）的最小凸多边形。换句话说，它是可以包围这些点的最小的凸形状。在二维空间中，凸包类似于将一组散落的点用橡皮筋套起来形成的形状。

预测关键点与视觉注意力关键点之间的回归损失表示为：

其中，是中心点，是关注区域的高度和宽度。是的关键点，是的关键点。n是特定批次中的样本数。最终损失计算如下：

人类视觉注意力

预处理

我们讨论从眼动追踪数据中提取视觉搜索模式并生成放射科医生视觉注意力图的方法。

**眼睛追踪数据：**原始眼睛注视信息和固定信息

这些信息是放射科医生在分析单个胸部 X 线照片时捕获的。

眼睛注视点反映了诊断搜索模式 。累计注意力区域以热图表示，是反应诊断重要区域的人类注意力区域。使用标准差的多维高斯卷积核来生成这些注意力热图。使用阈值选择这些注意力热图中的轮廓，随后从面积最大的轮廓生成边界框。

人类视觉注意力训练（HVAT）

使用眼动追踪数据对教师网络进行训练。教师网络有一个分类头提供输出概率值和一个检测头输出关键点。概率值是一个1*n向量，其中n表示不同类型疾病标签的数量。关键点输出为，其中是中心的 x 和 y 坐标，(h,w)分别是高度和宽度。

此外，分类交叉熵损失用于分类，广义交并集（GIoU）损失和均方误差（MSE）损失的加权和用于检测。

数据集

所提出的架构在八个不同的数据集上进行评估，包括两个肺炎分类、四个 COVID-19 分类（TCIASBU和 MIDRC仅用于测试）和两个胸部疾病分类队列。

实验和结果

在HVAT期间，教师网络接受眼睛注视数据的训练，其中包含来自MIMIC-CXR数据集的1083张胸部X光片的放射科医生眼睛注视点。所有图像的大小均调整为256*256像素。教师网络的输出是一个1*3的概率值向量和一个1*4的关键点向量。所有基线模型均使用统一调整为256*256像素的图像进行训练。

定量结果

消融实验

对于RSNA数据集中的二元分类任务，全局网络优于焦点网络。意味着，对于简单的二元分类，全局特征表示通常会导致标签之间的清晰区分，全局网络表现更好。事实上，对于放射科医生的决策来说也是如此。

对于放射摄影和 VinBigData 数据集（多类分类任务），由于图像中更细粒度细节的诊断相关性，焦点网络比全局网络表现更好。当HVAT与全局焦点网络一起使用时，分数会提高。当添加视觉注意力损失（VAL）时，分数并没有显著高于之前的消融。

当仅使用单独的全局块和焦点块时，VAL缺乏将教师的视觉注意力转移到学生网络的能力；当VAL从教师的组合全局焦点块中提取视觉注意力时，性能会得到改善。
两个视觉注意力区域之间的注意力损失不会随着关键点的回归和GIoU的最小化而很好地收敛。

结果展示

第一行的注意力区域相对离散，与白色区域（渗透/流体）重叠的不一致非常突出。然而，在第二行中，观察到相对连续的关注区域，与疾病模式一致重叠。

对于正常的胸部X光片，RadT本质上专注于对于放射科医生诊断和排除浸润 / 液体的存在可能具有重要意义。RadT w/o (HVAT+VAL)尝试通过视觉注意力来识别非重叠区域，以决绝渗透 / 液体的存在。

此外，我们观察到RadT w/o (HVAT+VAL)的注意力区域比RadT的注意力区域覆盖更大的区域，这意味着缺乏视觉注意力知识会导致决策的置信度较低，因此模型需要搜索相对较大的空间来最终接受或拒绝索赔。在 6.b.2.* 中，观察到对于充满液体的肺部，RadT w/o (HVAT+VAL) 集中在相对稀疏且较大的区域。然而，RadT 侧重于流体聚集密集的区域。

总结

视觉注意力驱动的Transformer框架，受到放射科医生视觉认知方法的启发。与仅依赖视觉信息来完成诊断任务的现有技术不同，RadioTransformer利用专家的视线模式来训练全局焦点的学生-教师网络。

我们的框架学习并实现分层搜索模式，以提高Transformer架构的诊断性能。当对包含超过 260,000 张图像的 8 个数据集进行评估时，所提出的架构优于 SOTA 方法。我们的定性分析表明，通过将视觉注意力整合到网络中，RadioTransformer 专注于诊断相关的感兴趣区域，从而提高决策的信心。