AI在医学领域：Arges框架在溃疡性结肠炎上的应用

溃疡性结肠炎（UC）是一种慢性炎症性肠病（IBD），在全球大约影响着500万人，导致肠道炎症和溃疡。在UC的临床试验中，通常通过内窥镜视频来评估结肠疾病的严重程度，并使用如Mayo内窥镜下分数（MES）和溃疡性结肠炎内窥镜严重指数（UCEIS）等标准评分系统来衡量。专家对视频的人工评估既耗时又容易受到评估者间差异的影响，这强调了自动化解决方案的必要性。然而，自动化内窥镜疾病评分面临着独特的挑战：

在临床环境中，疾病评分并非常见做法，因此标注数据稀缺；
在临床试验中，数据通常在视频级别进行标注，这挑战了基于帧的全监督网络的使用；
由于视频通常很长，时长超过30分钟，对所有视频帧进行标注以及将完整视频作为3D CNN和LSTM的输入是具有挑战性的。此外，最近的发现表明，时间意识对于手动和算法疾病评分是一个重要组成部分，这表明需要超越静态的、基于帧的模型。

本文介绍一个深度学习框架Arges，用于从内窥镜视频中对UC疾病进行表征。它包括一个基础SSL编码器（ArgesFM），后面跟着一个下游分类器（ArgesMES/ArgesUCEIS），用于估计每个视频的疾病严重程度得分。

1 数据和方法

1.1 Arges框架

Arges框架的组成

1.1.1 基础模型（ArgesFM）

目的: 提取视频帧的特征，为下游任务提供通用的表示。

模型架构: 基于自监督学习（SSL）的视觉Transformer（ViT-Base）。采用视觉变换器（ViT-Base）作为编码器，通过自注意力机制捕捉帧内的空间关系。

预训练方法: 使用DINOv2算法进行预训练，通过知识蒸馏的方式学习图像特征。

1.1.2 下游分类器

目的: 利用ArgesFM提取的特征，评估视频级别的UC严重程度。

模型架构: 基于Transformer的网络结构，包含位置编码和时间注意力机制。

聚合方法: 使用基于注意力的多实例学习（MIL）聚合器，将视频帧的特征聚合为视频级别的表示。

下游分类器包括ArgesMES和ArgesUCEIS两个部分。

ArgesMES：用于估计Mayo内窥镜下分数（MES）。
ArgesUCEIS：用于估计Ulcerative Colitis Endoscopic Index of Severity (UCEIS)的三个组成部分得分，包括出血、糜烂和血管模式。

1.2 数据集

来自四个临床试验的IBD内镜视频数据，包括两个UC试验和两个CD试验。

规模: 超过71M帧，是迄今为止最大的IBD数据集。
内容: 包括视频级别的MES和UCEIS评分标签，以及用于模型预训练的未标注数据。
特点: 数据集涵盖了不同地区、不同严重程度的IBD患者，具有高度的多样性和代表性。

1.3 训练过程

1.3.1 数据分割

将来自两个UC和两个CD临床试验的数据划分为80%的训练集和20%的测试集，用于模型训练和评估。

1.3.2 数据预处理

视频被转换成帧，速率为每秒30帧。
每帧的大小被调整为224x224像素，并使用ImageNet的标准化值进行归一化处理。
原始视频的分辨率变化范围在640x510到1280x960之间。

1.3.3 训练细节

ArgesFM在4个A10G GPU上训练了300,000次迭代，使用1个全局裁剪（224x224x3）和8个局部裁剪（96x96x3），批次大小为256。
下流任务中，独立训练了四个下游分类器模型，用于估计MES（ArgesMES）和三个UCEIS（ArgesUCEIS）组成部分得分。
训练了15个周期，学习率为10^-4，权重衰减为10^-5，在1个A10G GPU上进行。
使用多类别交叉熵损失和加权采样来解决数据中的类别不平衡问题。

2 实验和结果

2.1 实验设置

2.1.1数据集

使用来自两个UC和两个CD临床试验的数据集，包括61M帧的训练数据和20%的测试数据。

2.1.2 模型

ArgesFM: 使用ViT-Base作为编码器，DINOv2进行预训练。
ArgesMES/ArgesUCEIS: 使用Transformer作为下游分类器，包含位置编码和时间注意力机制，以及基于注意力的MIL聚合器。

2.1.3基准模型

基于CNN的WSL模型： WSL（弱监督学习），CDW-CE（改进的交叉熵损失函数）
基于SSL的模型： EndoFM

2.1.4 评估指标

使用F1分数和加权Cohen Kappa系数评估模型性能。

2.2 实验结果

MES评分: ArgesMES在测试集和前瞻性数据上均优于SOTA模型，F1分数提升4.1%。
UCEIS评分: ArgesUCEIS在测试集和前瞻性数据上均优于基于CNN的WSL模型，F1分数提升显著。
模型泛化能力: 所有模型在未见过的前瞻性数据上均表现出非劣效的F1分数，证明模型的泛化能力。
模型解释性: 基于注意力的MIL聚合器能够提供"高注意力"区域，便于临床解释和模型质量控制