AI在医学领域:Arges框架在溃疡性结肠炎上的应用

溃疡性结肠炎(UC)是一种慢性炎症性肠病(IBD),在全球大约影响着500万人,导致肠道炎症和溃疡。在UC的临床试验中,通常通过内窥镜视频来评估结肠疾病的严重程度,并使用如Mayo内窥镜下分数(MES)和溃疡性结肠炎内窥镜严重指数(UCEIS)等标准评分系统来衡量。专家对视频的人工评估既耗时又容易受到评估者间差异的影响,这强调了自动化解决方案的必要性。然而,自动化内窥镜疾病评分面临着独特的挑战:

  • 在临床环境中,疾病评分并非常见做法,因此标注数据稀缺;
  • 在临床试验中,数据通常在视频级别进行标注,这挑战了基于帧的全监督网络的使用;
  • 由于视频通常很长,时长超过30分钟,对所有视频帧进行标注以及将完整视频作为3D CNN和LSTM的输入是具有挑战性的。此外,最近的发现表明,时间意识对于手动和算法疾病评分是一个重要组成部分,这表明需要超越静态的、基于帧的模型。

本文介绍一个深度学习框架Arges,用于从内窥镜视频中对UC疾病进行表征。它包括一个基础SSL编码器(ArgesFM),后面跟着一个下游分类器(ArgesMES/ArgesUCEIS),用于估计每个视频的疾病严重程度得分。

1 数据和方法

1.1 Arges框架

Arges框架的组成

1.1.1 基础模型(ArgesFM)

目的: 提取视频帧的特征,为下游任务提供通用的表示。

模型架构: 基于自监督学习(SSL)的视觉Transformer(ViT-Base)。采用视觉变换器(ViT-Base)作为编码器,通过自注意力机制捕捉帧内的空间关系。

预训练方法: 使用DINOv2算法进行预训练,通过知识蒸馏的方式学习图像特征。

​​​​​​​1.1.2 下游分类器

目的: 利用ArgesFM提取的特征,评估视频级别的UC严重程度。

模型架构: 基于Transformer的网络结构,包含位置编码和时间注意力机制。

聚合方法: 使用基于注意力的多实例学习(MIL)聚合器,将视频帧的特征聚合为视频级别的表示。

下游分类器包括ArgesMES和ArgesUCEIS两个部分。

  • ArgesMES:用于估计Mayo内窥镜下分数(MES)。
  • ArgesUCEIS:用于估计Ulcerative Colitis Endoscopic Index of Severity (UCEIS)的三个组成部分得分,包括出血、糜烂和血管模式。

1.2 数据集

来自四个临床试验的IBD内镜视频数据,包括两个UC试验和两个CD试验。

  • 规模: 超过71M帧,是迄今为止最大的IBD数据集。
  • 内容: 包括视频级别的MES和UCEIS评分标签,以及用于模型预训练的未标注数据。
  • 特点: 数据集涵盖了不同地区、不同严重程度的IBD患者,具有高度的多样性和代表性。

1.3 训练过程

1.3.1 数据分割

将来自两个UC和两个CD临床试验的数据划分为80%的训练集和20%的测试集,用于模型训练和评估。

1.3.2 数据预处理

  • 视频被转换成帧,速率为每秒30帧。
  • 每帧的大小被调整为224x224像素,并使用ImageNet的标准化值进行归一化处理。
  • 原始视频的分辨率变化范围在640x510到1280x960之间。

1.3.3 训练细节

  • ArgesFM在4个A10G GPU上训练了300,000次迭代,使用1个全局裁剪(224x224x3)和8个局部裁剪(96x96x3),批次大小为256。
  • 下流任务中,独立训练了四个下游分类器模型,用于估计MES(ArgesMES)和三个UCEIS(ArgesUCEIS)组成部分得分。
  • 训练了15个周期,学习率为10^-4,权重衰减为10^-5,在1个A10G GPU上进行。
  • 使用多类别交叉熵损失和加权采样来解决数据中的类别不平衡问题。

2 实验和结果

2.1 实验设置

2.1.1数据集

使用来自两个UC和两个CD临床试验的数据集,包括61M帧的训练数据和20%的测试数据。

2.1.2 模型

  • ArgesFM: 使用ViT-Base作为编码器,DINOv2进行预训练。
  • ArgesMES/ArgesUCEIS: 使用Transformer作为下游分类器,包含位置编码和时间注意力机制,以及基于注意力的MIL聚合器。

2.1.3基准模型

  • 基于CNN的WSL模型: WSL(弱监督学习),CDW-CE(改进的交叉熵损失函数)
  • 基于SSL的模型: EndoFM

2.1.4 评估指标

使用F1分数和加权Cohen Kappa系数评估模型性能。

2.2 实验结果

  • MES评分: ArgesMES在测试集和前瞻性数据上均优于SOTA模型,F1分数提升4.1%。
  • UCEIS评分: ArgesUCEIS在测试集和前瞻性数据上均优于基于CNN的WSL模型,F1分数提升显著。
  • 模型泛化能力: 所有模型在未见过的前瞻性数据上均表现出非劣效的F1分数,证明模型的泛化能力。
  • 模型解释性: 基于注意力的MIL聚合器能够提供"高注意力"区域,便于临床解释和模型质量控制
相关推荐
机器懒得学习1 分钟前
基于YOLOv5的智能水域监测系统:从目标检测到自动报告生成
人工智能·yolo·目标检测
QQ同步助手16 分钟前
如何正确使用人工智能:开启智慧学习与创新之旅
人工智能·学习·百度
AIGC大时代19 分钟前
如何使用ChatGPT辅助文献综述,以及如何进行优化?一篇说清楚
人工智能·深度学习·chatgpt·prompt·aigc
流浪的小新23 分钟前
【AI】人工智能、LLM学习资源汇总
人工智能·学习
martian6651 小时前
【人工智能数学基础篇】——深入详解多变量微积分:在机器学习模型中优化损失函数时应用
人工智能·机器学习·微积分·数学基础
人机与认知实验室2 小时前
人、机、环境中各有其神经网络系统
人工智能·深度学习·神经网络·机器学习
黑色叉腰丶大魔王2 小时前
基于 MATLAB 的图像增强技术分享
图像处理·人工智能·计算机视觉
迅易科技5 小时前
借助腾讯云质检平台的新范式,做工业制造企业质检的“AI慧眼”
人工智能·视觉检测·制造
古希腊掌管学习的神6 小时前
[机器学习]XGBoost(3)——确定树的结构
人工智能·机器学习
ZHOU_WUYI7 小时前
4.metagpt中的软件公司智能体 (ProjectManager 角色)
人工智能·metagpt