GFE-MAMBA:基于MAMBA的MCI生成特征提取的AD多模态进展评估

论文总结

提出GFE-Mamba 模型,用于轻度认知障碍 (MCI) 向阿尔茨海默病 (AD) 的进展预测,解决多模态数据缺失、长序列特征提取效率低等临床难题,在 ADNI 数据集上实现领先性能。主要针对多模态部分模态数据缺失问题。像AD里面,MRI和PET模态,PET因为昂贵可能存在缺失的情况。多模态(MRI+PET + 临床量表)数据配对困难、训练成本高。

GFE-Mamba 由三大模块组成,实现仅用 MRI 即可补全 PET 信息并完成精准预测:

  1. 3D GAN-ViT 生成模块
    • 以 3D GAN 为骨架,中间替换为 Vision Transformer,从 MRI 生成逼真 PET,提取跨模态隐层特征,弥补 PET 缺失问题。
    • 训练完成后,中间特征可直接供给分类器,无需真实 PET。
  2. 多模态 Mamba 分类器
    • 融合MRI/PET 隐层特征 + 临床量表数据(分类值独热编码、数值归一化)。
    • 用 6 层 Mamba 块处理长序列,解决 Transformer 二次复杂度问题,高效提取时序与空间特征。
  3. 像素级双向交叉注意力
    • 补充 MRI 与 PET 的像素级细节信息,优化多模态融合,提升模型对病灶的聚焦能力。

实验结果:

  1. 对比实验 :在 1 年期 / 3 年期预测任务中,GFE-Mamba 全面超越单模态、多模态 SOTA 模型 ,1 年期准确率达94.92% ,3 年期达94.78%
  2. 消融实验:生成特征提取 (GFE)、中间特征、像素级交叉注意力、ViT 中间块、影像 / 量表数据,任一模块缺失都会导致性能显著下降,验证各组件必要性。

摘要

阿尔茨海默病(AD)是一种进行性、不可逆转的神经退行性疾病,通常源于轻度认知障碍(MCI)。这种进展会导致严重的记忆丧失,并严重影响患者的生活质量。临床试验一直表明,针对MCI患者的早期和有针对性的干预可能会减缓甚至阻止AD的进展。研究表明,准确的医学分类需要多样化的多模式数据,包括详细的评估量表和磁共振成像(MRI)和正电子发射断层扫描(PET)等神经成像技术。然而,同时收集上述三种训练方式带来了巨大的挑战。为了解决这些困难,我们提出了一种基于产生式特征提取的多模式分类器GFE-MAMBA。该萃取器提供的中间特征可以弥补PET的不足,在分类器中实现深度多模式融合。Mamba块作为分类器的骨干,使其能够有效地从长序列尺度信息中提取信息。像素级双交叉注意补充了来自MRI和PET的像素级信息。我们提供了开发这个跨时间进程预测数据集和预先训练的提取器权重的基本原理。我们的实验结果表明,GFE-Mamba模型有效地预测了从MCI到AD的进展,并超过了该领域的几种领先方法。我们的源代码可以在https://github.com/Tinysqua/GFE-Mamba.上找到

引言

阿尔茨海默氏病(AD)是一种在老年人中普遍存在的神经退行性疾病,影响记忆、认知能力和日常生活活动[41]。它通常由轻度认知障碍(MCI)发展而来,尤其是遗忘性MCI(AMCI),其主要特征是记忆问题。尽管患有aMCI的人经历了严重的记忆力丧失,但他们的认知能力下降还没有达到痴呆症的程度。预测aMCI患者是否会在一到三年内进展为AD对预后至关重要。及早识别高危人群可以进行量身定制的治疗和干预计划,从而减缓疾病进展并提高生活质量[42]。此外,早期预测有助于患者及其家人做出明智的决定,并在心理和实践上做好准备。研究支持这样一种观点,即早期发现和有针对性的干预可以显着减缓甚至阻止AD的进展。预后预测有助于医生采取适当的管理和治疗策略[43]。对于高危患者,通常会实施更密集的干预措施,如药物治疗和认知训练。药物,包括胆碱酯酶抑制剂,如多奈哌齐和NMDA受体拮抗剂,如美金刚,可以缓解认知症状,延缓疾病进展。对于预计不会很快下降的患者,建议定期进行监测和生活方式干预。常规的认知评估和年度神经成像可以及早发现潜在的变化,而认知训练等非药物方法可以帮助维持或增强认知功能。生活方式的改变,如更好的饮食、锻炼和心理支持,可以改善整体健康和抵御疾病的能力[8]。目前,对急性心肌梗死患者的预后预测依赖于神经成像、认知评估和生物标记物检测。知识量表在初始诊断中经常用于筛查急性心肌梗死,但其准确性可能会受到个体差异的影响,因此主要适用于初步评估[1]。MRI提供了大脑结构的详细图像,便于观察大脑体积缩小和皮质萎缩等变化。相比之下,正电子发射断层扫描提供了对大脑代谢活动和β-淀粉样蛋白堆积的洞察,这是早期检测AD的基本标志[2]。尽管有其优势,但PET成像是耗时、昂贵的,而且在技术上具有挑战性。它对检测大脑代谢的细微变化和早期诊断具有很高的敏感性和特异性AD标志物,如β-淀粉样蛋白,使其成为评估AD风险和进展的有效工具。然而,PET成像的复杂性增加了其成本和难度,其中包括特定的放射性示踪剂、精密探测器和先进的图像重建技术。对技术人员的需求进一步限制了它的广泛使用。尽管如此,PET成像提供关键的预测信息和监测AD进展的能力仍然是无价的。有效预测aMCI进展为AD需要考虑多种危险因素,并整合各种诊断工具以实现全面评估。这种多学科方法提高了预后预测的准确性,并有助于及时实施个性化干预。尽管目前采用了许多方法来预测从AMCI到AD的进展,但仍然存在重大的挑战和限制,特别是关于这些预测的准确性和可靠性[10]。这项研究试图通过综合多种方法来改善预后预测,探索更有效的方法,并为加强患者管理和治疗结果提供有价值的见解[12]。为了应对这些挑战,我们提出了AD预测模型GFE-MAMBA,该模型使用MRI自动对AD进行分类和预测。该模型集成了多项先进技术,包括3D GANViT、视觉转换器(VIT)瓶颈层、MANBA块主干网络和像素级别的双向注意。这些组件协同工作,通过生成特征提取(GFE)模块合成PET,有效地从MRI中提取病理特征。通过将尺度信息融入到MANBA块主干网络中,我们的方法显著提高了AD分类的精度。这一综合方法旨在为早期发现和处理有从aMCI过渡到AD风险的患者提供更可靠和实用的诊断工具。本文的主要贡献如下:1)3D GaN-VIT从MRI到PET:我们使用3D GaN作为主干,与VIT集成用于生成性任务学习。这种组合促进了Mamba分类器的GFE,有效地从MRI和PET图像中捕获空间特征。2)多模式Mamba分类器:提出了一种处理大规模尺度信息和3D图像的Mamba分类器。该分类器通过六个MANBA块整合序列,然后是平均层和线性层,以产生最终的分类。3)像素级双交叉注意:我们实现了像素级交叉注意策略,以提高分类器从MRI和PET图像中有效地捕捉经常被忽略的像素空间信息的能力。4)数据集构建:为了证明我们方法的普适性,我们使用阿尔茨海默病神经成像倡议(ADNI)的数据构建了三个数据集。第一个数据集由成对的MRI和PET(MRI-PET数据集)组成。以下数据集,重点是一年和三年的MCI-AD进展,用于训练分类器。我们全面解释了这些数据集是如何构建的,并将在GitHub上向公众提供数据集获取和处理代码,网址为https://github.com/Tinysqua/GFE-Mamba.

图1.GFE-MAMBA的总体架构。它包含一个3D GaN-VIT,它在MRI到PET生成任务中进行了预训练。从三维GaN-VIT中提取的2D潜伏期MRI和PET特征与尺度信息进行融合,然后将两者都送入多模式Mamba分类器。分类器和像素级MRI/PET的输出将预测像素级双交叉注意后的二进制分类结果。

图2.三维GaN-VIT结构图。通过编码器对形状为D×H×W的MRI数据进行压缩,得到2D潜在的MRI表示。在将其分割成补丁后,它被送入视觉转换器(VIT)。然后,输出被重塑成潜在的PET表示,其随后通过解码器来重建PET,其中生成的PET将与真实的PET一起被发送到鉴别器中,以评估生成和训练的质量。

相关工作

传统预测方法和机器学习预测方法

预测AD进展的传统方法严重依赖于认知评估和生物标记物检测。已经开发了诸如简易精神状态检查[34]和蒙特利尔认知评估[35]等工具来评估认知障碍和筛查痴呆症。生物标记物检测,由小利兰·克拉克开创。[36],通过评估脑脊液中的β淀粉样蛋白和tau蛋白来测量与AD相关的病理变化。尽管取得了这些进展,但预测从aMCI向AD的过渡仍然具有挑战性。这些局限性突出表明需要更准确的方法来早期预测AD进展。随着技术的进步,预测阿尔茨海默病的传统方法已经演变为纳入机器学习技术,显著提高了预测精度。Escudero等人。[13]利用多模式数据,包括临床、神经影像和生化信息,并应用k-均值聚类将受试者分为病理性和非病理性两组。他们还使用正则化Logistic回归进行分类[14]、[15]。万等人的研究成果。[16]为提高计算效率,提出了一种稀疏贝叶斯多任务学习算法。在此基础上,Young等人提出了自己的观点。[17]在ADNI数据库上使用高斯过程分类算法实现了较高的预测精度,该算法通过混合核函数集成了多模式数据。这些研究共同强调了机器学习在提高AD预测的准确性和可靠性方面的潜力。

基于神经网络的预测方法

随着计算机处理能力的提高和深度神经网络技术的发展,AD预测方法的研究获得了显著的势头[47],[3]。刘等人。[22]利用CNN从与认知衰退相关的脑区提取图像特征,然后使用支持向量机分类器将其与非图像数据组合。邱等人的研究成果。[23]使用完全卷积网络从MRI创建高分辨率的疾病概率图,将高危区域的特征与非成像数据相结合来对AD进行分类。进一步推进了该领域的研究,刘等人。[24]介绍了3MT架构,该架构通过交叉注意整合多通道信息,并包含通道退出机制。Rahim等人。[25]提出了一种三维CNN与双向RNN相结合的混合框架。El-Sappagh等人。[26]将堆叠的CNN和双向长短期记忆(BiLSTM)网络相结合,对5种类型的时间序列多峰数据进行融合,预测AD进展的准确率为92.62%。在这些进展的基础上,Wang等人。[27]开发了一种多通道学习框架,该框架通过图形扩散方法采用超图正则化方法,获得了96.48%的准确率。这些发展突显了集成各种神经网络结构和多模式信息以提高AD预测模型的准确性的日益增长的潜力。相关领域的最新进展为分类和识别技术提供了有价值的见解。Za等人的研究成果。[39]结果表明,将全局背景与局部地物特征相结合,显著提高了遥感场景分类的效率。在类似的脉络下,Xu等人。[40]开发了一种用于识别遮挡人脸的身份多样性绘画技术,从而提高了现实世界场景中的识别精度。潘等人[44]提出了一种用于检测AD神经回路异常的新型去耦合GaN,从而提高了临床环境下AD诊断的准确性和稳健性。Shih等人。[46]提出了一种基于自适应相似度的多通道特征选择分类方法及其先兆MCI。Park等人。[45]提出了一种预测AD从MCI转化为AD的前瞻性分类方法。这些研究突出了将不同的要素集与高级在各种应用程序中改进分类和识别的方法。

图3.Mamba分类器和像素级双交叉注意的框架和组件模块A部分详细介绍了Mamba分类器和其中的Mamba模块。B部分是像素级双交叉注意模块的详细内容。

与现有工作的比较

目前,各种方法利用深度学习结构,特别是具有残留连接的3D-CNN,使用MRI或PET扫描来预测AD的进展。这些方法通过将MRI/PET扫描和规模信息结合在一起,实现了同时预测,表明多模式数据可以提高预测精度。然而,许多现有的方法严重依赖于大量的配对数据,并导致高昂的培训成本来对齐多个模式,大大限制了它们的临床适用性。为了克服这些挑战,我们的方法将多模式数据的对齐分为两个不同的任务:生成和分类。这种分离减少了对配对数据的依赖,并简化了多模式分类的训练过程。

方法

我们的方法,如图1所示,包括三个主要组成部分:MRI到PET生成网络,多模式Mamba分类器,以及像素级别的双向注意机制。MRI到PET的生成网络首先使用配对的MRI和PET图像的综合数据集进行训练。此培训使网络能够在PET不可用时从MRI扫描生成PET。通过从核磁共振中提取信息,网络创建PET特征,然后将特征传递给分类器进行多模式融合。多模式Mamba分类器有效地处理融合数据,包括表格和中间图像特征,以做出准确的分类决策。为了增强这一过程,像素级别的双交叉注意机制工作在像素级,将MRI和PET结合起来,以克服分类器在处理浅层空间图像信息方面的局限性。这种集成的方法有效地结合了额外的PET信息,即使只存在MRI数据,也可以更准确地预测患者未来从MCI进展到AD的可能性

3D GaN-VIT在MRI-PET任务中的应用

核磁共振和正电子发射计算机断层扫描提供了有关大脑的基本结构和功能信息,这对预测AD的进展至关重要。然而,在临床环境中将这两种类型的数据合并到一个分类网络中会带来两大挑战。第一个挑战是需要配对的MRI、PET和标记数据,这很难获得,导致有限的训练数据集,很容易导致模型过度拟合。第二个挑战出现在真实的临床场景中,患者通常只接受更负担得起的MRI扫描和一些标准测试,导致缺乏多模式数据。尽管有这些挑战,配对的核磁共振和正电子发射计算机断层扫描仍然可用。为了解决这些问题,我们建议开发一个将MRI数据转换为PET表示的生成网络。这种方法有助于使用配对数据进行有效的表示学习,并允许提前完成网络的预训练过程。对于这一代网络,我们使用了3D GaN-VIT架构。具体地说,我们使用3D GaN网络作为基础,用VIT取代了原来的ResNet中间块。这一修改增强了网络从MRI数据生成准确的PET表示的能力。在图4中,生成的PET和真实的PET一起显示。这些切片直观地展示了3D GaN-VIT的生成效果,与真实效果几乎相同。因此,即使没有配对数据,来自3D GaN-VIT的中间特征可以传递对应于PET的MRI的信息。

图4.三维GaN-VIT的结果。从左到右,这些是轴向的3D图像切片。为了消除图像周围的黑色背景,左侧的第一列从第16个切片开始,随后的每一列都添加8个切片。在每一列中,从上到下是MRI、生成的PET和PET图像。

**3D GaN作为生成性特征抽取器。**伊恩等人。介绍了一种生成性对抗性网络(GAN)[1],旨在产生高质量的图像,通过代表性学习可以有效地用于各种任务。在此基础上,3D GaN[2]模型将原始的GaN框架扩展到三维医学成像应用。我们采用这种3D GaN作为我们的发电网络的核心,它由两个主要组件组成:鉴别器(D)和生成器(G)。该鉴别器通过学习从MRI扫描提取特征并将其转换为使用大量数据集的PET特征,指导生成器创建逼真的PET图像。这一功能确保了即使只有MRI数据可用,也可以利用这两种医疗设备的功能。如图2所示,我们的3D GAN-VIT网络的体系结构包括一个编解码器模块,该模块以卷积层为基础,中间集成了VIT层。该编码器包括三个下采样模块,每个下采样模块由最大池化层、组归一化层、卷积层和RELU激活层组成,信道大小分别为、128和256。同样,解码器具有三个上采样模块,通道大小分别为256、128和,每个模块都包括组归一化层、转置卷积层和RELU激活层,反映了下采样结构。在此设置中,MRI输入(XM)由生成器通过编码器和解码器进行处理,以产生PET输出(Yp),该输出随后用作鉴别器的输入。鉴别器使用相同的三个下采样模块来分析输入的PET(XPET),从而产生有助于计算损失函数的特征图(Y)。三维GaN网络的损耗函数由发电机损耗和鉴别器损耗两部分组成。生成器的损失函数表示为:

视觉Transomer作为中间块 。3D GAN-VIT网络的编解码器是将MRI数据压缩到潜在空间,然后进行重建的过程中的关键。为了优化这种转换,我们用VIT模块取代了传统的3D GaN的ResNet中间模块。这种修改是至关重要的,因为分类器的主干处理序列,而直接集成空间特征可能会导致空间信息的丢失。VIT通过将交互注意力应用到隐藏空间中图像的扁平向量来解决这个问题。首先,编码器将核磁共振数据压缩到潜在空间中,表示为XLm∈RH×W×D×C。然后,将3D特征图平面化成2D特征图,得到XLm∈R(H·√D)×(W·√D)×C,随后由VIT进行处理。通过块嵌入将特征图分割成一系列图像块序列xLMP∈RN×(p2·C),其中p是块大小,N等于(H·√D)p。将3D要素地图转换为序列后,它将通过转换器编码器,该编码器包括四个变压器块。经过处理后,序列xLMP∈RN×(p2·C)被调整回XLP∈RH×W×D×C,以供解码器生成PET图像。在训练前,MRI的潜在表征xLMP和PET的潜在表征xLPP有效地封装了这两种通道的信息。这些综合表示随后被编译并直接提供给分类器,用于下一阶段的信息融合。

图5.从ADNI数据集构造MCI-AD数据集的过程。在构建数据时,在时间x处识别MRI诊断,然后在时间x+1处将AD/MCI诊断分别标记为阳性/阴性样本。

多模式Mamba分类器

**时间间隔提取。**为了有效地预测从MCI到AD的进展,必须建立一个特定的预测时间框架,例如确定MCI患者是否会在180天内过渡到AD。如果设定180天的时间段,该模型旨在预测MCI患者在此期间后是否会发展为AD。因此,训练数据集必须准确地表示诊断之间的间隔。然而,组装这样一个数据集是具有挑战性的,因为很难确保每个患者的诊断间隔时间正好是180天。为了克服这一挑战,我们采用了动态战略。我们记录每个患者诊断之间的实际时间间隔,并将此信息与评估表类别值一起集成到模型的训练数据中。在推理过程中,我们使用训练集的平均时间间隔来进行预测。这种方法考虑了患者诊断时间的变化,确保该模型有效地预测在指定的时间范围内从MCI到AD的进展。

图6.一年和三年进程数据集的时间间隔分布分析。1年和3年分别代表一年和三年的进展。F表示已排除极值的数据集。

**评定量表的前处理。**为了提高我们模型的预测准确性,我们加入了评估量表,类似于医生使用MRI和PET图像以及诊断量表的方式。将这些尺度整合到模型中有两个主要目的。首先,这些天平提供了直接的诊断帮助。其次,表格数据的结构化性质使其与图像相比噪音较小。为了通过多模式融合进行有效的分类,关键是对评估表信息进行处理并将其与图像数据。我们首先将尺度信息分类为离散类别值和连续数值。对于离散的类别值:我们将它们转换为唯一的热代码,以防止不同行之间的重复。这是通过将每个后续列中的值增加所有先前列中的最大类别数来实现的,如公式所示:Ecat i=Ecat i+PI−1 j=1max(Ecat J)。这些转换后的值可以然后使用线性变换嵌入:

**Mamba分类器。**输入x∈R(m+n+2n)×d包含多种尺度信息,并由于3D图像的特征而延长了序列长度,当使用具有二次注意复杂度的传统变换进行训练时,效率面临挑战。为了克服与建模长序列相关的这些挑战,我们利用Mamba模型[5]。在综合了表格和图像信息后,该序列由六个Mamba块组成的分类器进行处理。图3(A部分)描述了这些Mamba区块的结构。每个Mamba块以均方根归一化开始,该归一化通过计算输入激活的均方根值来归一化输入序列。这一步对于防止深层网络中的梯度爆炸至关重要。在标准化之后,Mamba模块处理输入序列,并将结果输出与输入组合方程式中表示的残差:

像素级双交叉注意力机制

该分类器结合了来自MRI和PET扫描的图像特征以及前向传播过程中的表格数据。然而,它很难有效地利用这些图像中的像素级信息。将3D MRI/PET直接转换为序列会产生较长的序列,这会阻碍训练效率。此外,大量的图像数据会妨碍分类器充分整合尺度信息。为了解决这一问题,提出了交叉注意结构[6]。这种方法不涉及分类器的前向传播,而是使用注意机制使来自MRI和PET的像素级信息可用于分类器的序列。如图3(部分B)所示,来自分类器中的最终Mamba块的输出被表示为y∈r1×d,在最终分类阶段之前通过与核磁共振和正电子发射计算机断层扫描相互关注来增强。磁共振成像和正电子发射计算机断层扫描最初表示为XM和XP∈RH×W×D×C,被重塑为XM和XP∈R(H·W.D)×C的汇总形式。对于磁共振成像,交互注意过程遵循以下步骤:

实验

数据采集与处理

我们使用公开可用的ADNI数据集来验证我们的方法。我们的模型训练,如本文所述,需要两个不同的数据集:

**MRI-PET数据集,**包括配对的MRI和PET,以及MCI-AD数据集,用于评估分类器预测AD进展的能力。由于ADNI的隐私政策,我们不能公开共享筛选和处理的数据集。尽管如此,我们将全面描述这两个数据集是如何构建的。MRI-PET数据集。数据集的要求相对灵活,需要在同一诊断阶段对同一患者进行相应的MRI和PET扫描。该数据集必须足够大,以支持关于生成性网络和表示学习的有效训练。在我们的数据收集过程中,我们利用了ADNI1、ADNI2、ADNI3、ADNI4和ADNI-GO数据集。根据文献[2],[1],在10天内进行的核磁共振和正电子发射计算机断层扫描准确地反映了患者当时的情况。对于成像方案,我们选择了矢状位、3D、T1加权扫描,没有经过前处理,特别是磁化准备了快速梯度回声。对于PET扫描,我们选择了18F-FDG,并应用了联合配准、平均、图像和体素大小的标准归一化以及均匀分辨率调整等预处理步骤。我们的收集工作产生了2,843对MRI和PET数据集,我们将其分为2,274对用于训练,569对用于验证。3D图像最初是DICOM格式,后来被转换为Nifti格式。

**MCI-AD数据集。**为了构建这项任务的数据集,关键是要确定每个患者在每个诊断阶段的状态。我们使用了ADNI研究中的蝌蚪表数据,它为每个患者提供了全面的基本和病理信息。最初,我们确定了所有被诊断为MCI的患者,然后随着时间的推移跟踪他们随后的诊断。我们记录了每次后续诊断的状态和时间,如图5所示。如果患者后来被诊断为AD,分类标签被设置为1;否则,它被设置为0。在构建分类标签后,我们使用数据集中的信息识别相应的MRI。我们通过匹配表格中记录的患者ID和会诊日期,从ADNI图像数据集中检索相关的MRI扫描。MRI数据最初是DICOM格式,后来被转换为Nifti格式供进一步分析。然后,我们通过添加一列来表示诊断之间的时间间隔(表示为∆t)来改进蝌蚪表,并删除了无关信息。这包括:1)冗余数据,如用于身份验证的信息;2)标记信息,如诊断结果;以及3)与临床诊断和培训无关的复杂指标,如特定大脑区域体积。诊断之间的平均时间间隔约为6.7个月,不包括极端值(例如,∆t≤90天或3个月)。在此处理之后,我们创建了两个数据集来评估不同时间间隔内的方法:一年进展数据集和三年进展数据集。为期一年的数据集包括302个样本,分为242个用于训练,60个用于测试。这个为期三年的数据集包含351个样本,分为281个用于培训,70个用于测试。MCI-AD数据集包括136个阳性样本和155个阴性样本。这些数据集分别对应于150≤∆t≤365d和150≤∆t≤1095天的时间间隔。表I给出了这些数据集中∆t的正负样本的均值、方差和计数。为了可视化所有样本的时间间隔,图6显示了一年和三年进度数据集中的时间间隔的框图。X轴和Y轴分别表示数据集名称和时间间隔长度。每个数据集由两个盒子图表示:一个在排除异常值之前,另一个在排除异常值之后。在剔除异常值后,时间间隔的分布更加集中,并且扩展到更大的范围,从而增强了模型在更长时间段内学习的能力。

评价指标

我们使用了五个指标来评估从ADNI获得的数据集的分类性能:准确率、精确度、召回率、F1分数和马修斯相关系数(MCC)。以下是它们的定义和公式:

其中,TP(真阳性)和TN(真阴性)分别表示正确预测的正样本和负样本。相反,FP(假阳性)和FN(假阴性)表示错误预测的正样本和负样本。

图7。在一年和三年的数据集上通过7折交叉验证生成的ROC曲线。半透明线表示7个交叉验证中每一个的ROC,而不透明线表示平均值。灰色阴影区域表示1.5标准差内的误差水平。

图8.GFE-MANBA的混淆矩阵。对每一行中的值进行了归一化,以评估正面和负面案例的分类性能。

实验配置

这项研究的两个组件都是在配备CUDA 11.8的NVIDIA GeForce RTX 4090图形处理器上使用PyTorch 2.0实现的。我们使用Monai读取Nifti格式的图像,使用Pandas读取表格并将其转换为训练数据。对3D GaN-VIT模型进行了200个历元的训练,批次为2;分类器的训练历时100个历元,批次为8。两个模型均采用ADAM算法进行优化,学习率为0.0001,贝塔参数设置为(0.9,0.999)。实验包括比较和消融研究:在比较研究中,JSRL和我们的方法都首先在上述MRI-PET数据集上训练GaN网络。随后,所有方法都在MCI-AD数据集上进行训练。在消融研究中,所有其他参数保持不变,同时顺序删除GFE、中间特征、像素级双交叉注意、Vit中间块、图像数据和表数据。每组训练结束后,测量IV-B中的各项指标。

对比实验

使用ADNI数据集将我们的GFE-Mamba模型与其他高级AD分类模型进行比较的实验结果如表II所示。我们对我们的方法进行了评估,对比了单独使用CT扫描或评估尺度的单模方法,以及结合CT扫描和评估尺度的多模式方法。对于使用CT扫描的单峰比较,我们选择了3D ResNet[28]、PE-Net[48]和JSRL[50]。注意到PE-NetJSRL在肺部CT诊断中有显著效果,而JSRL在通过表征学习诊断脑CT方面更具优势。对于单峰评估量表方法,我们考虑了TabTransformer[29]、FTTransformer[51]和XGBoost[30]。XGBoost凭借其在使用梯度提升决策树的表格任务中的性能而脱颖而出,而TabTransformer和FTTransformer都通过使用变压器在长表方面表现出色。在多模式范畴中,我们评估了Radfusion[49]、Fusion模型[32]中的方法,以及邱等人的方法。以及Zhang等人,所有这些都使用CT图像和文本信息进行准确诊断。结果表明,GFE-MAMBA的性能明显优于这些模型,特别是在MCC和精度方面。由于我们的研究结果在数据集上的一致性和稳健性,我们将重点放在1年数据集的比较结果上。与ResNet系列模型[28]相比,GFE-Mamba在处理磁共振成像方面表现出了卓越的性能,这些模型旨在解决深层网络中的梯度消失问题。具体地说,ResNet50模型在精确度和准确度方面都存在不足,分别只达到了81.03%和73.17%。虽然ResNet模型通常难以捕获局部病变,但GFE-Mamba使用3D GaN-Vit模块有效地处理空间向量,增强了空间信息的捕获并提高了分类精度。同样,与以表格数据处理能力著称的TabTransformer[29]相比,GFE-Mamba在捕捉MRI病理特征和识别复杂病理状态方面显示出更强的能力。TabTransformer模型的召回率和F1得分较低,分别为90.57%和87.32%。结果表明,3D GaN-VIT模块与多通道MAMBA的集成GFE-MAMBA中的分类器显著提高了分类精度和模型的可解释性。当与XGBoost[30]和Chu等人的S模型[31]等传统AD分类模型进行比较时,GFE-Mamba克服了这些模型在特征提取能力和参数冗余度方面的局限性,这些模型严重依赖于传统的CNN。因此,GFE-Mamba在召回率和F1-Score上均优于早期模型和3D CNN模型,分别达到86.53%和86.92%,81.82%和84.17%。这意味着GFEMamba通过引入像素级双交叉注意机制,克服了3D CNN模型典型的高计算复杂性和不充分的全局信息捕获,从而增强了特征表达能力和模型的可解释性。此外,与先进的AD分类模型,如Fusion模型[32]和Zhang等人的S模型[33]相比,GFE-Mamba显示了优越的性能。虽然这些模型在多模式数据处理和特征提取方面表现良好,但它们经常遇到特征冗余和非线性特征表示的问题,特别是在复杂的神经成像数据中。GFE-Mamba通过将3D GaN-VIT模块与多模式Mamba分类器相结合来解决这些挑战,从而最大限度地减少空间和通道冗余并优化特征表示。像素级双交叉注意机制进一步改善了非线性特征表示和模型的可解释性,同时减少了内存使用和计算复杂性。结果表明,GFE-MAMBA在捕捉MRI特征和准确区分复杂病理状态方面优于多模式深度学习模型和其他AD分类模型,后者的准确率和F1得分分别为89.83%、88.91%和76.67%、79.86%。为了彻底评估我们方法的有效性,我们在一年和三年的数据集上进行了7次交叉验证。对于每一轮验证,我们绘制了ROC曲线,还包括了平均ROC曲线以说明整体性能。如图7所示,GFEMamba在分类任务中始终表现出高性能,保持了不同数据集的稳定性。除了ROC分析,我们还收集了模型的预测结果,并计算了真阳性、假阳性、真阴性和假阴性的平均计数。使用这些度量,我们构建了一个混淆矩阵。如图8所示,我们的方法在正确分类积极和消极情况方面表现出很高的准确性。

消融实验

在消融实验部分,我们考察了GFE、像素级双交叉注意和VIT中间块分量对GFE-Mamba模型在1年和3年数据集上的分类性能的不同贡献。与完整的GFE-Mamba模型相比,我们通过分析单独移除每个组件时准确率、精确度、召回率、F1得分和MCC值的变化来评估每个模块的影响。如表III所示,结果表明,每个模块都显著提高了模型的分类性能。由于两个数据集的结果一致,我们的讨论将集中在1年数据集上进行的消融实验。

去除生成性特征提取的影响。GFE模块对于增强模型利用GANS从高维神经成像数据中提取特征的能力至关重要。当该模块被移除时,3D GaN-VIT不被训练用于生成任务,并且仅保留其编码器。这种去除大大阻碍了模型的特征提取能力,导致性能显著下降。例如,精确度从95.71%下降到88.57%,F1得分从96.13%下降到89.29%。其他指标也有所下降。这些结果突出了GFE模块在优化特征表示方面的重要作用,特别是在捕获详细的MRI特征方面。为了进一步说明此模块的有效性,我们使用图9中的GradCAM进行了比较,展示了使用和不使用生成性特征抽取器的方法。GradCAM通过利用梯度的全局平均特征图中的权重来帮助解释该模型关注图像的哪些部分。为了可视化3D MRI和CT图像,CT及其对应的特征图从矢状面、横断面和冠状解剖平面切片,厚度为一半。可视化实验表明,使用产生式特征抽取器后,模型更加集中于相关的大脑区域。相比之下,如果没有它,该模式就缺乏明确的重点领域。

**删除中间功能的影响。**来自GaN模块的中间特征对于送入分类器至关重要,因为它们提供了比通常仅用于分类的特征集更全面的特征集。这是由于通过GaN训练的编码器提取了更广泛的特征。此外,生成的PET图像依赖于这些提取的中间特征。为了说明这些中间特征在从磁共振成像生成PET图像中的重要性,我们在PET生成过程中删除了它们。取而代之的是,我们使用了一个由3D卷积和池层组成的编码器来从生成的PET中提取特征,并在分类器旁边训练这个编码器。去除中间特征导致分类器性能下降,准确率、召回率、F1得分、准确率和MCC分别下降3.36%、8.73%、6.09%、4.00%和7.37%。这些结果表明,在PET生成过程中直接提取中间特征比从生成的PET中提取特征更有利于分类器识别。

**移除双交叉注意模块的影响。**像素级双交叉注意模块在增强模型识别不同数据模式之间的关系的能力方面发挥了至关重要的作用,从而改善了特征表示和可解释性。删除此模块会显著降低模型集成多模式数据的能力,导致性能显著下降。具体来说,召回下降了6.55%,MCC下降了5.86%。这些发现强调了这一机制在从多模式数据中提取和集成信息以全面理解和准确分类具有复杂的病理特征的关键重要性.

图9.两幅MRI CT图像在分类过程中的热图。第一、第二和第三行分别表示矢状面、轴面和冠状面。GFE表示产生式特征提取程序。

**拆除VIT中段的影响。**VIT中间模块对于增强模型捕获全球空间信息的能力至关重要,使其能够管理不同的空间关系和磁共振成像中的细微特征。用残差块替换该块会降低模型捕获这些全局空间特征的能力,从而导致性能下降。值得注意的是,准确率下降了7.74%,召回率从11.55%下降了。这种提取全局特征的能力的降低使模型区分复杂病理的任务复杂化,突出了VIT中间块在识别复杂病理状态中的关键作用。

**删除图像数据的影响。**图像数据是模型性能的基础。它的缺失大大降低了模型的特征提取能力和识别病理情况的准确性。如果没有视觉提示,模型的分类效率会受到影响,导致性能下降。具体来说,精确度从6.05%下降,MCC从15.14%下降。这些结果强调了图像数据在获取基本病理特征以进行准确诊断方面的重要性。

删除表格数据的影响。表格数据是成功的多通道数据融合的关键。去除它会削弱模型整合来自不同来源的信息的能力,损害其对病理特征的全面理解。缺乏表格数据限制了模型在利用多源信息方面的有效性,导致性能指标显著下降。具体地说,准确率从18.45%下降,F1得分从9.46%下降。这些发现强调了表格数据在补充图像数据以获得准确和有效分类。

总结

本文提出的GFE-MAMBA模型解决了多模式数据融合、特征表达和模型可解释性方面的挑战,以预测从MCI到AD的进展。通过集成3D GAN-VIT、多模式Mamba分类器和像素级双交叉注意机制,GFE-Mamba模型有效地从MRI中提取病理特征,利用尺度信息进行稳健的融合和分类预测。即使来自ADNI数据集的数据不完整,此功能也可确保AD分类任务的强大性能。考虑到ADNI数据集的开放访问限制,我们概述了收集、处理和预测ADNI等公共数据集的过程。我们提供了相关的处理代码,以支持其他研究人员进行时空预测。通过对重建的一年和三年ADNI预报数据集的对比和烧蚀实验,验证了GFE-MAMBA模型的有效性和弹性。它在准确性、精确度、召回率、F1-Score和MCC方面都大大超过了其他最先进的车型。我们的消融实验表明,移除任何模块组件都会导致性能显著下降,这突显了每个组件在充分提取和利用多模数据以提高分类精度方面所起的关键作用。展望未来,随着该领域的发展,我们计划与合作医院合作,收集更大、更多样化的数据集。这包括延长平均时间大小从主观认知下降到MCI数据集收集数据,从而提高了模型的泛化能力和稳健性。最终,我们的目标是开发一种集成系统,使患者能够从单个MRI和量表快速接收分类判断和进展预测,从而减轻临床医生的诊断负担。

相关推荐
AI技术控8 小时前
Transformer 的 Encoder 和 Decoder 模块介绍:从结构原理到大模型应用实践
人工智能·python·深度学习·自然语言处理·transformer
ʜᴇɴʀʏ9 小时前
TPAMI 2026 | Semi-DETR++:基于检测 Transformer 的高效半监督目标检测
深度学习·目标检测·transformer
大江东去浪淘尽千古风流人物1 天前
【SANA-WM】分钟级世界模型:混合线性扩散Transformer与双分支相机控制深度解析
人工智能·深度学习·架构·spark·机器人·transformer·wm
txg6662 天前
HgtJIT:基于异构图 Transformer 的即时漏洞检测框架
人工智能·深度学习·安全·transformer
z小猫不吃鱼2 天前
02 Transformer 基础:Self-Attention 原理详解
人工智能·深度学习·transformer
数智工坊2 天前
【BLIP-2论文阅读】:冻结预训练模型的多模态预训练革命
论文阅读·人工智能·深度学习·计算机视觉·transformer
Forrit2 天前
大模型评估指标
transformer
Forrit2 天前
多智能体 执行-辩论-校验 闭环架构
transformer