阿尔茨海默病分期早期检测的多模式深度学习模型

论文总结

目标：利用多模态数据（MRI影像、SNP遗传数据、临床EHR数据）通过深度学习模型早期识别阿尔茨海默病（AD）阶段（CN、MCI、AD）。
方法：
- 对影像数据使用3D卷积神经网络（CNN）。
- 对临床和SNP数据使用堆叠去噪自编码器（SDAE）。
- 采用三种融合策略：特征级（浅层模型）、中间特征级（深度学习）、决策级（投票）。
- 提出一种基于扰动与聚类的模型解释方法，用于提取重要特征。
数据集：ADNI数据库（临床2004例、影像503例、SNP 808例，其中220例三者齐全）。
主要结果：
- 单模态下深度学习优于传统浅层模型（SVM、kNN、随机森林、决策树）。
- 多模态融合（尤其是EHR+SNP、EHR+影像、三者融合）预测性能优于单模态。
- 影像+SNP组合因样本量小，浅层模型反而优于深度学习。
- 重要特征包括海马、杏仁核区域及RAVLT记忆测试等，与已知AD文献一致。
解释性贡献：通过逐特征扰动评估精度下降程度，并结合聚类分析，识别出最具判别力的特征。
局限性：数据集规模较小，未来可采用迁移学习、领域自适应等方法改进。

摘要

目前大多数阿尔茨海默病(AD)和轻度认知障碍(MCI)研究使用单一数据模式来预测AD阶段。多个数据模式的融合可以提供AD分期分析的整体视图。因此，我们使用深度学习(DL)对成像(磁共振成像(MRI))、遗传(单核苷酸多态(SNPs))和临床测试数据进行综合分析，将患者分为AD、MCI和对照组(CN)。我们使用堆叠式去噪自动编码器从临床和遗传数据中提取特征，并使用3D卷积神经网络(CNN)来处理成像数据。我们还提出了一种新的数据解释方法，通过聚类和扰动分析来识别深层模型学习到的表现最好的特征。使用阿尔茨海默病神经成像计划(ADNI)的数据集，我们证明了深层模型的性能优于浅层模型，包括支持向量机、决策树、随机森林和k近邻。此外，我们还证明了综合多通道数据在准确率、精确度、召回率和平均F1得分方面优于单一通道模型。我们的模型已将海马体、杏仁核脑区和Rey听觉言语学习测试(RAVLT)确定为最主要的特征，这与已知的AD文献一致。

引言

深度学习在多种疾病的临床决策支持方面显示出了巨大的潜力，包括糖尿病视网膜病变1，2，癌症3，4和阿尔茨海默病(用于成像分析)5-7。与其他浅层学习模型相比，深度学习模型的主要优点是能够直接从给定标签示例的原始数据中学习最具预测性的特征。在诸如图像8、9、电子健康记录(EHR)10和SNPs11等单一数据模式下，数字学习已经显示出比浅层学习的改进。数据挖掘技术还有助于在存在部分数据的情况下进行训练和预测12。在这项研究中，我们开发了一种新的用于临床决策支持的DL架构，它使用多模式数据(图像、临床数据和遗传信息)预测阿尔茨海默病(AD)的阶段。AD是最常见的神经退行性疾病，也是美国第六大死因S纹身13、14。预计到203015全球AD的疾病负担将达到2万亿美元，这就需要及早发现。尽管进行了广泛的研究并在临床实践中取得了进步，但只有不到50%的AD患者根据其临床症状得到了准确的病理诊断和疾病进展13。阿尔茨海默病最确凿的证据是组织病理学中存在淀粉样斑块和神经原纤维缠结。然而，阿尔茨海默病的早期发病与斑块的存在无关，而与突触和神经元的丢失有关。AD倡议17-19的数据和数据挖掘策略的研究正在进行中，以提高我们对潜在疾病过程的理解。包括临床症状20(如痴呆症、记忆力减退)、神经测试和评分(如MMSE评分)在内的AD生物标记物通过成像、遗传和蛋白质双标记物21-26得到增强。这些研究中的大多数使用单一模式数据识别生物标记物，这限制了对AD疾病进展的整体评估。已经有结合了各种成像模式27-32的AD多模式分析，例如结构MRI(T1加权、T2加权)、功能MRI、正电子发射断层扫描(PET)33、34和成像遗传学35。此外，遗传学已被用于临床数据，以增加数据标签和表型。除了浅层学习器，自动编码器8和深度信念网络36(补充表A1)等DL模型已被用于PET和MRI图像数据融合，并改进了预测。在这项研究中，我们进一步融合多模式AD数据以推进AD分期预测，使用DL结合成像、EHR和基因组SNP数据将患者分为对照组(CN)、MCI和AD组。我们分别对EHR和SNP数据使用堆叠去噪自动编码器，并使用新颖的三维卷积神经网络(CNN)来训练MRI成像数据。在为每种数据模式分别训练网络后，我们使用不同的分类层将它们组合在一起，包括决策树、随机森林、支持向量机(SVM)和k近邻(KNN)。我们使用包含SNP(808名患者)、MRI成像(503名患者)以及临床和神经学测试数据(2004名患者)的ADNI37数据集来演示我们的集成模型的性能。尽管在使用多种数据类型的临床决策支持方面表现优异，但广泛采用DL模型进行临床决策的一个主要缺点是缺乏明确定义的方法来解释深层模型。我们通过开发新的扰动和基于聚类的方法来找到对决策有贡献的顶级特征来解决这一挑战。在本文中，我们报告了对AD阶段预测的主要贡献如下：

1、新的DL结构优于浅层学习模型；

2、使用DL进行多通道数据分析的性能优于单通道DL模型；

3、新的可解释的DL方法能够提取性能最好的特征。

数据描述

本文使用阿尔茨海默病神经影像计划(ADNI)数据库(adni.Loni.usc.edu)37的数据进行分析。ADNI旨在测试系列MRI、PET、生物标记物以及临床和神经心理学评估是否可以结合起来衡量MCI和早期AD的进展。ADNI数据库包含四项研究(ADNI1、ADNI2、ADNI GO和ADNI3)中超过2220名患者的成像、临床和遗传数据。我们的研究重点是ADNI1、2和GO，因为ADNI3是一项正在进行的研究，预计将于2022年结束。这些数据目前正在分阶段发布，未处理的成像数据的可用性有限，目前还没有遗传数据。成像数据(ADNI1、2和GO)由MRI和PET图像组成，其中我们使用与ADNI1(503例患者)基线筛查相对应的横断面MRI数据。数据发布者对图像进行了标准化，以消除来自不同供应商的扫描仪造成的非线性。在这项研究中，我们使用了横断面MRI数据，由分布在18个切片上的每个患者9108个体素组成，每个切片有22×23个体素。对于临床或EHR数据，我们使用2004名患者(ADNI1、ADNI2和ADNI GO)的临床测试数据(例如记忆力测试、平衡测试和认知测试)、药物数据(例如左旋多巴的使用)、成像评分摘要(例如PET的氟脱氧葡萄糖(FDG)水平、MRI的脑体积)、患者人口统计数据(例如年龄和性别)以及生化测试。基因数据由Illumina的非临床实验室改进修正案(Non-CLIA)实验室在2012和2013年覆盖约30-40倍的808名ADNI参与者(测序时，128名AD患者，415名MCI患者和267名对照)的全基因组测序(WGS)数据组成。所产生的变体调用文件(VCF)是由ADNI在2014年使用广泛的最佳实践(Burrow-Wheeler Aligner(BWA)和Genome Analysis Toolkit(GATK)单倍型调用者)生成的。本研究共使用2004例患者，其中2004例患者均有临床资料，503例患者有影像资料，808例患者有基因资料(图1)。对于多次就诊的参与者，我们使用患者最后一次就诊的诊断。如图1C所示，220名患者有全部三种数据模式，588名患者有SNP和EHR，283名患者有影像和EHR，其余患者只有EHR数据。

新型动态链接库和多通道数据分析的研究设计

如上所述，我们使用来自成像(503张MRI图像)、SNP(808名患者)和EHR(2004名患者)的数据来预测AD分期。对于每一种单一的数据模式，我们首先展示了深层模型相对于浅层模型的优势，如KNN、一对一编码支持向量机、随机森林和决策树。浅层模型和DL的SNP和EHR功能是相同的。对于成像，当使用DL时，我们直接应用多层3D体素，而对于肤浅的学习者，我们从3D体素提取专家精心制作的特征。关于AD分期，只有EHR有三个阶段的类别CN、MCI和AD。SNP的表达在MCI和AD38之间没有变化，只有CN对AD/MCI的预测。在影像上，早期MCI患者的结构与CN相似，晚期MCI患者的结构与AD相似。因此，对于成像，只有CN和AD(如参考文献39所示)用于分期评估。因此，结合这三种模式可以帮助我们显著提高AD分期预测的准确性。如图2和图3所示，我们开发了三种数据融合策略：(I)使用浅模型的特征级组合，(Ii)使用深模型的中级特征级组合，以及(Iii)使用浅模型的决策级组合。特征级别的组合是通过使用浅层学习器(图2)直接串联数据模态来执行的。中间特征级别的组合是通过使用DL提取中间特征，然后连接并通过分类层来执行的(方法和补充中提供了更多细节)。决策级组合通过对单一模式进行投票来执行。我们测试了KNN、一对一编码支持向量机、随机森林和决策树等浅层模型的决策层组合，并给出了性能最好的模型。对于中等特征水平的模型(图3)，我们评估了四种组合，(I)EHR+成像+SNP，(Ii)EHR+成像，(Iii)EHR+SNP，和(Iv)成像+SNP。对于除成像+SNP之外的所有组合，我们执行三阶段分类(CN、AD和MCI)。对于成像+SNP，我们将其分类为AD和CN。所有上述案例都使用内部交叉验证和外部测试集进行评估。我们首先删除10%的数据作为外部测试集。对于剩下的90%，我们执行十次交叉验证，81%的总数据用于培训，9%用于内部交叉验证。内部交叉验证数据集用于优化模型。

图1.(A)ADNI数据说明临床数据包括人口学、神经学检查和评估、药物、成像体积和生物标志物。(B)按病态和疾病阶段分列的病人人数。(CN对照组、MCI轻度认知障碍和AD阿尔茨海默病)。220例患者具有全部三种数据模式，588例患者进行了SNP和EHR，283例患者进行了成像和EHR，其余患者仅有EHR数据。

新型动态链接库和多通道数据分析结果

我们报告内部交叉验证分区和外部测试数据集的ADNI结果。对于每个DL模型或基线浅层模型，我们使用准确率、精确度、召回率和平均F1得分的平均值作为衡量标准，以显示深度模型对于单通道模型的优势以及数据整合所获得的改进。

**三维卷积神经网络在MRI数据成像方面优于浅层模型。**一名患者的成像数据由9108个维度为22×23×18的3D体素组成，对应于选定的五个大脑区域中的每一个。

图2.深层数据集成模型与浅层数据集成模型的比较。(A)浅层模型上的特征级集成，其中特征在传递到浅层模型之前被串联。(B)深度中间特征级集成，在集成和预测之前使用深度模型分别对原始特征进行变换。(C)决策级综合，其中使用个别分类员的决定进行投票。在这项研究中，我们比较了深中层集成和浅层特征和决策层集成在预测阿尔茨海默病分期方面的性能。

图3.用于临床决策支持的多模式数据集成的中级特征级组合深度模型。来自不同来源、成像、EHR和SNP的数据使用新的深层架构组合在一起。3D卷积神经网络结构用于3D MR图像区域以获得中间成像特征。深度堆叠去噪自动编码器被用来获得中间的EHR特征。使用深度堆叠去噪自动编码器来获得中间的SNP特征。这3种类型的中间特征被传递到分类层，用于分类为阿尔茨海默氏期(CN、MCI和AD)

第一级完全连接层的DL模型的节点数=5×20=100，第二级完全连接层的节点数为20。结果(图4A)表明，基于CNN的成像模型的性能优于浅层模型，并给出了最好的精度和平均F1分数。

**在EHR数据上，深部自动编码器模型与浅部模型相当。**EHR数据由2004名患者组成，每名患者1680个标准化特征，我们使用这些数据将患者分为AD、MCI和CN(三类)。我们使用一个三层的自动编码器，每个编码器有200、100和50个节点。使用具有最大历元计数的ADAM来训练深层网络(在整个数据集上重复DL网络训练以允许充分培训)25人。经过超参数优化后，初始训练的正则化系数固定为0.03，微调的正则化系数固定为0.03。对于所有层，丢弃概率被设置为0.6。结果(图4B)表明，自动编码器的性能优于KNN和支持向量机等浅层模型，它们与决策树和随机森林相当。

**对于SNP数据，深层自动编码器模型优于浅层模型。**处理后的SNP数据包括808名患者的500个特征(每个患者的水平为1、2、3)，我们使用这些特征将患者分为AD/MCI和CN(两类)。自动编码器网络由三个隐藏层组成，每个隐藏层有200、100和50个节点。使用ADAM优化和最大历元计数为30，性能最好的模型的初始训练的正则化系数为0.03，而微调的正则化系数为0.06。每层的损坏(丢弃)为0.6。结果(图4C)表明，自动编码器模型的性能优于所有基线模型。

图4.预测阿尔茨海默氏症阶段的个别数据模式的内部交叉验证结果(A)成像结果：深度学习预测比浅层学习预测更好(B)EHR结果：深学习优于浅层模型KNN和支持向量机，与决策树和随机森林相当(C)SNP结果：深学习优于浅层模型。KNN、支持向量机、RF和决策树都是浅层模型。(kNN k近邻、支持向量机和RF随机森林)。

**多通道分类结果。**从单通道深度模型生成的中间特征被串联并传递到额外的分类层用于集成。所有3种模式的组合：(成像+EHR+SNP)：深层模型优于浅层模型。当特定的医疗设备不可用时，我们在使用DL时将其掩码为零。来自三种模式的中间特征被传递到分类层。我们测试了KNN、决策树、随机森林和支持向量机作为分类层的替代方案。使用深层模型和随机森林作为分类层的内部交叉验证(CV)精度(图5A)是最好的。三种模式组合的深度模型的表现优于单一模式的DL。此外，在组合过程中，对于CV和外部测试集，深层模型的性能都优于诸如特征级和决策级的浅层模型(表1)。SNP和EHR模式的组合：深层模式优于浅层模式。使用深度模型和随机森林作为分类层时，内部变异系数精度为0.78±0(图5B。)是最棒的。EHR+SNP组合的深层模式的表现优于单一模式的DL。在组合过程中，对于CV和外部测试集，深层模型的性能都优于浅层模型，如特征级别的组合模型(表1)。成像和EHR模式的结合：深层模式优于浅层模式。使用深度模型的内部CV精度为0.79±0，其次是随机森林和支持向量机作为分类层(图5C)。用于EHR+成像组合的深层模型的性能优于单通道DL。此外，在组合过程中，对于CV和外部测试集，DL模型都优于浅层模型，如特征决策层组合模型(表1)。随机森林作为分类层，在外部集合上的性能最好。成像和SNP模式的组合：浅层模型优于深层模型。我们使用SNP和成像中间特征(CN与AD/MCI)的组合来执行两类分类。内部CV精度为0.75±0.11，使用特征级组合模型(图5D)是最好的。然而，关于外部数据的结果并不理想。较差的外部验证可以归因于只有220名患者同时拥有这两种数据模式。

关于新型动态链接库和多通道数据分析的探讨

我们的结果表明，对于单通道，深层模型优于传统的浅层模型。浅层模型通常需要专家手工制作的特征。相反，深度模型可以在训练过程中找到最优的特征集。此外，深度模型(如自动编码器和CNN)可用于执行无监督的特征生成，然后与更复杂的决策层相结合。这种体系结构能够对多类分类问题的复杂决策边界进行建模40。由于这一特性，深层模型对MCI的识别特别有效，由于三组之间的微小差异，MCI一直是阿尔茨海默病研究中的临床挑战。由于浅层模型(随机森林除外)不能很好地容忍噪声和丢失的数据或丢失的模态，因此对于有噪声的数据，DL对于单模态具有最好的性能。多个模式的集成提高了预测精度(四种情况中的三种)。与传统的功能级和决策级集成相比，深度集成模型还显示出更高的性能。DL的卓越性能归功于它能够从不同的模式中提取特征之间的关系。当数据集非常小时(例如，成像和SNP的组合)，深层模型不能很好地执行。性能下降可能是由于缺乏网络的训练数据造成的。总括而言，我们的调查显示：

1、对于单通道数据(临床、影像)，DL模型的预测效果总是好于浅层模型；

2、当使用DL模型时，多通道数据的预测效果优于单通道数据。三种最好的融合方案是：EHR+SNP、EHR+成像+SNP和EHR+成像。

我们提出的基于DL的数据集成模型的一个瓶颈是ADNI数据集的小样本大小。为了缓解小样本量的挑战，我们可以利用转移学习和领域a适应41等策略。对于每种数据模式，我们可以采用在其他类似数据集上预先训练的神经网络(例如，针对其他条件训练的基于CNN的MRI/CT脑成像分类模型)。通过将这些预先训练的网络及其参数组成我们的模型，我们可以使用我们标记的ADNI数据来执行域自适应或微调网络参数。另一方面，我们也可以使用公开可用的数据(例如，SNP的癌症基因组图谱(TCGA)数据集)为每个数据通道执行非监督特征表示学习。我们的特征提取步骤针对当前DL模型中的每个通道独立执行，这不是与整合和分类步骤端到端训练的。未来的一个方向是启用端到端培训，并将自动编码器与除功能串联42、43之外的其他集成策略相结合。

一种新的特征提取辅助DL模型解释的研究设计

模型解释是数字逻辑的一个主要挑战，通常被认为是现实世界生物医学应用的障碍。研究表明，深层模型的权重通过几层组合来影响结果，因此不会产生有临床意义的解释44。在这项研究中，我们开发了一种新的解释方法，其中我们一次屏蔽一个特征并测量插入精度(图6)。精度下降最大的特征在特征提取中的排名较高。

图5.整合数据模式以预测阿尔茨海默病分期的内部交叉验证结果(A)成像+EHR+SNP。深度学习预测优于浅层学习预测(B)EHR+SNP深度学习预测优于浅层学习预测(C)成像+EHR深学习预测优于浅层学习预测(D)成像+SNP结果。由于样本量较小，浅层学习比深度学习提供了更好的预测。(KNN k近邻、支持向量机、RF随机森林、SM浅模型和DL深度学习)。

表1.从深度模型中提取特征，并将内部验证结果与外部测试结果进行比较。自动编码器模型适用于EHR和SNP数据，CNN适用于成像数据。对于多通道模型，三个通道模型和两个通道模型(EHR+SNP、EHR+成像)的预测性能最好。对于多通道模型，3个或4个组合的深层模型优于浅层模型。

新特征提取辅助DL模式解释的结果与讨论

排名靠前的EHR功能(表1)包括记忆测试、成像总结分数和脑容量。记忆和大脑体积的变化已被报告为AD的生物标志物。在正电子发射计算机断层扫描和核磁共振研究中，成像标记物，如边缘和皮质区域的受累，以及海马体体积和结构的改变，46，47都是已知的生物标记物。SNP特征选择了第10、4、19、1和5号染色体。SNP+成像+EHR和SNP+EHR选择了更多的EHR特征(记忆测试、代谢标志物和脑体积)，这些特征是已知的AD相关特征。EHR+图像选择包括脑容量、临床痴呆症分级和代谢物标志物在内的EHR特征。成像+SNP挑选大脑区域，如海马体和杏仁核高于SNP的特征。此外，我们还使用KMeans(补充信息)对EHR和SNP数据中的中间特征进行聚类，以显示中间特征之间的关联。在绘制中间特征和原始特征的聚类图时，我们发现中间特征与原始特征相比产生了更好的分离。这表明了中间特征中的微妙关系，这些特征由深度模型挑选(补充图3)。A5、A6)。

图6.用于深层模型解释的特征提取新颖的特征解释方法，其中一次掩蔽一个特征，并观察对分类的影响。精度下降幅度最大的特征被排在最高的位置。一旦我们对特征进行排序，我们使用聚类分析来检查中间特征是否选择了与原始数据不同的关联性。深层模型显示了与浅层模型不同的关联性，这是性能优越的原因。

总结

诊断阿尔茨海默病患者具有挑战性，分期评估的预测准确性仍然很低。在这项研究中，我们报告了深度模型在多模式数据融合中的潜力，包括：

·深度模型在单模式阿尔茨海默病分期预测中的表现优于浅模型。

·新的多通道数据融合DL框架的性能优于单通道DL。·新的扰动和基于聚类的特征提取辅助DL模型解释能够预测AD阶段。

·将三维卷积神经网络结构应用于MRI图像数据，有利于AD分析。尽管性能有所提高，但我们的研究存在诸如数据集大小有限等不足。未来，我们将在更大、更丰富的数据集上测试我们的模型。

方法

在这项研究中，我们使用DL模型来执行多模式数据融合(图3)(即成像、EHR和基因组SNP数据)，以将患者分为CN、MCI和AD组。我们为EHR和SNP使用堆叠式去噪自动编码器，并使用3D卷积神经网络(CNN)来处理MRI成像数据。针对每种数据形态分别对网络进行训练后，应用决策树、随机森林、支持向量机和k近邻对AD分期进行综合分类。

数据预处理

图7.用于三种数据模式的数据前处理流水线：(A)成像数据首先是颅骨剥离，分割成白质、灰质和脑脊液。然后，在使用解剖自动标记图集提取21个大脑区域之前，将图像配准到标准空间。(B)临床数据在1-2之间归一化或编码为1-2。然后，我们丢弃缺失值&gt；70%的特征，以获得204名患者的1680个特征。(C)首先对SNP数据进行过滤、纠错、使用已知基因进行特征选择，然后是基于最大相关性(MaxRel)的方法，以获得808名患者的500个SNP。

如上所述，ADNI数据集由临床数据、SNP数据和成像数据组成。磁共振成像数据。我们首先对3D图像进行预处理以滤除噪声，执行颅骨剥离，分割不同类型的脑组织，对图像进行归一化并将其共同配准到MNI空间(图7A)48。然后，我们提取了21个大脑区域(与阿尔茨海默病相关)的3D区域，包括右杏仁核、左右角、左右小脑、左右海马体、左右枕区、以及左右颞叶上区(补充信息)。临床特点。我们从ADNI1、ADNI2和ADNI GO中提取了1680个常见的临床特征(量化实数、二进制和分类)。我们将定量数据归一化到1-2的范围，使用一个热编码将分类数据转换为二进制，最后将二进制数据转换为值1或2(图7B)。基因数据。每个受试者在原始VCF文件中大约有300万个SNP。我们应用多重过滤和特征选择步骤(图7C)来消除具有(I)低基因质量、(Ii)低次要等位基因频率、(Iii)高每一位点缺失率和(Iv)显著Hardy-Weinberg平衡p值的SNPs。过滤后，我们采用两阶段特征选择：(I)保留位于已知AD相关基因上的SNP；(Ii)使用最小冗余最大相关性(MRMR)选择500个SNP特征这是因为它能很好地处理分类数据(如SNP数据)，而且以前已经报道过遗传数据50。由于计算成本的原因，选择了mRMR而不是其他基于包装器的技术，例如顺序特征选择。在未来，我们将研究其他基于过滤器的特征选择方法，如相关技术、方差分析和RelieFF(补充信息)。

使用单通道的中间特征生成。我们首先分别对每个通道进行特征提取(图7)，然后使用DL生成中间特征。使用自动编码器生成EHR和SNP数据的中间特征，并使用3D卷积神经网络生成图像的中间特征。从每个单模态产生的中间特征随后被用于多模态分析。作为一种数据驱动的方法，DL的性能在很大程度上依赖于大量标注良好的训练数据。然而，ADNI数据集总共只包含几千个样本，所有三种模式的样本甚至更少。因此，我们只使用DL来进行特征表示学习，而不是端到端的训练。成像数据的中间特征。首先，我们选择感兴趣的区域，并将它们放入单独的三维卷积神经网络(附图2)。补充材料中的A2)，其权重在CNN模块中分担。CNN模块可以从图像的抽象中提取更高级别的特征，以形成概念，这些概念通常与目标更相关。上述体系结构中的每个3D CNN由10个大小为5×5×5的3D卷积核组成，随后是具有大小为3×3×3的池化核的池化层。在汇聚层之后，我们将汇聚的3D图像送入校正线性单元(RELU)非线性，以从输入通道中学习复杂的特征。我们使用体积批归一化51，它是卷积神经网络的一种有效的正则化。接下来，每个3D CNN生成的特征地图被展平，并被馈送到具有RELU激活函数的单独的完全连通的层中，随后是丢弃正则化。我们集成每个通道生成的特征，并将它们馈送到第二级完全连接层和相应的丢弃层。最后，我们使用具有负对数似然损失函数的Softmax层来训练成像网络。我们使用从第一级完全连接的层生成的组合特征作为中间特征，这些中间特征被馈送到我们的多通道DL模型中。使用自动编码器的EHR和SNP数据的中间功能。我们将每个患者数据(特征学习算法的EHR和SNP输入)表示为长度为m的向量(其中m是特征的数量)。然后，我们将这些数据通过一个两层堆叠的去噪自动编码器网络52(附图2)。补充材料中的A3)，以获得患者数据的高级表示。每个自动编码层采用维度为n×d的输入x，其中n是训练样本的数量，d是输入维度(第一层的d=m)。每一层的输入首先通过编码器将输入转换成数据的更高阶表示(1)。

在训练完自动编码层之后，我们通过添加预测最终类的Softmax层来对每个层执行网络微调。中间特征是去除Softmax层之后微调网络的输出。模型中的超参数，如层大小、丢弃参数和正则化系数(以防止过拟合)，使用十倍交叉验证进行优化。多式联运数据集成。我们建议将跨模式的数据集成作为一种方法，以弥合我们对疾病过程的理解中的差距，并改善临床结果预测和模型性能。来自不同模式的数据集成可以在多个级别(原始特征级别、中间特征级别和决策级别)54(图1)上执行。在本研究中，我们使用串联层和分类层整合前一步产生的中间特征，以预测AD阶段(图3)。我们尝试了k近邻(KNN)、决策树、随机森林和支持向量机(SVM)作为分类层的替代方案。如果特定患者的任何模式丢失，我们将用零来掩蔽该模式。该过程将缺失值向下传播的影响降至最低，从而允许对某些缺失数据进行预测。我们使用特征级组合和决策级组合作为基准模型来评估我们的模型。