深度学习在癌症基因组学和组织病理学中的应用与前景｜文献精析·24-10-16

小罗碎碎念

这篇文章是关于深度学习（Deep Learning, DL）在癌症基因组学和组织病理学中的应用的综述。

这篇综述写的非常好，虽然只发表在Genome Medicine（IF=10.4，一区），但是概念阐述的非常清晰！！

关于病理+基因等一系列的多模态医学研究已经开展了非常多，但是目前尚未取得实质性的突破 。有多方面的原因，总体可以分为两类------模型+数据。

虽然早从2018年就有相关的研究发表，但是受限于当时的硬件水平，处理大规模的数据可能有些困难；比硬件水平更关键的是"软件水平"，这不仅包括我们写代码的水平，还包括我们前期能收集到的数据质量和数量。

还有一个很重要的点，医疗数据是很敏感的（尤其是涉及到基因组数据以后），所以监管都异常严格，但是只要我们找到合适的缓冲区间，是足以支持我们完成一些探索性工作的，然后才能有去进一步谈判的资本。

最后再感叹一句，传统生信分析和医学AI的界限越发模糊，复合型人才会更加受到科研和商业市场的青睐，一起努力吧各位！！

姓名	单位名称（中文）	单位名称（英文）
Michaela Unger	德累斯顿工业大学医学系，Else Kröner Fresenius数字健康中心	Technical University of Dresden, Else Kröner Fresenius Center for Digital Health
Jakob Nikolas Kather	1. 德累斯顿大学医院医学中心I科，2. 德国国家肿瘤疾病中心（NCT）	1. Department of Medicine I, University Hospital Dresden, 2. National Center for Tumor Diseases (NCT)

文章首先介绍了精准肿瘤学（Precision Oncology）的背景，强调了组织病理学和基因组分析在癌症诊断和治疗中的重要性。

随着人工智能（Artificial Intelligence, AI）和机器学习（Machine Learning, ML）技术的发展，特别是深度学习在图像和文本数据分析中的应用，为从原始数据中提取可操作的洞察提供了新的方法，这可能会增强甚至取代传统评估工作流程的某些方面。

文章总结了深度学习在组织病理学和基因组学中的当前和新兴应用，包括基本的诊断任务和高级的预后任务。基于越来越多的证据，作者认为深度学习可能是肿瘤学和癌症研究中新型工作流程的基础。然而，文章也指出了深度学习模型可能存在的偏见和其他缺陷，这是医疗保健和研究人员需要了解的，并提出了解决这些问题的方法。

文章还讨论了深度学习在临床基因组学中的应用，包括基因突变预测、药物反应预测和预后预测 等高级基因组任务。此外，文章还探讨了多模态AI的兴起，即模型输入来自不同的数据源，输出单一预测，这在临床决策中非常常见。

最后，文章展望了深度学习在精准肿瘤学中应用的未来，指出了技术进步使深度学习模型变得更加强大和通用，但在将深度学习应用于精准医疗时需要克服的关键限制，包括数据集大小、数据多样性、模型更新和重新配置的需求，以及监管批准的复杂性等。

将AI整合到病人护理中是一个多方面的努力，需要研究人员、医疗机构和行政机构的广泛合作。

一、背景

精准肿瘤学基于诊断组织病理学和基因组学方法，使得合适的治疗方案能够应用于患者[1]。

组织病理学探究肿瘤的形态或表型，对于癌症的诊断和分型至关重要。组织病理学中最通用且广泛使用的方法之一是对组织切片进行苏木精和伊红（H&E）染色[2]。为了补充表型信息，基因组生物标志物常用于晚期或转移性癌症患者，因为它们具有预测患者生存或癌症药物有效性的能力[3]。

因此，在许多情况下，基因组学允许更个性化的治疗形式[3]。鉴于这些进展，精准肿瘤学在过去几十年中改善临床结果也就不足为奇了[4, 5]。然而，精准肿瘤学本质上是数据密集型的 ：支持治疗决策需要广泛的数据，包括患者的一般信息（如年龄、生物学性别、病史、患者偏好）、放射学成像、组织病理学以及分子和遗传分析。同时，患者数据之外的信息量也极为庞大。

例如，在2021年，美国食品药品监督管理局（FDA）共批准了243种癌症药物用于患者治疗[6]。患者特定数据的数量和治疗选择方案结合，构成了一个庞大的决策树，对于患者和医生来说，这个决策树正变得越来越复杂。因此，有必要开发工具，以高效地利用和分析所有可用信息，支持癌症护理。

一种可能满足这一日益增长需求的解决方案是应用计算机辅助方法。

自20世纪晚期以来，计算机硬件和算法的改进极大地增强了作者处理大规模数据的能力。如今，人工智能（AI）方法已成为作者日常生活中的普遍工具。

AI能够在人类专家的水平上解决复杂任务，如语言翻译和目标检测[7, 8]。在生物医学研究中也是如此，AI能够解决诸如从氨基酸序列预测蛋白质折叠[9]或分析和解释放射学成像数据[10]等复杂问题。

与人类技能相比，AI方法具有可扩展性，能够在相对较短的时间内处理大量数据。

AI最基本的组成部分是机器学习（ML）。

ML主要有三种方法：强化学习、无监督学习和监督学习。

在强化学习中，模型因做出正确决策而获得奖励。在无监督学习中，模型需要从数据中学习，但不提供关于数据的额外信息。例如，聚类方法可以在不提供每个实例的显式标签的情况下，识别给定数据集中的相似实例。相比之下，监督学习可以使用人类标记的数据，并将模型任务化为自动标记过程。这部分数据提供给模型以预测标签，当模型输出错误时，模型会受到惩罚。

用于监督学习的模型架构包括支持向量机（SVMs）、决策树和人工神经网络。这些模型的大小可以有很大差异，神经网络中的参数数量可以从数百到数十亿[11]。当ML应用于图像或文本数据时，深度人工神经网络（也称为深度学习，DL）[12]是首选模型，因为它们在处理复杂数据结构方面具有鲁棒性和有效性。

在精准肿瘤学中，具有DL的AI可以处理大量的组织病理学和基因组学数据（图1）[1, 13, 14]。

值得注意的是，一些研究甚至采用了多模态模型，这些模型同时应用ML和DL处理多种数据类型，例如将组织病理学图像与遗传数据相结合[15--17]。这种多模态数据融合的方法可能通过纳入额外的患者信息并利用互补数据类型之间的协同效应来提高模型性能。

在这篇论文中，作者将研究划分为六个临床应用领域，这些领域由先前的研究建立[18]。

三个"基本"应用如下

预测诊断（癌症检测）
肿瘤分型
分级

三个"高级"应用如下[18--20]

预测预后（患者生存概率）
遗传改变模式（如驱动突变的检测）
对特定治疗方案或单一药物的治疗反应

此外，作者还讨论了DL方法在临床常规中的潜在局限性，并提供了这些领域的未来轨迹的见解。

二、深度学习在组织病理学中的应用

组织病理学是精准肿瘤学的核心部分，几乎所有实体瘤都必须通过组织病理学或细胞学进行诊断。

实际上，所有基于治疗和随访的临床决策都依赖于组织病理学信息。在数字病理学中，组织切片以高分辨率被数字化捕获为全切片图像（WSI），产生数十亿像素的"千兆像素图像"。人工智能（AI）可以处理这种数字信息，并已成为自动化诊断过程和识别WSIs中新生物标志物的默认工具（图1）。

在组织病理学中，大多数AI研究采用监督式深度学习（DL）。特别相关的是"弱监督"方法，其中系统的目标是预测整个WSI的"标签"[13, 21, 22]。"标签"可以指基本和高级类别中的任何属性，包括切片属性（肿瘤存在）、肿瘤属性（亚型或遗传改变）以及患者属性（生存或反应）[13]。在训练过程中，弱监督肿瘤检测系统仅能访问切片级别的标签。例如，标签可能表示："这个切片是否包含肿瘤，是或否？"。

另一种方法是"强监督"学习。在这里，目标是基于精确的手动注释来描绘肿瘤组织或检测细胞类型。弱监督方法无需手动注释，因此更适合大规模图像档案。此外，弱监督方法允许作者预测肿瘤的更抽象属性，如突变的存在或患者的生存[13, 22--25]。

基本应用

组织病理学中最早关于弱监督DL的研究之一是Ertosun和Rubin在2015年进行的（图2a）[26]，其中作者使用卷积神经网络（CNN）自动化原发性脑肿瘤的组织学分级。

CNN是一种在图像分析中常用的神经网络，包含所谓的卷积层。形象地说，卷积层在原始图像中找到基本结构，如角和边缘，然后由神经网络连接到更高的层次，并由此确定图像间共享的全局模式。

Ertosun和Rubin是最早从手工制作特征和简单ML分类器转向DL的研究者之一。这使得他们能够解决计算病理学中的一个临床相关分类任务。

在肿瘤分级或任何其他步骤之前，必须进行诊断。

因此，诊断是组织病理学中DL最明显和最常见的应用之一。在这个任务中，模型需要以强监督或弱监督的方式在WSIs上区分肿瘤组织和健康组织。

最早使用DL进行肿瘤检测的研究之一是由Cruz-Roa等人在2017年进行的（图2a）[27]。作者通过使用在近400个WSIs上训练的CNN诊断乳腺癌。他们的模型在肿瘤检测方面达到了高性能。此时，已经建立了基本预处理步骤，例如通过镶嵌大型WSIs使其可用（图1）。

2019年，由于Campanella等人的大规模开创性工作（图2a），使用弱监督DL的癌症检测领域发生了显著变化，他们的多实例学习模型在接收者操作特征（AUROC）曲线下的面积高达0.986，超过了强监督模型[28]。DL模型可能因此在未来通过预标记样本来辅助病理学家，从而可能减少确认性分子检测的负担。

一年后，Ström等[29]和Bulten等[30]（图2a）展示了DL能够解决实体肿瘤中的亚型任务，这是DL的另一个重要应用。他们的方法不仅包括肿瘤分割，还包括使用弱监督学习预测前列腺癌的Gleason分级。

作为对这些诊断任务的补充，数字病理学中最具影响力的近期研究是由Coudray等在2018年发表的（图2a）[23]。

Coudray等人建立了用于预测非小细胞肺癌组织学亚型的切片级别弱监督方法，并重要的是，展示了从组织病理学切片可以预测目标基因的遗传改变[23]。

尽管事后看来这些研究似乎是显而易见的，但它们是首批大规模证据，表明弱监督DL可以在癌症亚型的形态学之间进行区分，并仅从形态学上将癌症基因型联系起来。

在随后的几年中，许多研究将这种方法扩展到其他实体肿瘤亚型。

一个值得注意的例子是结直肠癌的一致性分子亚型（CMS），Siriwattana等在2021年展示了它们可以从常规病理切片中被预测（图2a）[31]。

同样，在乳腺癌中，Jaber等[32]（图2a）提出了一个模型，该模型能够以高准确度从组织病理学切片中分类乳腺癌的五个分子亚型（腔A型、腔B型、HER2富集型、基底样型和正常样型）。

所有这些研究表明，DL可能通过自动化基本诊断过程（如亚型和分级）来简化诊断工作流程。此外，从更广泛的意义上讲，这些研究表明，只要模型能够检测到表型变化，DL基于预测的真相就可以从任何来源获得。

高级应用

与使用的深度学习（DL）方法同样重要的是模型训练所使用的数据。

近年来最大规模的研究之一由Fu等[33]进行（图2a），该研究整合了来自TCGA的超过17,000个全切片图像（WSIs）。值得注意的是，DL模型的性能取决于输入数据的大小和质量。

因此，如此巨大的数据集使得在区分癌症类型时达到了0.98的AUROC值，这并不令人意外。他们不仅分类了癌症组织，还预测了基因组重复、驱动突变如TP53或BRAF，以及肿瘤浸润淋巴细胞（TIL）评分，为AI在创建病理生物标志物方面的广泛应用奠定了基础。

癌症中的遗传改变，如Fu等所预测的，可以是药物靶点、生物标志物，或两者兼具。

例如，许多肿瘤类型中特定BRAF突变的存在是使用BRAF抑制剂治疗的直接靶点。一个具体的生物标志物是微卫星不稳定性（MSI），它作为免疫检查点抑制剂的生物标志物[34]。这些靶点和生物标志物中的一些可以通过DL从病理切片中预测。

2019年，Kather等[35]（图2a）能够预测结直肠、胃癌和子宫内膜癌中的MSI。作为后续研究，Echle等[36]（图2a）训练了模型来预测结直肠癌中的MSI，以及驱动突变BRAF和KRAS，在更大的患者队列中。

如今，一些这些方法已被商业实体采用，并在欧洲作为常规临床使用的算法进行市场推广[37]。

除了预测单个基因突变或分子亚型外，几项研究还表明，可以直接从WSIs提取单个基因的表达水平，或面板表达谱[38--40]。

因此，AI原则上可以用来对广泛的分子改变进行预筛选，并建议进一步分析哪些靶点。

获取患者状况信息的另一种方法是研究肿瘤微环境。

患者免疫系统与癌症之间的相互作用对于总体生存[41, 42]或治疗反应[43]可能是相关的。例如，可以通过TIL的数量来预测患者预后。

此外，空间生物学的重要性早在2006年就已知晓，但尚未转化为临床常规[45]。因此，出现了检测TIL和无需标本注释即可分类细胞类型的DL模型[46, 47]。

因此，DL可能为尚未使用的知识的临床应用提供更简单的路径。

从常规组织学切片中预测基因组或形态学生物标志物对于患者具有临床相关性。

然而，生物标志物仅仅是临床结果------生存或治疗反应的代理。理论上，直接从组织病理学图像预测特定药物的治疗反应可能甚至超越基因组生物标志物的预测能力。

因此，药物反应预测是数字病理学中最新的高级应用之一。2020年，Liu等[48]（图2a）发表了一项研究，预测鼻咽癌对化疗的反应。

同样，Li等[49]（图2a）训练了一个DL模型来预测新辅助化疗后的病理完全反应。此外，Johannet等[50]在2021年对免疫治疗作为另一种癌症治疗方法进行了研究。DL捕捉组织形态学和治疗反应之间潜在联系的事实表明，此类模型的预测能力远超人类专业知识。

然而，这些研究需要许多可比案例和治疗数据，以及连续的目标评分，因此药物反应是建立高质量真实数据集的最困难应用之一。因此，DL在治疗反应方面的当前状态表明，直接预测需要未来更广泛的研究。

DL在组织病理学中直接预测的第二个临床终点是癌症患者的预后，即预测患者生存。

阐明患者的预后从根本上是有兴趣的，因为治疗决策和患者护理直接取决于它。

在DL研究中，早期出版物使用了例如肿瘤的形状和边界[51]或组织比例[52]作为可以与患者结果相关联的特征。如今，DL模型能够直接构建预测风险评分。收集有关绝对生存时间的信息，并将其与每位患者的删失数据相结合。

之后，模型可以学习将哪种模式与患者较长或较短的寿命联系起来[53, 54]。这种应用类型的成功也可能在于其揭示生存和表型之间未知关系的潜力。

与临床靶点在多年研究中变得更加精细一样，模型架构也发生了变化。

对于大多数早期研究，卷积神经网络（CNN）是首选模型。后来，特征提取，即预训练的DL模型将输入图像的维度降低到更小的矩阵或向量的过程，成为了最先进的方法[25, 55--59]（图1）。

2017年之后，引入了基于注意力机制和能够以计算效率高的方式并行处理输入数据多个部分的变换神经网络[60, 61]。2022年，Chen等[62]（图2a）通过使用视觉变换器预测生存，能够在许多癌症类型中超越基于卷积的模型。

总之，在过去的几年中，病理学中的AI经历了许多变化和趋势。从简单的诊断工具开始，该领域很快能够超越训练有素的病理学家在肿瘤检测方面。随后，研究证明了WSIs中的模式也可以用于预后任务，从而基于突变状态、药物反应或总体生存进行治疗决策。

然而，DL模型景观的快速变化使得公司将这些技术发展成静态产品变得具有挑战性。为了对此有所了解，到2023年，只有四个基于AI的工具获得了FDA批准并在病理学中应用[63]。

因此，显然有必要增加这一数字，并将更多的DL工具应用到精准肿瘤学的诊断常规中。

三、深度学习在临床基因组学中的应用

肿瘤的独特分子特征编码在其基因组中[64]。因此，临床基因组学研究是实施精准肿瘤学的关键，它专注于疾病基因型的基因组研究。

由此，基因组不稳定性或肿瘤的突变状态等基因型属性，补充了组织病理学中关注的表型和空间变化。临床基因组学不仅使用来自全基因组或外显子测序的经典基因组数据，还包括RNA测序、甲基化分析、拷贝数变异分析等作为信息来源（图. 1）。

通过这些手段，它支持识别患者的确切癌症类型、潜在的原发灶、对某些药物的响应性或患者的预后。此前，基因组数据的分析仅由经典生物信息学进行，后者使用算法执行序列比对、变异调用或差异表达分析等任务。

然而，这些算法高度人工设计，专注于由人类专家预定义的模式寻找。AI在临床基因组学中的潜在效用是扩展这个工具包，提供比以前可达到的更深层次的数据分析可能性。通过使用机器学习（ML）[9, 65]，发现了人类未知或无法检测的模式，例如蛋白质折叠成最终形状的方式或突变过程在作者的DNA中留下的签名。揭示AI的新范式可能有助于临床基因组学中的创新，这是标准生物信息学方法无法实现的。

基本应用

基因组学中的深度学习应用与组织病理学中的发展不同。

通常，在癌症被组织学诊断并随访后，才会提取基因组信息。因此，临床基因组学中的深度学习更多地涉及高级任务，例如寻找某些治疗或药物响应的生物标志物，而不是通过诊断癌症来简化工作流程。

尽管如此，深度学习可以用于诊断不明确的患者病例中。例如，在2020年，Zaoh等[66]（图. 2a）使用深度学习模型从RNA测序数据中预测原发肿瘤组织，用于原发灶不明的癌症患者。同样，同年，Jiao等[67]（图. 2a）发现深度学习可以用于乘客突变模式，以区分原发性和转移性肿瘤。

尽管这些研究并非专注于癌症检测，但它们可以为下游决策过程提供有价值的见解。

临床基因组学中更为突出的一个基本深度学习应用是亚型分类。

Sienkiewicz等[68]（图. 2a）利用经典的无监督机器学习方法，即非负矩阵分解，对癌症患者的组学数据进行聚类，以发现分子亚型。

为了细化这些类别，还可以使用更复杂的模型，如随机森林或深度学习[69--71]。Yuan等[70]（图. 2a）在2016年开发的DeepGene模型使用体细胞突变作为信息来源，而两年后，他们发表了另一项研究，这次使用拷贝数改变和染色质结构数据执行相同的任务[72]。

尽管有了这些进步，但在大多数情况下，检测主要癌症亚型的最新技术仍然是形态学评估，最近引入的脑肿瘤分类是一些例外。测序的高成本和标准化问题限制了分子亚型在临床中的应用[73]。

此外，尽管一些分子亚型，如结直肠癌中的CMS，可以部分与相关的临床结果相关，但需要更广泛的数据探索和验证，以提供临床证据，从而促进社区更广泛的接受。

高级应用

从基因组数据中预测突变似乎存在矛盾，因为检测驱动突变是深度学习预测的groundtruth。

传统的变异调用算法通过比较癌症基因组与参考基因组来识别核苷酸变化，随后使用额外的工具确定相应突变是否影响致癌基因[74--77]。在这些任务中，使用深度学习并非必需。因此，深度学习在突变预测上的方法与组织病理学和基因组学不同。

2018年，Kim等[78]（图. 2a）使用所谓的跳gram网络来可视化突变并发现新的致癌驱动基因。CRLF2、TFE3或DUSP22等基因的突变是他们的方法阳性发现，但在文献中此前并未描述为驱动突变。然而，为了使这些知识具有临床可操作性，需要湿实验验证研究来阐明它们的作用机制。

除了传统的驱动突变，癌症基因组的整个突变谱，包括一般体细胞突变，也可以提供重要的见解[79, 80]。此外，变异调用必须作为检测驱动突变的基础。

如今，有不同的生物信息学工具处理全基因组或外显子测序数据，首先将读段与参考基因组对齐，然后在捐赠样本与参考样本比较中寻找变化[81, 82]。由于这个问题的复杂性，研究也开发了基于深度学习的方法来改进变异调用。

例如，2022年Sahraeian等[83]（图. 2a）使用卷积神经网络（CNNs）处理匹配的肿瘤和正常读段以编目体细胞突变。三年后，Krishnamachari等[84]（图. 2a）使用了类似的方法。这两种方法的准确性都优于传统的生物信息学工具。

然而，深度学习所需的大量训练数据和高度的计算能力可能阻碍其广泛采用。尽管存在这些挑战，上述例子都表明深度学习具有在多样化尺度上检测基因组变异的潜力，并取得了有希望的结果。

临床基因组学中的药物反应预测通常依赖于通过癌细胞系培养产生的数据，而不是实体肿瘤。

在药物基因组学中，全基因组关联研究能够同时筛选大量的癌症-药物对，因此成为许多深度学习应用的基础。2018年，Chang等[85]（图. 2a）从癌细胞系的基因组信息和药物结构信息预测药物疗效，而Chiu等[86]（图. 2a）则依赖于突变和表达数据，没有融入关于药物化学性质的信息。

这与计算病理学形成对比，因为基于细胞系的方法是对人类肿瘤的巨大简化。癌细胞系通常为了实现永生而进行基因改造，引入了基因型和表型的偏差，这使得它们在生物学上与原发癌细胞相比较少可比性。

此外，在细胞系中进行的药物筛选不包含原肿瘤微环境的其他代表元素。因此，评估药物-癌症相互作用的深度学习方法受到质疑，并呼吁更实用的数据来源。

与当前的基因组药物反应模型相比，深度学习在预后预测方面可能提供更直接的临床工作流程整合。

关于临床基因组学中深度学习的首批出版物之一是预测卵巢癌的癌症结局，基于DNA甲基化、miRNA和批量RNA表达以及拷贝数改变（CNAs）。

Kim等[87]（图. 2a）开发的软件包ATHENA将这一数据纳入了语法进化神经网络。在这里，通过多次迭代构建具有不同参数的神经网络集合，并在后续迭代中组合表现最佳的神经网络，直到找到最佳解决方案。

该领域另一项有影响的研究是Chaudhary等[88]在2017年进行的，他们使用来自不同平台的"-omics"数据预测肝细胞癌的生存类别。他们的模型将患者分层到不同的风险组，并展示了与额外使用临床数据（如性别、癌症分级和其他风险因素）的模型相当的性能。

此外，还展示了生存与TP53突变、BIRC5高表达以及其他类型基因组改变之间的关系。Elmarakeby等[89]在2021年发现，以前无关的基因如MDM4、FGFR1或MALM3的改变与前列腺癌结局相关。为此，他们使用了一个具有特定约束的神经网络：节点代表生物实体，边缘代表它们的关系。

通过这样做，他们限制了网络连接的程度，以融入先前的生物学知识并限制计算复杂性。基因组学在预后预测中的优势在于能够在多个层次上获取数据，这些层次可以从基因组属性到其特定序列。

因此，细胞机制中的微妙变化可以被识别为潜在的生物标志物。然而，与组织病理学相比，许多基因组生物标志物首先需要通过临床验证才能转化为医疗工作流程。

临床基因组学中的人工智能与组织病理学的一个区别是所用模型类型的多样性。

在组织病理学的深度学习中，基本模型架构是从计算机视觉中适应性改造的，而在基因组学中，深度学习在计算机科学中没有找到直接类似物，导致了对各种模型类型的更广泛实验。

例如，Chaudhary等[88]利用自编码器这种形式的深度学习来整合不同的组学数据，并将肝癌症患者分层到风险组。Yousef等[90]部署了多层感知器与Cox生存模型结合用于预后预测。

此外，随机森林、梯度提升、基于卷积或图的网络以及更简单的回归方法也在该领域中得到应用[91--94]。如今，与组织病理学类似，Transformer在基因组学领域变得越来越普遍[95]。

考虑到基因组数据的异质性，没有单一的方法可以普遍适用，这强调了未来持续探索的必要性。

癌症基因组学仍然是深度学习应用的有前景领域。

许多指定研究有效地补充了生物信息学工具，并探索了超越它们的应用。然而，据作者所知，基因组学的深度学习工具尚未获得临床使用的监管批准。

然而，自从第一个人类基因组计划以来，测序成本已经大幅下降，这表明基因组检测可能在未来会普及到更广泛的癌症患者[96, 97]。因此，作者预计深度学习在精准肿瘤学中也将从更广泛可用的基因组数据中受益。

除了作者在本综述中提到的应用类别之外，深度学习在临床基因组学肿瘤学中可能扮演许多角色。例如，深度学习可以发挥从质量控制和比对等基本步骤到理解肿瘤进化和作者基因组随时间发生的变化等高级层面的作用。

最后，在日常临床实践中，深度学习也可能在筛查目的中发挥工具性作用，例如在液体活检中用于早期癌症检测和疾病监测。

四、多模态性

在做出决策前收集广泛信息并非人工智能独有的特征。

这在临床工作流程中也很常见，其中医生依赖一系列数据，如患者基本信息、病历和测试结果，来告知他们的决策。因此，近年来出现了多模态人工智能领域，其中模型的输入来自多种数据源，输出单一预测。

一些研究已经探讨了来自组织病理学和基因组学数据的数据融合，利用这些数据模态之间的潜在协同效应，最终旨在临床应用。组织病理学图像广泛可用且成本低廉，但仅显示组织表型，不一定显示潜在的分子变化。

因此，已有研究表明，即使是添加患者的临床参数，也可以提高深度学习模型的泛化能力，从而改善预测[21]。

另一方面，基因组学方法可以窥视细胞内的内在机制，但仍然存在缺点，即需要一定量的材料来获取此类信息，这并不总是可行的。

此外，还需要考虑技术方面，如深度学习中，模型的性能严重依赖于输入数据的大小。因此，来自不同模态的数据整合可能允许增加模型获得的信息。借此，之前缺失的信息可以被补充或扩展，从而优化模型的预测并进而改善生物标志物[15, 98]。

Mobadersany等人在2018年首次发表了结合组织病理学和基因组学的多模态深度学习模型[99]。他们将全切片图像（WSIs）、IDH突变和1p/19q共缺失状态数据作为机器学习模型的输入，以预测胶质瘤患者的生存。此外，他们的方法超越了几个临床生物标志物用于预后。

一年后，Cheerla和Gevaert利用RNA表达数据结合WSIs，为20种癌症类型改善生存预测[100]。Chen等人最近的研究表明，利用多模态可以优于单一模态，他们发布了两个独立的模型：PathomicFusion（2019年），整合了WSIs、驱动突变、拷贝数变异以及RNA测序数据，以及PORPOISE（2022年），增加了基因组特征到WSIs[17, 101]。

在性能方面，PathomicFusion能够在胶质瘤中达到0.826的c指数，在透明细胞肾细胞癌生存预测中达到0.72。在PORPOISE中，肾透明细胞癌的最佳性能达到了0.827的c指数。然而，在临床转化这些模型之前，可能需要外部验证这些结果[102]。

除了预后，还研究了多模态模型在其他应用类型中的应用，如分级和亚型。

特别是在脑癌中，进行了许多研究。例如，Pei等人基于Mobadersany等之前提到的相同特征预测胶质瘤的分级[103]。

这种对脑癌的关注可能是由于2016年世界卫生组织在胶质瘤的分类标准中增加了分子特征作为决策标准 [104]。因此，过去仅依赖组织病理学的研究，现在也需要基因组证据。

这样，临床指南也可能促进多模态研究。

Boehm等人[105]和Vanguri等人[106]不仅利用了组织学和基因组学数据，还通过放射学图像扩展了这一数据集，从而向全面整合所有临床可用信息迈进了一步。

尽管这些模型的复杂性使得它们的训练和临床部署比单一模态模型更为困难，但在医疗环境中，为每种数据类型分别建立模型可能并不实用。

此外，未来人工智能模型可能不仅整合患者数据，还整合一般医疗信息以进行基于知识的预测。这可以使它们成为结合预测与实用推理的通用工具，人类可以与之互动[107]。

五、展望

过去几年的技术进步使得深度学习（DL）模型不断变得更加强大和具有泛化能力。在数据充足且任务定义明确的情况下，DL模型原则上可以超越人类观察者在患者诊断以及潜在的下游决策过程中的表现[108, 109]。然而，在将DL应用于精准医学时，仍需克服一些关键的限制[110]。

在机器学习（ML）中，模型需要大量的数据才能在其任务上表现良好。

这部分需求出于技术原因，因为许多模式的重复是迫使内部模型参数达到期望状态所必需的。然而，数据需求的另一个原因在于任何生物系统中的变异性。

特别是肿瘤，因为它们的基因型、表型和临床行为在不同患者之间存在差异。任何训练数据集的最小规模应能代表生物变异性。因此，仅包含十几名参与者的研究，通常没有足够多样化的数据来很好地泛化到外部数据集，特别是在临床常规中[111]。

结果，为了让DL模型适用于广泛的临床设置，需要获取和共享越来越大的数据集（图. 2b）。

在癌症研究和肿瘤学中，训练DL解决方案的主要瓶颈是数据收集，而非模型灵活性。

组织病理学作为诊断的基础，比通常成本高昂且非所有患者常规获取的基因组数据更容易获得。因此，基因组队列更难建立，特别是对于多组学方法。这需要广泛临床设置和基础设施，通常仅限于资金充裕的研究中心或大型医疗保健机构。

解决这些挑战的一种方法是通过分布式学习，如联邦学习或群体学习，其中禁止公开数据共享的同行仍可以联合训练模型[112--114]（图. 2b）。此外，技术概念可以补充数据获取。

例如，类平衡方法或使用模拟样本扩充数据集可以帮助研究人数较少的研究[115--117]。另一方面，改进的ML模型可能更加数据高效，甚至能够从更小的数据集中充分学习，这可能通过不同的策略改善数据可用性问题[118, 119]。

除了数据集大小限制之外，开发和部署医疗保健中的DL系统的另一个根本问题是，许多数据集基于参与者的种族、性别或社会经济状况，或研究进行的机构内部存在偏见[120--122]。

因此，这要求未来的研究采取更公平和更多样化的数据获取策略，这反过来又会对DL模型的泛化性产生积极影响（图. 2b）。此外，即使是在同质数据中，也需要在国家乃至国际层面建立数据管理标准，以使数据在机构之间具有可比性（图. 2b）。

而且，由于AI所针对的群体内部可能会发生变化，作者将面临模型更新和重新配置的必要性，这是当今模型设计中大多未考虑的性质（图. 2b）[123]。这将最终允许获得在部署过程中动态学习的DL模型，而不是在单一静态训练步骤后"冻结"。

本综述中介绍的研究目标是实际临床流程中实施DL。

不幸的是，这非常具有挑战性，因为大多数国家都规定了必要但高度复杂的监管批准。获得此类监管批准对于学术团队来说并不可行，只有拥有质量控制开发流程和财务手段将算法作为产品推向市场的商业企业才能实现[124]。

即使在获得批准之后，仍需克服其他额外挑战。例如，即使在经济最繁荣的国家，也很少有医疗保健机构完全数字化。特别是，组织病理学在当今美国和欧盟绝大多数医疗保健机构中仍然是基于手工操作玻璃切片[110]（图. 2b）。

此外，还需要医疗保健提供者和技术助手的新技能集，以确保流程高效运行。未来，为了使医疗基础设施准备好常规部署基于DL的生物标志物，需要大量投资（图. 2b）。

可解释性

最后，为了让临床医生采纳DL，理想情况下模型不应被视为"黑箱"，而应继承其决策的可解释性（图. 2b）[125]。这一挑战难以解决，因为DL模型表现出高度的复杂性，并且通常对输入数据的微小变化敏感，这使得确保可靠和一致的输出变得困难[126]。

目前存在一些已建立的技术，通常用于使模型可解释。对于组织病理学，这主要包括两种类型："显著性图"，它突出输入数据中对决策有影响的部分，以及"极端示例"，即从数据集中提取模型赋予最高和最低预测得分的实例[127]。

在临床基因组学中，特别是对于表格数据，可解释性方法如局部可解释模型-不可知解释（LIME）[128]或SHapley加性解释（SHAP）[129]值可以指示特征对预测的影响程度。然而，这些方法的好处取决于人类对特征本身的解释能力[130]。

除了特定模型的可解释性之外，生成性AI可以通过反转DL工作流程，根据输入查询创建数据，从而改变我们看待DL实际学习的方式（图. 2b）[131]。

生成性DL模型可能允许我们整合反事实方法。

本质上，作为第一步，大型DL模型收集关于生物过程的大量和多样化知识。然后，在反事实方法中，生成性DL部分可以被人类实验者用来回答诸如"如果这种特定肿瘤具有BRAF突变，它会是什么样子？"或"如果移除了淋巴细胞，这种精确的肿瘤会是什么样子？"等问题[132, 133]。

这些方法在癌症的病理图像或基因组数据的分析中并未广泛研究，但可能成为教育目的和寻找未知属性的有用工具。