【医学AI｜顶刊精析｜05-25】哈佛医学院·告别切片局限：3D病理如何革新癌症预后

小罗碎碎念

先打个预防针，我写这篇推文用了两个多小时，这就意味着要读懂这篇文章不太容易，我已经做好反复阅读的准备了。不过，风险之下，亦是机会，读懂的人少，这个赛道就越值得押宝。

在正式阅读之前，小罗友情提醒大家重点关注一下几个方向：

从2D组织切片计算的TLS面积已被验证为多种肿瘤类型的预后和免疫治疗响应的生物标志物，然而在小样本活检中，单2D组织切片可能无法完全再现整个TLS免疫学组成。
从2D向3D病理学的转变可能允许更好地表征整个组织体积中遇到的形态多样性 ，并最终可能改善患者的诊断、预后和治疗反应的预测。
这篇文章的分析的癌种是前列腺癌，理由是前列腺癌的重要腺体和结构特征可以在适度的空间分辨率下可靠地捕获------这就意味着只要你研究的癌种，也符合这种条件，那么就是可以套用这种形式进行研究的。
最后一点是关于论文的配图------小罗最近分享了几十篇文献了，发现了一个很有意思的现象------越是顶刊，描述结果的图越是简单明了，也不花里胡哨，主要精力都放在机制或者流程图的介绍上，反之亦然。

文献概述

这篇文章介绍了一个名为TriPath的3D病理深度学习平台，它用于临床终点预测。TriPath利用弱监督人工智能（AI）分析3D病理样本，以预测患者的复发风险。

研究发现，与基于2D切片的方法相比，使用3D组织体积进行患者预后可以显著提高性能，因为它能更好地采样异质性组织并提取3D形态特征。

主要亮点包括

TriPath是一个用于临床终点预测的3D病理深度学习平台。
3D组织体积的预后优于2D切片方法。
3D预后优于病理医师的基线标准，显示出其临床潜力。
更大的组织体积可以减少采样偏差，并考虑到组织的异质性。
TriPath通过将大型输入组织体积划分为较小的实例集，并将其总结为单一的低维特征向量，从而实现对患者级别临床终点的预测。
TriPath不依赖于成像方式，可以灵活适应2D和3D分析，以满足不同任务的需求。

通过对前列腺癌样本的训练，TriPath展示了其在风险分层模型中的有效性，这些样本通过开放顶部光片显微镜或微型计算机断层扫描成像。TriPath的性能在不同的3D成像方式和临床基准测试中得到了验证，包括与六位经过认证的泌尿生殖系统病理医师的读片研究比较。

研究表明，3D病理学在临床决策支持中的应用前景广阔，可以作为引导病理医师选择高风险2D截面的工具，或者作为自动化决策支持的完全替代。尽管3D病理学是一个新兴领域，但本文开发的技术和方法支持了其临床转化的可行性，并为未来的研究提供了基础。

文章还讨论了3D病理学在临床实践中的潜在应用，包括开发基于3D病理学的实验室开发测试（LDTs），这些测试将完全无损于宝贵的组织样本。该研究的局限性包括临床队列的大小相对较小，以及需要进一步的大规模验证研究来实现3D病理学的愿景。

文章最后强调了TriPath作为开发临床可转化的计算3D病理检测方法的关键步骤，并预示着3D生物标志物发现和临床检测开发的新时代。

交流群

欢迎大家来到【医学AI】交流群，本群设立的初衷是提供交流平台，方便大家后续课题合作。

一、引言

人体组织是由多样、异质的三维（3D）结构组成的集合体。

一个多世纪以来，病理诊断的标准一直是在玻璃片上检查薄薄的二维（2D）组织切片。2D组织采样仅代表了所有三个维度中复杂形态信息的很小一部分[1-5]。

实际上，有研究表明，在相同组织块的多个层面进行观察，而不是单一的2D切片，可以使得诊断在某些应用中更加准确 [6-9]。此外，复杂组织微结构的某些特征在2D组织横截面图像中是模糊的，或者完全不可见[4,10-20]。这些因素表明，从2D向3D病理学的转变可能允许更好地表征整个组织体积中遇到的形态多样性 [11]，并最终可能改善患者的诊断、预后和治疗反应的预测。

为了全面捕捉组织的体积形态，过去十年中出现了几种3D成像技术[11,17,21-32]。

除了连续切片组织后进行3D重建的协议[17,18,21]之外，非破坏性成像模态，如高通量3D光片显微镜[11,22-25]、显微计算机断层扫描（microCT）[28-30]、光声显微镜[26]、多光子显微镜[27]和光学相干断层扫描[31,32]，也显示出捕捉高分辨率3D体积组织图像的潜力。

然而，3D成像技术在临床应用上仍存在几个障碍。主要的挑战之一是高效、准确地分析这些技术常规生成的大型、特征丰富的3D数据集。深度的增加可能会使高分辨率组织图像的大小增加几个数量级，如果没有辅助分析数据，将使得病理学家手动检查组织的工作流程更加耗时且容易出错，而这个工作流程在2D中已经相当繁琐。

为了分析大型3D病理数据集，基于深度学习（DL）[33-37]的计算方法提供了一个有吸引力的解决方案，因为它可以高效、自动地提供诊断决定和决策支持。

尽管基于DL的计算病理学框架取得了令人瞩目的进步，尤其是在最小化临床干预的患者级预测方面，但它们几乎完全基于2D组织图像[1,38-42]。

在计算3D病理学中，最近的工作利用了从腺体[16]或细胞核手工设计的3D特征。这些算法基于预定义的形态测量描述符，其范围有限，并且需要复杂的分割网络首先在3D中描绘选定的组织基元（例如，腺体、细胞核和血管）[44-46]。或者，端到端的DL方法提供了以无约束的方式识别新的视觉特征的可能性，从而可能最大化预测性能。

然而，目前还没有计算流程来研究这种3D DL方法的价值，尤其是证明其优于当前基于2D切片分析的范例。这样的结果将是高度显著的，并且可能为更多的诊所和制药公司提供完整的组织样本铺平道路，这些样本来自大型、精心策划的患者队列，并与可靠的患者级结果相结合，以进一步加速计算3D病理学的临床转化。

在这里，我们介绍了TriPath，这是一种基于DL的计算流程，用于分析体积组织图像，可以根据3D形态学特征进行患者预后预测，只需要患者级别的临床终点标签，无需病理学家的手动注释（图1）。

Figure 1展示了TriPath计算工作流程，这是一个用于分析3D病理样本的深度学习平台。

以下是对图1各部分的详细分析：

(A) 3D成像技术：

这一部分说明了3D成像技术能够捕获组织样本的高分辨率体积图像。这些图像是三维的，能够提供比传统2D切片更全面的组织结构信息。

(B) TriPath输入与预处理：

TriPath接受来自不同成像技术（如3D显微镜或microCT）的原始体积图像作为输入。首先，TriPath将组织体积图像从背景中分离出来。在标准的工作流程中，分割后的体积被视为一系列3D立方体（3D平面）的堆叠，并进一步细分为更小的3D补丁（实例）。此外，分割体积也可以被视为2D平面的堆叠，并细分为更小的2D补丁。

© 特征提取与聚合：

这些补丁随后通过预训练的特征编码器网络进行处理，例如3D卷积神经网络(CNN)或3D视觉变换器(ViT)。这些网络利用迁移学习来产生一组紧凑且具有代表性的特诊。在图中以3D CNN为例说明了特征编码过程。编码后的特征通过一个领域适应的浅层、全连接网络进行压缩。然后，一个聚合模块将代表所有实例的特征集合起来，自动根据它们对贡献于体积级特征的重要性进行加权，从而生成患者级别的预测。TriPath还提供显著性热图，用于临床解释和验证。

进一步细节：

文中提到，TriPath的计算工作流程在2D处理时是相同的。NN代表依赖于所选特征编码器的通用神经网络层；通道C、K是特征编码器中的中间通道；Attn是注意力模块；Fc1、Fc2是全连接层。

总的来说，Figure 1展示了TriPath如何从3D病理图像中提取特征，并使用深度学习技术进行风险评估和临床决策支持。TriPath的设计允许它处理来自不同成像技术的数据，并能够从3D角度提供更全面的组织分析。

TriPath的标志性特点是它作为一个通用的计算工具，用于组织体积分析。TriPath对成像模态不敏感，尤其是在当前多样化的3D组织成像模态的背景下[11,17,18,21-29]，并且可以灵活地适应2D和3D分析体积输入，以满足多样化的任务。

二、结果

2-1：3D病理样本的弱监督分析计算平台

TriPath是一个用于三维病理样本弱监督分析的计算机平台，它将一个非常大的（吉瓦克斯，> 1 0 9 10^9 109体素）输入组织体积分割成一系列较小的体积实例，然后将其汇总成一个单一的、低维的特征向量（大约 1 0 3 10^3 103的顺序）。这个压缩向量是预测患者级别临床终点的基础 ，这是多重实例学习的典型范例，也称为弱监督学习[1,48]。

具体来说，TriPath的预处理组件首先将体积分割成包含组织的平面堆叠（2D）或立方体（3D），然后进一步将它们分割成更小的2D或3D图像块（实例），从而允许直接进行计算处理（图1A和1B）。

每个实例进一步用一个由预训练的2D或3D深度学习（DL）特征编码器和一个任务可适应的浅层前馈网络组成的模块序列进行编码。特征编码器的作用是对每个实例进行压缩和提取低维的代表性特征，实现超过 1 0 3 10^3 103的压缩比。最后，对体积内的实例特征进行加权和汇总，形成一个用于患者级别风险预测的体积级特征。TriPath使用一个基于注意力的聚合模块[40,48]来自动识别对预后决策有贡献的重要实例和区域，无需额外的病理学家注释。作为一种事后的解释方法，模型预测的显著性热图可以用来识别临床终点的形态学相关性（图1C）。

基于体积的3D分析开启了当前2D框架无法实现的新途径。

从临床角度来看，TriPath可以可靠地包括传统全切片图像（WSIs）中未出现的、对预后重要的区域，后者在形态异质组织的覆盖范围有限。
从技术角度来看，除了基于2D的架构，这些架构在2D自然图像上进行了预训练，TriPath还采用了在图像序列上预训练的3D卷积神经网络（CNNs）或3D视觉变换器（ViTs）来从3D图像块中编码3D形态学感知的低维特征[44,49-51]。

基于DL的特征编码器自动编码形态表示，省去了手工设计的特征，这些特征受人类认知的限制，并且需要复杂的分割网络来描绘特定的组织基元（例如，腺体和细胞核）[16,43,45,52,53]，这在3D中尤其具有挑战性。

尽管3D方法在更广泛的医学成像社区中的临床重要性已经得到认可，导致了诸如从心超心动图视频中预测心力衰竭[35]和用乳腺摄影检测乳腺癌[54]等应用，TriPath在这些应用中在几个方面与它们有所不同。

首先，大多数医学成像应用依赖于特定形态的识别和分割，这需要像素级别的注释[44-46,53]或切片级别的注释[35,54,55]。相比之下，TriPath主要处理不需要临床医生手动注释的患者级别标签（临床终点）。

此外，现有的3D医学成像框架处理的是较低分辨率的图像（>1 mm/体素）和较小的数据集（大约100张最多512x512像素的图像序列），而在这里分析的吉瓦克斯3D病理扫描的规模（ 1 mm/体素）只会随着3D成像模态的进步而增加。因此，3D病理学需要几个以前医学成像框架未使用的技术进步，而TriPath解决了这些问题。

我们首先在模拟的3D幻影数据集上的分类任务上评估TriPath，然后对两个不同的前列腺癌队列[60]进行预后任务，这些队列使用不同的3D成像模态进行成像。

我们广泛比较了体积样本的几种分析处理方法，从使用每个体积内几个平面中的2D图像块（模仿传统的2D病理工作流程）到使用整个体积的3D图像块。为了进一步验证性能，我们将TriPath与基于当前临床实践的基线进行了比较，包括一项涉及六名泌尿生殖病理学家和苏木精-伊红（H&E）WSIs的阅读者研究。

前列腺癌数据集来自两个不同的中心：布里格姆妇女医院（BWH）和华盛顿大学（UW）：

BWH队列包含45个前列腺切除术样本（n = 45名患者）
UW队列包含444个从前列腺切除术样本中提取的核心针吸活检（n = 74名患者），其中171个活检含有癌症，并纳入了本研究。

从两种3D病理成像模态获得了吉瓦克斯体积图像：

开放式顶部光片显微镜（OTLS）[23-25]用于UW队列------OTLS是一种荧光显微镜，允许对脱蜡的组织体积进行快速和高分辨率的成像，这些组织体积用H&E的快速小分子荧光类似物染色，然后通过基于可逆脱水的协议进行光学清晰化。
显微CT[28-30]用于BWH队列------显微CT从多个角度穿透嵌入石蜡中的样本的X射线投影重建一个3D体积。

我们使用了由第二代双通道（OTLS）显微镜获取的数据集，该显微镜具有1 mm/体素的等向采样间距（显微镜的 optical resolution 为0.9 mm在2D和3.5 mm在3D）。单通道（灰度）显微CT数据集具有4 mm/体素的等向采样间距（Nyquist采样）。

因此，原始成像分辨率和采样间距都小于或等于临床实践中使用的物理组织切片的厚度（5 mm） 。我们选择前列腺癌，因为前列腺癌的重要腺体和结构特征[60-62]可以在适度的空间分辨率下可靠地捕获。

对于患者级别的临床终点，我们使用了从前列腺切除术到前列腺特异性抗原（PSA）超过一定阈值的前列腺癌复发的时间，称为生化复发（BCR）。

Table S1提供了与图2和图3相关的OTLS（开放式顶部光片显微镜）和microCT（微型计算机断层扫描）队列的临床数据摘要。

以下是对表中数据的分析：

OTLS (Development) - 开发队列的OTLS数据：

患者数量：50名
组织标本数量：118个（每个患者1-5个标本）
年龄分布：
- 60岁以下：27名（占54%）
- 60岁以上：23名（占46%）
生化复发（BCR）情况：
- 5年内发生BCR：25名（占50%）
- 5年内未发生BCR：25名（占50%）
前列腺切除术等级：
- 3+3：17名（占34%）
- 3+4：18名（占36%）
- 4+3：11名（占22%）
- 4+4：4名（占8%）

OTLS (Held-out) - 验证队列的OTLS数据：

患者数量：24名
组织标本数量：53个（每个患者2-5个标本）
年龄分布：
- 60岁以下：12名（占50%）
- 60岁以上：12名（占50%）
生化复发（BCR）情况：
- 5年内发生BCR：15名（占63%）
- 5年内未发生BCR：9名（占37%）
前列腺切除术等级：
- 3+3：10名（占42%）
- 3+4：10名（占42%）
- 4+3：4名（占16%）
- 4+4：0名（占0%）

microCT - microCT队列数据：

患者数量：45名
组织标本数量：45个（每个患者1个标本）
年龄分布：
- 60岁以下：18名（占40%）
- 60岁以上：27名（占60%）
生化复发（BCR）情况：
- 5年内发生BCR：23名（占51%）
- 5年内未发生BCR：22名（占49%）
前列腺切除术等级：
- 3+3：7名（占16%）
- 3+4：23名（占51%）
- 4+3：11名（占24%）
- 4+4：4名（占9%）

从表中可以看出，三个队列在患者年龄分布、生化复发情况以及前列腺切除术等级方面存在一些差异。特别是在OTLS的验证队列中，5年内发生生化复发的患者比例较高（63%），这可能表明该队列的患者具有更高的复发风险。

此外，不同队列中不同Gleason分级的比例也有所不同，这可能与患者的预后和治疗响应有关。这些数据对于评估TriPath平台在不同临床环境中的性能和准确性至关重要。

2-2：使用模拟的3D数据验证

模拟的幻影数据集通常用于评估新的计算框架，以及测试一般机器学习、3D生物成像和3D放射学应用中的特定数据或算法相关假设[63,64,65,66,67-70]。

在这里，我们为TriPath创建了受控的模拟数据集，以特别验证一个算法相关的假设：与依赖于2D卷积和部分体积相比，使用3D卷积和大体积组织能提高识别显著3D形态学特征和下游分析性能的能力。

Figure S1提供了TriPath模型在3D模拟数据集上的表现和分析，与图1相关。

以下是对图S1各部分内容的分析：

(A) 3D幻影数据样本示例：

这部分展示了用于二元分类任务的单通道3D幻影数据样本的示例（n = 100）。
样本被错误着色以区分不同类型的细胞。
第一类样本主要由正常细胞（蓝色）组成，而第二类样本则主要由具有较大偏心率的异常细胞（红色）组成。

(B) 二元分类任务的AUC：

展示了TriPath模型在不同数据集上的接收者操作特征曲线下面积（AUC）。
数据集包括从每个体积中随机选取的平面（随机平面）、包含两种细胞类型的靶向平面（靶向平面）、所有平面以及整个体积内的立方体（整体体积2D和3D）。
统计显著性采用未配对t检验来评估，其中p < 0.001和*p < 0.0001表示非常显著的统计差异。

© 主成分特征空间图：

这部分提供了整体体积3D方法的样本级别注意力聚合体积特征的主成分特征空间图。
颜色表示真实标签，两种类别之间良好的分离支持了观察到的高AUC性能。

(D) Kaplan-Meier生存分析：

展示了根据TriPath预测风险，在生存预测幻影数据集（n = 150）上进行的Kaplan-Meier生存分析。
分析了2D靶向单平面和整体体积3D方法。
误差线表示五个不同实验的标准偏差。
结果表明整体体积3D方法在生存预测方面可能具有更好的性能。

**总结：**Figure S1展示了TriPath模型在模拟数据集上的有效性，特别是在3D数据处理方面。整体体积3D方法在分类和生存分析任务中表现出较高的性能，这强调了3D分析在病理诊断中的潜力和重要性。通过模拟数据集，研究者能够在一个控制环境中测试和验证TriPath模型的性能，为进一步的临床应用打下基础。

我们创建了填充有不同偏心率的不同类别代表性3D"细胞"（球体）的模拟数据集。准确地表征不同偏心率的球体结构是一项具有挑战性的任务，尤其是在稀疏的2D横截面图像中（图S1A）。

然后，我们通过使用部分体积与整个体积以及2D与3D卷积来评估TriPath的性能。由于我们感兴趣的是算法相关的假设（例如，架构和数据处理），而不是数据相关的假设（例如，形态学特征和样本数量），因此模拟数据集并不旨在忠实地重现真实的组织图像。

我们的结果表明，使用整个体积比仅使用部分体积更好，如受试者工作特征（ROC）曲线下的面积（AUC）指标比较所示（AUC，整个体积3D：0.974，整个体积2D：0.803，单平面：0.677）（图S1B、S1C和S2A）。

对于二分类任务，目标平面方法（为每个体积选择一个目标平面，确保捕获两个类别的形态学）优于随机平面方法（AUC，0.677 vs. 0.501），这展示了随机采样切片可能错过相关表型并影响性能的情况[4]。

此外，当处理相同体积时，3D图像块与3D特征提取优于2D图像块与2D特征提取（AUC，0.974 vs. 0.803），这表明当3D结构包含显著的指示特征（在我们的案例中，是3D球体的偏心率）时，3D形态学感知特征编码可以显著提高性能。

我们还创建了一个用于风险分层的3D幻影数据集（n = 150），其中两个形态学类别被分配到两个不同的风险组中。我们在分类任务中观察到了类似的趋势，即使用整个体积的3D方法可以实现更好的风险分层（图S1D）。

2-3：在OTLS队列上的评估

在模拟数据集上取得积极结果后，我们接着在OTLS队列上测试TriPath以进行风险分层。

这项任务被定义为低风险和高风险组之间的二分类任务，其中高风险组定义为在前列腺切除术后5年内经历生化复发的患者，否则为低风险组[16,72]。

我们将OTLS队列分为一个模型开发数据集（跨越n = 50名患者的118个活检）和一个保留的测试数据集（跨越n = 24名患者的53个活检）。由于开发数据集的样本量有限，我们进行了5折交叉验证，其中训练数据和测试数据的比例为80%和20%，并将所有折叠的预测概率值汇总以计算队列级别的AUCs，重复交叉验证分析五次不同的数据分割。然后，我们在保留的测试数据集上评估训练好的模型。

为了评估TriPath在不同设置下的性能，我们比较了三种预后模型的性能。第一种模型是在每个体积的最大平面/层面上提取的2D图像块上训练的，这些平面位于±20 mm（2D平面）。其他两种模型是基于每个样本整个体积上提取的3D图像块，分别处理2D和3D特征编码器（全体积2D和全体积3D）（图2A和S2B）。

Figure 2展示了使用开放式顶部光片显微镜（OTLS）技术获取的前列腺癌队列的TriPath分析结果。

以下是对图2各部分内容的分析：

(A) 开发数据集的队列级AUC：

分析了118个含癌的活检样本，这些样本来自50名患者。
TriPath模型在3个相隔20mm的平面上进行训练和测试，其中中间平面代表活检中最大的组织区域（2D平面）。
整个体积内的3D补丁分别使用2D和3D特征编码器处理（整体体积2D和3D）。
还展示了基于整个前列腺切除标本的Gleason分级诊断的临床基线（前列腺切除分级）。
所有基线均在五个不同的实验中重复。

(B) 保留测试数据集的AUC：

在保留的测试数据集上评估了53个含癌的活检样本，这些样本来自24名患者。
使用在开发数据集上训练的模型进行评估。

© 消融分析：

对每个体积顶部开始逐渐增加的部分进行训练和测试。
消融分析用于确定模型性能如何随着分析的体积部分增加而变化。

(D) 主成分特征空间图：

展示了具有高（不利结果）、中（无影响）和低（有利结果）10%集成梯度（IG）分数的3D补丁的主成分特征空间图。
为每个聚类显示了代表性的3D补丁和每个补丁内的2D水平切片。

(E) 3D IG热图：

展示了3D IG热图，其中包括代表性的2D水平平面，以显示不利（红色）和有利（蓝色）的预后区域。
统计显著性采用未配对t检验，与整体体积3D性能相比。

**总结：**图2显示了TriPath模型在OTLS前列腺癌队列中的表现，包括开发和测试数据集的AUC值，消融分析，以及IG分析。IG分析有助于识别与不利和有利预后相关的组织形态特征。整体而言，这些结果展示了3D病理分析在提高前列腺癌风险分层准确性方面的潜力，以及TriPath模型在临床决策支持中的应用前景。

2D平面基线模仿了标准病理实践，即检查每个活检的三个层面以进行诊断。选择最大组织区域，这可以从体积图像中轻松识别，确保捕获足够的组织。

为了比较在3D中编码形态与2D相比的优势，3D图像块要么通过在深度上应用2D特征编码器逐层处理，并在每个3D图像块内平均各层特征（全体积2D），要么直接应用3D特征编码器（全体积3D）。我们还包括了一个基于临床基线的模型，即基于标准术后病理学检查前列腺切除标本的标准Gleason分级，其中逻辑回归分类器以相同的5折交叉验证方式训练，以预测BCR状态。

对于开发数据集（n = 50），我们观察到在2D平面（AUC，0.816）和全体积3D（AUC，0.860，p < 0.01）之间存在统计学上的显著差异。

我们将性能提升归因于两个因素：

（1）与2D病理学相比，3D病理学分析的体素数量要大几个数量级；
（2）提取的3D特征在2D图像中无法辨识。

在使用全体积2D与2D平面（AUC，0.845 vs. 0.816）之间观察到的性能提升，展示了使用整个活检体积的好处，该体积通常包含比单个2D切片多> 1 0 3 10^3 103的数据。3D特征也优于平均2D特征（AUC，全体积3D：0.860 vs. 全体积2D：0.845），这表明量化3D形态的额外好处。

我们还观察到全体积3D方法优于临床基线（AUC，0.761，p < 0.001），这表明即使应用于小核心针吸活检，TriPath也具有潜在的临床用途，即使是在手术后对整个前列腺切除术的系统检查中也是如此。

当在24名患者的保留测试数据集上评估时，我们发现全体积3D方法（AUC，0.804）仍然优于临床基线（AUC，0.744，p < 0.01）（图2B）。

我们归因于保留数据集的更具挑战性的性质，因为临床基线（AUC，开发：0.761 vs. 保留：0.744）的性能下降也反映了这一点。尽管如此，我们观察到使用3D和全体积分析在风险分层中带来的相同好处。

为了确定训练和测试中使用的每个体积百分比是否影响性能，我们在开发数据集内进行了消融分析 。具体来说，我们逐渐增加模型可见的体积，从每个体积的顶部向下延伸。我们发现随着更大体积部分的被纳入，AUC呈上升趋势（图2C）。与不同特征编码器的额外实验也确认了全体积3D相对于部分体积3D或2D基线的优越性能（图S3A--S3C）。

Figure S3 对 OTLS（开放式顶部光片显微镜）和 microCT（微型计算机断层扫描）队列中不同特征编码器进行了比较，这些特征编码器用于从2D和3D补丁中提取代表性和压缩特征，相关于图2和图3。

以下是对图S3各部分内容的分析：

(A) OTLS队列中的五种编码器：

在OTLS队列中，考虑了五种不同架构和预训练数据集的特征编码器。
ResNet-2D和SwinViT（2D）通过在每个3D补丁内的深度上平均2D特征来定义。

(B) 2D特征编码器的特征提取：

选择最大组织区域的2D切片以及距离该层上下20mm的切片，用于2D特征编码器的特征提取。

© 3D特征编码器的影响：

即使使用不同的3D特征编码器，当更大的组织体积用于风险预测时，也观察到AUC（接收者操作特征曲线下面积）的增加。

(D-F) microCT队列的实验：

对microCT队列进行了相同的一系列实验。
结果表明，不同的特征编码器和预训练数据集会导致不同的性能水平。
在自然图像或视频上训练的CNN（卷积神经网络）和ViT（视觉变换器）比在特定领域数据集（放射学和组织学）上预训练的性能更好。
将放射学预训练的SwinViT（3D）性能低下归因于图像分辨率的大差异（3D放射学：1-2 mm/voxel vs. 3D病理学：1-4 mm/voxel）以及固有的不同形态。
这表明，使用同一数据领域预训练的数据集的特征编码器是必要的，这将留作未来的工作。
在主要分析中，由于spatiotemporal CNN（即ResNet-(2+1)D）在两个队列中都提供了一致的良好性能，因此用于3D分析。对于2D分析，使用ResNet-2D，因为它与ResNet-(2+1)D共享相同的残差网络骨干，从而允许在2D和3D任务之间进行公平的比较。

**总结：**图S3强调了特征编码器架构和预训练数据集选择对下游性能的影响。实验结果表明，使用与病理学图像分辨率和形态更相似的预训练数据集的特征编码器，可以提高模型在风险预测任务中的性能。此外，这些发现提示在3D病理分析中，选择适合数据特征的预训练模型对于实现最佳性能至关重要。

为了探究驱动风险预测的形态学，我们采用了集成梯度（IG）可解释性分析，其中我们为每个预测的图像块计算IG归因分数。正（高）分数与增加预测风险（不良预后）的区域相关，而负（低）分数与减少预测风险（良好预后）的区域相关。

2-4：在microCT队列上的评估

我们评估了TriPath在microCT队列上的风险分层能力，同样采用BCR风险的二分类预测任务。

我们使用了与OTLS分析相同的预后和临床基线，使用5折交叉验证，其中训练数据和测试数据的比例为80%和20%，重复五次数据分割。正如在模拟和OTLS数据集中所观察到的，从3D图像块中编码3D特征的性能优于仅编码2D特征的基线（AUC，全体积3D：0.749，全体积2D：0.640，2D平面：0.634）（图3A和S2C）。

总体而言，性能低于OTLS，这可以归因于microCT的较低分辨率 （4 mm/voxel for microCT vs. 1 mm/voxel for OTLS），以及microCT只提供单通道信息，而OTLS提供双通道信息 。此外，全体积3D方法优于临床基线（AUC，0.712，p < 0.01），而2D基线表现较差。与用于前列腺切除术后组织学检查的H&E图像相比，我们也认为2D基线的较低性能是由于microCT的单通道和较低分辨率。然而，这一缺点被microCT数据集的全体积3D分析所克服。3D方法的优越性也反映在通过Kaplan-Meier分析更好的风险分层性能上（图3B）。

Figure 3展示了使用TriPath对微型计算机断层扫描（microCT）前列腺癌队列进行分析的结果。

以下是对图3各部分内容的分析：

(A) 队列级AUC：

展示了45名患者队列中，TriPath模型在3个相隔20mm的平面上的训练和测试结果，中间平面代表活检中最大的组织区域（2D平面）。
整个体积内的3D补丁分别使用2D和3D特征编码器处理（整体体积2D和3D）。
还展示了基于整个前列腺切除标本的Gleason分级诊断的临床基线（前列腺切除分级）。
所有基线在五个不同的实验中重复。

(B) Kaplan-Meier生存分析：

根据TriPath预测风险，对2D平面和整体体积3D方法进行风险分组（在预测风险的第50百分位数处分层）。
指定了每个风险组的中位生化复发（BCR）诊断日期。
使用对数秩检验来评估统计显著性。

© 消融分析：

对每个体积顶部开始逐渐增加的部分进行训练和测试。
消融分析有助于了解模型性能如何随着分析的体积部分增加而变化。

(D) 主成分特征空间图：

展示了具有高（不利结果）、中（无影响）、低（有利结果）10%集成梯度（IG）分数的3D补丁的主成分特征空间图。
为每个聚类显示了代表性的3D补丁和立方体内的2D水平切片。

(E和F) 3D IG热图：

展示了3D IG热图，其中包括代表性的2D水平平面，以显示不利（红色）和有利（蓝色）的预后区域。

**总结：**图3提供了TriPath模型在microCT前列腺癌队列中的性能评估，包括不同处理方法的AUC值、生存分析、消融分析以及IG分析。这些结果有助于理解3D病理分析在前列腺癌风险预测中的潜力，以及不同特征编码器和分析方法对模型性能的影响。特别是，整体体积3D方法在风险预测和生存分析中显示出较好的性能，强调了3D分析在病理诊断中的重要性。

有趣的是，在整个体积中使用3D特征和平均2D特征之间的AUC差距很大，强调了编码3D形态的优势。与OTLS类似，我们观察到性能随着microCT体积分析百分比的增加而增加（图3C）。与部分体积分析或2D分析相比，全体积3D分析的优越性能在不同特征编码器中一致地观察到（图S3D--S3F）。

Figure S6提供了微型计算机断层扫描（microCT）队列中集成梯度（Integrated Gradient, IG）热图的分析，与图3相关。

以下是对图S6各部分内容的分析：

(A) 高风险样本的IG热图：

在这个高风险样本中，高IG值集中在最小和最密集的癌性腺体区域，特别是当它们位于前列腺包膜内或邻近前列腺包膜时，以及类似于前列腺包膜的密集基质。
这表明IG分数高（即对不利预后有贡献）的区域与癌性腺体的密集程度和位置有关，尤其是与前列腺包膜相关的区域。

(B) 低风险样本的IG热图：

类似于高风险案例，在这个低风险样本中，高IG区域对应于小而密集的癌性腺体和密集基质的区域。
这两种形态的并置（即小而密集的癌性腺体和密集基质）具有特别高的IG值。
这说明即使在低风险样本中，某些特定的组织形态特征也与较高的IG分数相关，这可能对预后有不利影响。

总结：

图S6中的IG热图揭示了在microCT队列中，哪些组织区域的特征与不利或有利的预后相关。IG分数高的区域通常与癌性腺体的密集程度和特定的组织结构特征有关，如与前列腺包膜的邻近性。这些发现有助于理解前列腺癌的形态学特征如何影响预后，并可能为临床决策提供有价值的信息。此外，热图的可视化工具可以交互式地展示这些信息，使得分析更加直观和易于理解。

Figure S7提供了微型计算机断层扫描（microCT）数据集的集成梯度（Integrated Gradient, IG）分析，该分析与图3相关。

以下是对图S7各部分内容的分析：

(A) IG分数聚类：

高IG群组（前10%）由具有侵袭性癌的补丁组成，这些癌组织最接近Gleason模式4的特征。
然而，由于分辨率较低以及缺乏H&E（苏木精-伊红）染色，单独通过microCT图像的视觉检查无法进行明确的分级。
中IG群组（围绕0的中间10%）的大多数补丁包含类似Gleason模式3和4的侵袭性癌。
低IG群组（底部10%）主要由包含良性前列腺组织的补丁组成，偶尔有类似Gleason模式3的侵袭性癌的焦点。

(B) IG补丁分数的散点图：

展示了每个样本内IG补丁分数的平均值归一化后作为预测风险（高风险组的预测概率）的函数的散点图。
该图可能用于展示IG分数与预测风险之间的关系。

© 不同IG群组补丁数量比例的散点图：

展示了每个样本中高、中、低IG群组补丁数量比例作为预测风险的函数的散点图。
该图表明，预测风险较高的样本具有较大（较小）比例的高（低）IG群组补丁。

(D)部分描述了Kaplan-Meier生存曲线分析，该分析用于评估根据高IG（Integrated Gradient）群组和低IG群组补丁数量比例分层的队列。

分层标准：

队列被分为两组，分层标准是高IG群组和低IG群组补丁数量的比例，分层点设在50%（即一半的样本被分到高比例组，另一半被分到低比例组）。

生存曲线分析：

Kaplan-Meier曲线用于展示不同风险组别的生存概率随时间的变化。
曲线的x轴表示时间，y轴表示生存概率。
曲线的下降斜率反映了生存率的降低，曲线越低表示生存率越差。

统计显著性评估：

使用对数秩检验（log-rank test）来评估不同风险组别之间的生存差异是否具有统计学意义。
对数秩检验是一种非参数检验方法，用于比较两个或多个生存分布的差异。

结论：

如果高IG群组的生存曲线显著低于低IG群组，这表明IG分数与患者的预后密切相关。
良好的分层效果（即两条曲线之间的明显分离）表明IG分析能够识别出与预后相关的组织形态学特征。
分层比例的显著性表明，样本中预后形态学特征的表现程度对患者的风险评估很重要。

图表细节：

图中的误差线表示标准差，显示了生存概率估计的变异性。
比例尺（scale bar）为250毫米，提供了可视化的尺寸参考。

总结：

图S7通过IG分析提供了对microCT数据集中不同风险等级样本的组织学特征的洞察。IG分析有助于识别与高风险和低风险相关的特定组织形态学特征。高IG群组的补丁与侵袭性癌相关，而低IG群组的补丁则与良性前列腺组织相关。通过IG分数与预测风险的关系，可以更好地理解不同组织形态学特征对前列腺癌预后的影响。这种分析对于改善风险分层和个性化治疗计划可能具有重要意义。

IG热图和每个组的代表性3D图像块的定性分析（图3D--3F，S6和S7A）显示了多样的形态学特征。高IG集群包含最接近Gleason模式4的浸润性癌的图像块；然而，由于分辨率和缺乏H&E染色，无法通过视觉检查进行确切的分级。大多数中IG集群的图像块包含类似于Gleason模式3和4的浸润性癌。低IG集群主要由含有良性前列腺组织的图像块组成，偶尔有类似于Gleason模式3的浸润性癌的焦点。

进一步的IG评分分析为microCT队列提供了支持OTLS发现的证据。我们观察到每个患者的平均IG评分与预测风险之间存在统计学上的显著相关性（Pearson r，0.95，p < 0.0001）（图S7B）。随着预测风险的增加，每个样本中高IG图像块的比例增加，而低IG图像块的比例减少（Pearson r，高IG：0.79，p < 0.0001，低IG：-0.61，p < 0.0001）（图S7C），基于高IG和低IG组中图像块数量的比率对整个队列进行了良好的分层 （图S7D）。这些分析与OTLS观察到的结果一致，即不良预后形态的增殖程度在风险分层中起着重要作用。

2-5：与临床基线的比较

Gleason分级是目前患者治疗决策中最重要的因素[61]。

为了与这种实践保持一致，对于OTLS队列，我们进行了两轮读者研究，其中六名来自四个不同国家（五个不同医疗中心）的认证泌尿生殖病理学家，他们在医学院毕业后拥有14至40年的临床经验（平均26.5年），对3D OTLS图像的H&E假彩色2D切片进行了Gleason分级（118个包含癌症的活检样本来自开发数据集）。

病理学家审查的切片来自TriPath处理的同一OTLS活检扫描，以消除TriPath与病理学家之间的区域采样偏差。在第一轮中，每位病理学家展示了每个活检的三张H&E假彩色切片（水平层），这复制了标准临床实践中在层之间丢弃5个组织切片的做法（图4A和S8A）。

Figure 4展示了TriPath在3D病理学中的临床验证，分别针对OTLS（开放式顶部光片显微镜）和microCT（微型计算机断层扫描）队列与临床基线进行了比较。

以下是对图4各部分内容的分析：

(A) OTLS队列的病理学家评估：

OTLS队列中每个活检样本的3D数据集（1毫米/体素分辨率）的中心位置及其上下20毫米处的3个图像切片被展示给6位认证的病理学家。
每位病理学家为活检样本提供了Gleason分级诊断。

(B) 病理学家间一致性的评估：

使用二次加权kappa统计量来评估两位病理学家之间的一致性。
每个黑点代表两位病理学家之间的一致性程度。

© 队列级BCR状态预测AUC：

展示了基于6位病理学家对3个图像切片的诊断（个人和共识）、整个前列腺切除标本的标准术后组织病理学诊断以及TriPath预测风险（3D病理学）的队列级（n=50）BCR（生化复发）状态预测的AUC值。
每个点代表在五个不同的随机数据分割上重复的队列级AUC。

(D) microCT队列的H&E染色WSI：

对于每个使用microCT成像的组织块，获取相邻的组织切片并制备H&E染色的全切片图像（WSI）。
得到的WSI和感兴趣区域（ROI，其中ROI与microCT扫描的侧向视场匹配）被用于2D TriPath的风险预测。

(E) 队列级BCR状态预测AUC：

展示了基于整个前列腺切除标本的诊断（原始病理报告）以及来自H&E组织病理学（WSI和ROI）和microCT数据集的TriPath预测风险的队列级（n=45）BCR状态预测的AUC值。

总结：

图4提供了TriPath在3D病理学中的临床验证结果，展示了其与标准临床实践相比的性能。这些结果包括：

病理学家对OTLS数据集的评估和他们之间的一致性。
根据病理学家的诊断和TriPath预测，对BCR状态进行队列级预测的AUC值。
使用microCT数据集和相应的H&E染色WSI的风险预测。
统计显著性使用未配对t检验评估，与TriPath性能相比，显示了显著性水平（*p < 0.05, **p < 0.01, ***p < 0.001, ****p < 0.0001）。

这些验证结果表明TriPath作为一种3D病理学工具，能够提供与经验丰富的病理学家相当的或甚至更好的诊断和风险预测性能。

Figure S8提供了对OTLS（开放式顶部光片显微镜）队列中3D病理的临床验证的进一步分析，与图4相关。

以下是对图S8各部分内容的分析：

(A) 阅读器研究的网络界面：

展示了病理学家在阅读器研究中使用的网络界面，病理学家可以滚动浏览OTLS活检图像（第一轮和第二轮分别为三个和所有切片）。

(B) 病理学家对OTLS活检图像所有切片的诊断：

在第一轮阅读后的两个月洗脱期之后，每位病理学家被展示了OTLS活检图像的所有切片，以提供每个活检的诊断。

© 队列级BCR状态预测AUC：

展示了基于6位病理学家对所有图像切片的诊断（个人和共识）以及整个前列腺切除标本的标准术后组织病理学诊断的队列级（n=50）BCR（生化复发）状态预测的AUC值。
使用了两个版本的TriPath：整体体积2D切片（蓝色）和整体体积3D（橙色）。
- 整体体积2D切片：在整体体积中生成2D补丁的2D切片。
- 整体体积3D：从整体体积生成3D补丁的3D病理基线。

(D) 病理学家之间一致性的评估：

使用二次加权kappa统计量来评估两位病理学家之间的一致性。
中位kappa值为0.662，略低于2D阅读器研究的中位kappa值（0.677）。
尽管病理学家的共识性能比第一轮阅读器研究有所提高（所有切片AUC：0.799 vs. 三个切片AUC：0.744），整体体积3D TriPath仍然优于所有临床基线。
结合中位Kappa值没有显著变化的事实，结果表明，人类处理大量2D切片（每个活检的切片数量增加100倍）并非易事。
此外，整体体积3D TriPath优于病理学家基线和整体体积2D切片TriPath（两者都使用整个体积并依赖于解释2D形态），这表明编码3D形态的重要性。

**总结：**图S8进一步验证了TriPath在3D病理学中的性能，特别是在OTLS队列中。这些结果强调了3D形态学在病理诊断中的价值，并表明3D分析可以提供比传统2D方法更深入的洞察力。通过比较病理学家的诊断和TriPath的预测，研究显示了自动化3D病理分析工具的潜力，特别是在处理大量数据时。此外，这些发现表明，3D病理分析可以成为临床决策过程中的一个有价值的工具，可能改善患者的诊断和治疗结果。

在第二轮中，即在2个月的洗脱期之后，向每位病理学家展示了H&E假彩色切片的完整深度堆叠（垂直序列），他们可以实时放大和缩小任何区域，并在不同深度之间滚动（图S8B）。在多个包含癌症的活检病例中，使用最大Gleason分级的活检代表患者，符合标准临床实践。

我们使用逻辑回归训练了一个二元分类器，以预测BCR状态，结果与之前使用的5折划分相同。为了确保结果不受特定数据分割的影响，我们还重复了交叉验证分析，覆盖了五次不同的数据分割。

为了与TriPath进行比较，我们基于每位病理学家（P1-P6）和病理学家共识（每个患者的分配Gleason分级的中位数）提供的Gleason分级计算了AUC。

在第二轮读者研究中，我们还实现了一个2D版本的TriPath，该版本处理整个体积中切片的2D图像块特征，以模仿病理学家检查整个切片集的任务。我们还基于病理学报告中的原始Gleason分级计算了AUC，该分级是基于标准术后检查的整个前列腺切除术标本确定的。我们还评估了病理学家之间的协议，通过计算每对病理学家之间的二次加权κ系数（共15对，图4B）。尽管存在一定程度的人际变异，但中位数κ值为0.677，表明尽管与标准-of-care H&E存在一定差异，但基于假彩色OTLS图像的病理学家确定仍然具有良好的一致性，与基于H&E的Gleason分级确定相当。75

在比较AUC性能时，TriPath优于单个病理学家、病理学家共识和标准术后前列腺切除术标本的H&E切片检查（图4C）。这表明基于DL的3D病理学工作流程具有临床潜力，可以自动识别3D预后生物标志物。此外，病理学家的整体表现与基于多个块（通常20至30块）的标准H&E切片检查得出的前列腺切除术分级相当，这证实了先前文献的发现，即病理学家可以根据H&E假彩色OTLS图像做出有效的诊断决定[4,5,76,77]。

尽管我们观察到病理学家在检查所有切片时的一致性表现有所提高（AUC，所有切片：0.799 vs. 三张切片：0.744），值得注意的是，TriPath仍然优于所有临床基线（图S8C）。结合中位数κ值没有实质性变化的事实（kappa，所有切片：0.662 vs. 三张切片：0.677）（图S8D），结果表明人类难以分析大量的2D切片（每个活检切片数量增加 1 0 3 10^3 103倍），并保留关键信息，尤其是在没有现有指南解释3D病理学的情况下。

此外，3D TriPath优于其2D变体，后者依赖于整个组织体积中所有切片的2D形态，再次强调了编码3D形态的重要性。在microCT队列中，我们从福尔马林固定和石蜡包埋（FFPE）块中立即相邻的组织切片对microCT图像进行了H&E染色，并在103倍放大率下扫描（1 mm/像素）。然后，将结果的WSI处理TriPath（在2D）以产生队列级别的分层（图4D）。我们进一步从每个WSI中提取了一个4x3x4mm的感兴趣区域（ROI），以匹配microCT图像的侧向视场，并使用TriPath处理它。这是为了最小化H&E-组织学和microCT数据集不同视场可能带来的潜在偏差。

类似于OTLS分析，我们基于WSI预测的风险，使用5种不同的数据分割计算了队列级别的AUC。此外，我们还使用原始病理学报告中的前列腺切除术分级来计算临床基线的性能。我们观察到TriPath可以在统计学上显著优于H&E基线（ROI和WSI）以及前列腺切除术分级基线（图4E）。

H&E ROI与WSI之间的相似性能表明ROI中包含的形态学代表整个WSI中的形态学。H&E组织学基线与前列腺切除术基线之间的性能差距是预期的，因为单个H&E切片无法像从前列腺切除术中多个切片采样那样很好地代表患者。值得注意的是，尽管microCT的分辨率较低（4 mm/voxel for microCT vs. 1 mm/pixel for H&E），并且只使用了一个前列腺切除术的块，但其性能仍然优于这些基线，这表明处理大组织体积的DL分析框架具有临床用途，该框架可以编码3D形态。

总体而言，与临床基线的比较显示了3D病理学的潜在价值，TriPath在相同或相邻组织体积和切片上的形态信息方面优于临床基线。这些发现进一步强调了3D病理学在临床诊断和治疗决策中的潜在应用价值，并为基于DL的3D病理学提供了实证支持。进一步的细节可以在STAR Methods中找到。

2-6：跨模态评估：OTLS与microCT队列

为了验证独立测试队列，我们进行了跨模态泛化实验，其中在一个模态上使用整体3D训练的模型在另一个模态上进行测试。

利用两个队列都是前列腺癌，我们假设训练的模型应该能够捕捉跨模态的一般化形态学特征，尽管跨模态评估具有挑战性。为了辅助泛化，我们制作了一个转换的OTLS数据集，其中原始数据集被下采样到4 mm/voxel，只保留了一个通道（核通道）以匹配microCT数据集的特征。

Figure 7展示了OTLS（开放式顶部光片显微镜）和microCT（微型计算机断层扫描）队列之间的跨模态和跨机构评估。

正如预期的那样，这降低了在转换的OTLS数据集上训练和测试的模型的性能，因为信息损失（AUC，转换OTLS：0.708 vs. 原始OTLS：0.860）。在microCT数据上训练的TriPath模型在转换的OTLS队列上的平均测试AUC为0.676（AUC，在转换OTLS上训练的模型：0.708）（图7A）。此外，在转换的OTLS数据上训练的TriPath模型在microCT队列上的平均测试AUC为0.725（AUC，在microCT上训练的模型：0.749）（图7B）。

与同一模态上的训练和测试相比，性能下降可以归因于OTLS和microCT的成像协议不同（光片与X射线），但与2D计算病理学中外部验证任务通常的性能下降相当。38,78这些结果表明，模型学会了正确识别重要的预后形态学，并能够推广到不同的成像模态。进一步的形态学检查支持这一观察，表明不良分化的腺体或浸润性癌与不良预后有关（图7C和7D）。

(C和D) 跨模态实验的集成梯度（IG）热图：

展示了跨模态实验的IG热图，这些热图显示了模型识别出的不良预后形态学特征。
图C展示了模型识别出的分化程度较低的腺体，图D展示了侵袭性癌。
尽管训练和测试模态之间存在差异，TriPath模型仍然能够识别出与同模态设置中IG热图一致的不良预后形态学特征。

总结：

图7的分析结果表明，TriPath模型能够学习并泛化跨不同成像模态和机构的前列腺癌预后形态学特征。通过将OTLS数据集下采样并仅保留核通道，使其分辨率和单通道特性与microCT数据集相匹配，从而进行了跨模态评估。测试AUC和Kaplan-Meier生存曲线显示了模型在不同数据集上的预测性能。

IG热图进一步证实了模型识别出的特定形态学特征与不良预后相关，这支持了TriPath在3D病理学中的潜在临床应用价值。此外，生存曲线的统计显著性通过log-rank检验进行评估，误差线表示五个不同实验的标准差，比例尺为250毫米。这些结果强调了3D病理分析在提高诊断准确性和预后评估方面的潜力。

三、讨论

TriPath解决了基于3D组织患者的预后预测这一具有挑战性的任务，因为只有单个患者级别的标签被提供给成千上万的3D图像块，而没有额外的手动注释（弱监督）。

对于一个体体积组织图像的队列，TriPath可以无缝地执行组织体积的预处理和3D图像块处理 ，以及将特征编码器与基于注意力的聚合网络相结合，以进行患者级别的预测 。此外，TriPath还提供了解释性工具，以探究患者风险的形态学相关性。

TriPath对成像模态不敏感，因此可以适应正在积极开发的多种3D成像技术。

我们首先在模拟的幻影数据集上展示了TriPath在风险分层中的应用，然后又在两种不同3D成像模态（OTLS和microCT）下成像的两个前列腺癌数据集上进行了展示。

首先，利用组织体积的更大部分可以获得更好的风险预测。这与之前的工作一致，后者表明通过整合组织中的更多切片可以获得更好的患者诊断和预后[4,6-9]。

其次，将组织体积视为3D图像块集合而非2D图像堆叠，可以获得额外的预测性能。这表明3D特征的量化在组织体积的2D分析中具有价值。与标准临床实践中病理学家的确定相比，我们观察到TriPath再次取得了优越的性能。这些发现共同表明，3D形态感知的计算框架，这种直观的范式用于检查本质上3D的生物结构，可以改善临床终点的预测。

在临床转化方面，非破坏性3D病理学的方法和设备在最近几十年得到了快速发展，并开始在研究实验室和诊所中部署。

microCT作为研究中心的一种通用方法，用于表征多种材料的3D形态，正在不断进步以改善软组织成像。非破坏性3D成像的一个主要优点是无需进行物理组织切片或组织破坏[4,77,79]。因此，组织准备步骤可以完全自动化，包括一系列缓冲液和试剂交换，用于OTLS，而microCT则不需要。

随着越来越多的高分辨率3D病理图像可用，病理学家面临的挑战是高效地审查这些大数据集，并开发标准化的方法来利用和理解3D病理学提供的额外见解。由于3D病理学数据集的大小，AI将作为筛选工具，指导病理学家选择高风险的2D横截面平面[76]（图5），或者完全自动化的决策支持，类似于许多已经商业化的分子检测，包括用于前列腺癌风险预测的检测（例如，Prolaris, Decipher, Oncotype DX）。

Figure 5提供了开放式顶部光片显微镜（OTLS）数据集的平面变异性分析，展示了如何在不同深度的组织平面上预测风险，并探讨了这些预测如何受到组织形态学特征的影响。

以下是对图5各部分内容的分析：

(A) 平面风险差异计算：

针对每个样本，计算了预测风险在平面级别上的上5%和下95%值之间的差异（风险差异）。
这个差异度量了在不同平面上预测风险的变异性。

(B) 风险决策阈值与风险区间：

展示了一个任意的风险决策阈值（例如，0.5）如何落在几个患者90%风险区间内。
对于这些患者，根据在组织体积内选择的不同平面，相关的风险组可以发生变化。

展示了一个患者样本中，随着深度变化，平面级别预测风险从低风险波动到高风险的情况。
这种波动可能反映了组织内部的异质性。

(D) 注意力聚合的平面特征的主成分特征空间：

展示了注意力聚合的平面级别特征的主成分特征空间。

(E) 低风险和高风险平面的形态学分析：

对比了低风险平面（深度10）和高风险平面（深度275）的形态学特征。
高风险平面比低风险平面有更多类似Gleason模式4的腺体增生，而低风险平面主要由Gleason模式3的腺体构成。

总结：

图5通过平面变异性分析，揭示了在3D组织体积内不同深度平面上的预测风险如何受到组织形态学特征的影响。这些分析结果强调了在3D病理学中考虑整个组织体积的重要性，因为仅分析部分平面可能会导致对患者风险的错误评估。此外，这些发现还表明，与2D分析相比，3D分析能够提供更全面和准确的风险预测，因为它能够捕捉到组织内部的异质性。这对于临床决策和治疗计划的制定具有重要意义。

尽管病理学家可能难以解释3D病理学图像，因为它们与2D H&E图像在染色和外观上的差异，但先进的图像处理方法已经存在，可以将OTLS或microCT数据集解释给病理学家。

例如，在我们的OTLS数据集上，组织用H&E的荧光类似物染色，使用基于Beer-Lambert定律的光吸收的物理模型，将数据集伪彩色化，以类似于标准的H&E组织学。77,80

尽管OTLS图像缺少某些物理切片产生的伪影，如收缩/脱水伪影和裂纹，但"虚拟H&E"图像使病理学家能够做出多种诊断决定，76,77,81包括本研究中的决定（图4B）。

对于其他缺乏物理转换的模态，如microCT，基于DL的虚拟染色方法[82-84]也变得越来越普遍。在未来，AI还将发挥使能作用，在发现对各种临床和调查任务而言，3D形态学生物标志物（这些生物标志物对2D方法是不可见的）方面发挥作用。除了像TriPath这样的端到端DL方法，可以识别和定位与特定临床结果相对应的区域，还需要开发专门的AI框架进行3D分割，以从这些区域提取直观的形态学特征，并阐明它们在诊断和预后确定中的价值[1,39,45,52,85]。

一个直接的目标是开发基于3D病理学的实验室开发测试（LDTs），这些测试将完全非破坏性地使用宝贵的组织样本，与许多用于患者管理的分子LDTs不同，后者是破坏性的。

例如，对于低到中风险的前列腺癌患者，Gleason分级存在高度的观察者间变异，这可能会显著影响关键的治疗决策（例如，主动监测与治愈性手术或放疗）。对这些患者的治疗不足或治疗过度可能导致重大后果，包括生存质量和生活质量（例如，尿失禁和性功能障碍）。因此，泌尿科医生和肿瘤科医生经常将选定的活检样本送去做破坏性分子分析，以指导他们的治疗决策。

同样，一个活检样本可以送去做"3D病理咨询"，成本可能更低，样本将完全完好无损地作为FFPE块返回，用于额外的检测或档案目的。5,86显然，为了实现这一愿景，需要进行更大规模的确证研究，但本研究中开发的技术强烈支持了计算3D病理学的临床可行性和价值，从而证明了对未来规模扩大研究的合理性。

高分辨率3D成像技术的快速发展[17,23-25,29,47,87]、组织准备、质量控制流程[77,88]以及3D计算机视觉AI系统的进步共同为计算3D病理学在临床环境中的转化奠定了基础，正如基因组测试已成为标准组织病理学的补充一样。此类技术的发展以及初始临床研究的成功（例如本研究）将说服诊所和制药公司贡献大型、精心策划的FFPE组织样本队列，这将进一步加速3D病理学的进展和临床转化，正如大量全切片图像队列的可用性加速了2D病理学的研究、商业化和监管接受。1

3D病理学的初步努力，通过形态学调查和/或分子表征，已经在多种疾病类型中开始展示见解和潜在的临床价值，例如胰腺癌[17,89,90]、结直肠癌[19]、黑色素瘤[91,92]、淋巴结[93]、肝癌[14,94]、非酒精性脂肪肝病[95]、膀胱癌[13]、食管癌[76,96]、肺癌[97,98]、类风湿性关节炎[99]、胶质母细胞瘤[100]和肾癌[101]。

总的来说，TriPath代表了开发一个临床可转化的计算3D病理学检测的关键步骤，从而催化了一个激动人心的新时代------3D生物标志物的发现和临床检测的发展。TriPath不仅为大规模高分辨率3D病理学数据集的弱监督学习提供了一个流水线，而且还为其他人提供了极大的灵活性：它对输入模态（例如，光片显微镜和microCT）和组件（例如，特征编码器）不敏感，这些组件可以与各种最先进的架构进行交换。我们设想TriPath将被扩展到3D病理学中的广泛临床任务，从AI辅助组织体积的筛选到协助人类观察者，自动化的队列风险分层，并增强指导个别患者关键治疗决策的标准2D组织病理学方法。

四、患者队列

用于评估患者风险水平的临床终点是前列腺切除术与生化复发（BCR）之间的时间间隔 ，这由前列腺特异性抗原（PSA）水平的升高超过定义的阈值来标记。

治疗医生干预的确切PSA阈值因医生和进行PSA测试的具体实验室而异，这归因于不同检测方法参考范围的变化。为了考虑这种固有的变异，我们根据治疗医生采取任何干预措施（如调整医疗治疗或开始放射治疗）之前患者最近一次PSA测试的日期，将患者判定为达到BCR。

对于华盛顿大学（UW）和布里格姆妇女医院（BWH）的队列，我们确定了至少有五年随访期的患者，这些患者接受了根治性前列腺切除术（RP），Gleason评分分别为3+3、3+4、4+3和4+4（Gleason组1-4）。

对于UW队列，从Canary TMA案例队列研究中收集了n = 74名患者的存档FFPE前列腺切除术标本，其中n = 40名患者在前列腺切除术后五年内经历了BCR，n = 34名患者没有。

对于BWH队列，从n = 64名患者中收集了存档FFPE前列腺切除术标本，其中n = 32名患者在前列腺切除术后五年内经历了BCR，n = 32名患者没有。

在microCT体积图像质量检查中，n = 19名患者因噪声水平过高而被丢弃，导致队列大小为n = 45。详细的数据显示在表S1中。

五、数据获取

5-1：模拟数据

我们使用模拟的3D数字幻影数据集来允许在不同网络架构和数据处理方法（例如，2D与3D）之间进行比较分析，同时也确保TriPath流水线的每个组件都完全运作。65-67

幻影数据集在真实世界临床数据方面具有有用优势，因为数据是根据一组预先指定的参数生成的，因此模型应该捕捉的所有形态特征已经知道。这使得我们能够有效地评估模型在大数据集下能够很好地捕捉这些特征。用户可以指定不同的细胞类型，每个类型都有自己大小、颜色和偏心率的分布，以及为每个细胞生成的多个形状。

为了展示其效用，我们在本研究中设计了一个二元分类数据集，每个类都包含正常3D细胞（表示为球体）和异常3D细胞（表示为更偏心的球体）的不同分布。偏心性对应于一个数学概念，即球体被拉伸的程度。正常细胞的偏心性是从N(0.25,0.052)分布中抽取的，而异常细胞的偏心性则遵循N(0.7,0.052)。

类别1的样本包含90%的正常细胞和10%的异常细胞，类别2的样本包含66%的正常细胞和34%的异常细胞。最后，空心球体的厚度设置为3像素。每个样本的维度是512x1024x1024体素。对于每个类，生成了50个随机图像，每个图像包含500个细胞。模拟数据集的示例可以在图S1中找到。

在类似的情境下，我们创建了一个模拟生存数据集，以测试网络的队列分层性能。为了与OTLS和microCT数据集任务保持一致，我们定义了两个风险组，每个组有n = 75。我们使用与模拟分类数据集相同的数据生成规范以简化。相应的生存时间点是通过以下方式生成的：71,109首先，将N(1.0,0.12)（类别1）和N(2.8,0.12)（类别2）生成的风险分数分配给样本。

基于这些风险分数，使用Cox-Exponential模型生成生存时间，风险分数越低（高）的样本可能生成更长的（短）生存时间。最后，通过生成一个截止点并截止所有超过截止点的生存时间，对生存时间进行截断，截止点被选择以大约30%的样本被截断。

5-2：微CT扫描

使用Carl Zeiss, Inc.（加利福尼亚州普莱森顿，美国）的Versa 620 X射线显微镜对一系列福尔马林固定和石蜡包埋（FFPE）癌症组织块进行了微CT扫描。每个未染色的FFPE样本附着在一个塑料匣上以进行患者识别，这需要移除以避免塑料材料吸收X射线并扭曲图像对比度。我们通过加热整个块部分熔化石蜡，这使得用剃刀片可以轻易地从样本上取下塑料匣。分离的FFPE块被垂直安装在一个定制的钢制样品架上，并放置在扫描台上，以在整个扫描过程中最小化样本的热振动。

对于每个样本，进行了两种不同分辨率的扫描。首先，进行了低分辨率（22.04 mm/voxel）的快速扫描，以较大的视野捕获整个石蜡块，然后缩放到肿瘤特定位点以在高分辨率（3.98 mm/voxel）下捕获形态细节（Scout和Zoom协议）。在高分辨率扫描中，使用了一个微焦点X射线源，管电压为40 kV，灯丝电流为75 mA（3瓦特）。整个样本总共捕获了4,501个投影图像，样本每投影旋转0.08度（360度/4,501），在16位3,064像素x 1,928像素的平板探测器上，生成了一组1,300张2D图像（深度维度）。每个投影有15个帧进行平均，每帧曝光时间为0.5秒以提高信噪比（每个投影总曝光时间为7.5秒），探测器记录每个体素的原始灰度强度。每个样本的总扫描时间为11.5小时（低分辨率扫描时间为0.5小时，高分辨率扫描时间为11小时），视野为5.2mm x 12.8mm x 7.68mm（1,300 x 3,200 x 1,920体素）。

所有图像的灰度强度首先使用蜡控制块（无肿瘤）进行缩放，然后使用Zeiss Reconstructor软件v16（Carl Zeiss, Inc., Pleasanton, California, USA）进行重建。在缩放过程中，空气的密度被处理为10 g/cc3，平均强度为17,030，石蜡材料（100%蜡）的密度被处理为27 g/cc3，平均密度为44,250。密度值被选择以将噪声提升到远远超过最小值0，并将组织材料的强度保持在可能的最大值65,535（= 2^16 - 1）以下。没有对数据进行额外的过滤操作。

5-3：OTLS

对于每位患者，确定了与泌尿科医生在标准六分区和12芯活检程序中针对的六个前列腺区域对应的FFPE组织块。从每个块中提取了一个直径大约1毫米的模拟核心针吸活检，每个活检的 tissue 体积大约为1x1x1x15mm。模拟活检首先在二甲苯和乙醇中脱蜡，然后使用T&E染色方案进行染色，该方案作为hematoxylin和eosin（H&E）染色的荧光类似物。

具体来说，这些活检首先用100%乙醇洗涤两次，每次1小时，以去除任何多余的二甲苯，然后用70%乙醇处理一小时以部分重新水化。然后，每个活检被放置在一个0.5 mL的Eppendorf管中，并在室温下用70%乙醇（pH 4）染色48小时，使用Eosin-Y和To-PRO-3 Iodide的1:200稀释和1:500稀释。这些活检然后用100%乙醇脱水两次，每次2小时。最后，通过将活检放置在乙酸乙酯中8小时来光学清除。详细的分步协议和故障排除指南可以在Bishop等人的文献中找到。

使用定制OTLS显微镜24来成像每个活检，覆盖2个波长通道（激光波长为488nm和638nm）。乙酸乙酯用作浸入介质，并使用多通道激光系统提供照明。组织在近奈奎斯特采样率下成像，大约为0.44mm/voxel的分辨率，每个波长通道的体积成像时间为0.5分钟/mm3组织。

为了高效的计算处理，我们通过23的因子下采样数据到0.94mm/voxel。每个体积图像约为320x520x9,500 voxels。结果数据以16位无符号整数保存。在检查444个活检（每位患者6个，共74名患者）的3D OTLS图像时，一名病理学家（L.D.T.）选择了171个含有肿瘤的活检（每位患者1到5个含有癌症的活检）进行研究。

六、体积图像预处理

6-1：体积分割

我们将体积图像视为一系列2D图像，并依次对堆栈进行组织分割。

首先，为每个图像计算平均体素强度，以识别包含空气的子集堆栈，并将低于用户定义阈值的图像在分割前忽略。剩余堆栈中的图像然后转换为灰度颜色空间，通过中值模糊来抑制边缘伪影，并以特定模态的阈值进行二值化。

基于二值化图像识别组织轮廓，组织轮廓堆栈作为体积输入的轮廓。删除面积低于一定阈值的图像，以确保每个图像中存在足够的组织。

6-2：3D patching & 2D patching

分割后的体积被分割成一系列较小的2D图像块（来自平面的堆叠）或3D图像块（来自立方体的堆叠），以便于对体积进行直接的计算处理。图像块的大小和块之间的重叠被选择，以确保每个图像块内部覆盖足够的上下文，并且在每个维度上存在足够的图像块。

对于OTLS，我们使用3D图像块大小为128x128x64体素（x 128x128x64mm）。沿深度维度的重叠为32体素，以确保沿深度维度存在足够的图像块，因为该维度仅由320体素组成。

对于microCT，我们使用128x128x32体素（x 512x512x128mm）的3D图像块，不使用任何重叠，因为组织的大小允许在所有维度上存在足够的图像块。对于2D图像块，我们使用非重叠的128x128像素（x 128x128mm for OTLS和512x512mm for microCT）图像块，适用于两种模态。

对于3D patching，需要一个参考平面，该平面用于从深度维度开始分割操作。我们使用面积最大的平面（通过体积分割步骤中获得的组织轮廓识别）作为参考，并在组织轮廓内计算二维图像块坐标。然后，从参考平面开始，沿深度维度的两个方向进行3D patching。在参考平面上计算的两维坐标在整个体积中使用。完成后，如果一个3D图像块的体积（面积）超过50%为背景，我们将删除该3D图像块，以确保每个图像块包含足够的组织。关于图像块尺寸的更多信息可以在表S2中找到。

在分割后，每个图像块中的强度被裁剪到模态特定的下限和上限阈值，然后归一化到[0,1]范围，以便进行下一特征编码步骤。对于microCT，下限阈值设置为25,000强度值，上限阈值设置为每个组织体积强度值的前1%。对于OTLS，下限阈值设置为100，上限阈值设置为每个组织体积强度值的前1%。对于OTLS，我们另外将归一化的强度值取反。

七、临床验证

7-1：OTLS队列

我们组织了一个读者研究，通过招募6名认证的泌尿生殖病理学家，对OTLS队列进行Gleason分级。对于每个假彩色OTLS 3D活检图像，一名经验丰富的病理学家（L.D.T）预先选择了包含癌症证据的区域。然后将该区域裁剪到大小为1,024 x 2,000像素到1,024 x 8,000像素之间，采样间距为1mm/像素。

总共进行了两轮读者研究。

在第一轮中，从每个裁剪的活检的中心层面沿深度维度取出3个切片，中心±20mm，以模仿标准临床实践，即对每个活检进行3个H&E染色水平的检查（在层面之间丢弃5个切片或大约20mm）。每位病理学家同时提供活检的3张图像，并被要求提供以下诊断信息：主要和次要Gleason模式、Gleason模式4的百分比以及是否存在筛状结构。

在第二轮中，在2个月的洗脱期之后进行，每位病理学家被要求提供相同的诊断信息。整个读者研究是通过一个定制的web工具（GroundTruthLab）进行的，该工具允许病理学家自由滚动查看每个活检的图像切片。

考虑到Gleason分级诊断，我们通过使用线性逻辑回归与二元5年BCR状态进行比较，评估其预后价值。

具体来说，我们使用一个one-hot编码方案，其中Gleason分级被表示为4维二进制向量，例如，[1,0,0,0]代表3+3级，[0,1,0,0]代表3+4级，依此类推。这使得不同的分级对BCR状态有不同的影响。

对于有多个含有癌症的活检的患者，我们采取最大Gleason分级的活检来代表患者，符合标准做法。我们采用5折交叉验证，其中回归模型在队列的80%上进行训练，并在剩余20%的队列上计算BCR的预测概率。

预测结果在折叠间汇总，并计算队列级别的AUC。为了与其他所有实验保持一致，我们重复这个过程5次，以确保特定的数据分割不被偏爱。我们观察到结果对逻辑回归中L2正则化惩罚的不同选择是稳健的。

7-2：微CT队列

对于每位患者，我们数字化了来自接受微CT扫描的同一块中的H&E切片。

H&E切片以10倍放大率（1mm/像素）的标准临床实践进行扫描，作为全切片图像（WSI）。WSI被分割并打上256x256像素的图像块，不重叠。我们对这组2D WSI图像块应用TriPath - 一个2D特征编码器（Resnet50）将每个2D WSI图像块编码为一个1,024维的特征。然后，像其他TriPath实验一样，对这组图像块使用基于注意力的聚合模块进行处理，并得出患者级别的预测风险。

我们还重复了相同的程序，使用WSI内的一个ROI（4x3x4mm），以匹配微CT图像的侧向视场，以最小化H&E和微CT数据集之间不同的视场可能带来的潜在偏差。

八、可视化

8-1：伪彩色输入

对于OTLS数据集，我们使用一个伪彩色模块80，该模块利用原始OTLS数据的物理模型（Beer-Lambert定律光吸收）来呈现hematoxylin和eosin的外观。

8-2：集成梯度热图

为了生成精细的3D IG热图，我们使用75%重叠在2D平面方向和50%沿深度方向的重叠的3D立方体图像块，以减少块状效应。为了计算给定区域的IG分数，覆盖该区域的原始IG分数（在标准化之前）被累加，然后除以重叠的图像块数量。这些IG分数然后按照前文所述的方式进行标准化。

然后，将一个冷暖色色图应用于标准化后的IG分数，红色和蓝色分别表示正负IG值，然后将该热图以透明度值为0.4覆盖在原始体积图像上。IG热图显示在图2E、3E、S5和S6中。