文献介绍
文献题目: 通过深度神经网络联合建模多个切片构建3D整体生物体空间图谱
研究团队: 杨灿(香港科技大学)、吴若昊(香港科技大学)
发表时间: 2023-10-19
发表期刊: Nature Machine Intelligence
影响因子: 23.8(2023年)
DOI: 10.1038/s42256-023-00734-1
摘要
空间转录组学 (ST) 技术正在彻底改变探索组织空间结构的方式。目前,ST 数据分析通常仅限于单个二维 (2D) 组织切片,限制了我们理解 3D 空间中发生的生物过程的能力。在这里,作者介绍了 STitch3D,这是一个集成多个 ST 切片来重建 3D 细胞结构的统一框架。通过联合建模多个切片并将其与单细胞 RNA 测序数据集成,STitch3D 可同时识别具有一致基因表达水平的 3D 空间区域,并揭示 3D 细胞类型分布。STitch3D 可区分切片之间的生物变异和批次效应,并有效地借用切片之间的信息来组装强大的 3D 模型。通过综合实验,作者展示了 STitch3D 在构建综合 3D 架构方面的性能,该架构允许对整个组织区域甚至整个生物体进行 3D 分析。 STitch3D 的输出可用于多个下游任务,从而能够全面了解生物系统。
前言
空间转录组学 (ST) 技术能够在完整组织中进行高通量基因表达谱分析。最近,已积累了包含组织中多个并行二维 (2D) 切片的数据集,但大多数现有工具仅提供单个切片的分析。器官在 3D 空间中组织为复杂的结构,生物过程很少发生在单个 2D 平面中。例如,形态发生素梯度在 3D 空间中传播,以指导细胞类型分化和形态发生,以在胚胎发生过程中组织成功能器官。仅拥有二维视图极大地限制了我们对生物信号和过程、它们如何影响不同细胞类型的组织以及细胞如何相互作用的解释。
每个切片都表征 2D 转录组景观,多个切片的联合建模提供了描绘生物系统 3D 图片的机会。为此,需要进行额外的努力,对多个切片进行联合分析,以重建详细的 3D 组织结构。具体来说,以下两个 3D 分析任务是基本的。第一个是识别生物可解释的 3D 空间区域,其中的点具有相似的基因表达,以揭示组织结构。然后,结果可以进行下游分析,例如通过 3D 空间模式检测区域相关基因。第二个任务是通过整合多个 ST 切片和单细胞 RNA 测序 (scRNA-seq) 图谱来推断 3D 细粒度细胞类型分布。现有的新一代测序 ST 技术可以检测空间 spot 内转录组范围内的基因表达,但每个 spot 通常包含多个细胞,导致分辨率相对较低。利用 scRNA-seq 图谱的信息,3D 细胞类型反卷积任务分解空间 spot 中的细胞类型混合物,从而实现更高分辨率的 3D 重建,从而深入了解特定细胞类型丰富区域的生物学功能。
在本文中,作者介绍了 STitch3D,用于使用多个切片来表征 3D 组织结构。它在统一框架中解决上述两个 3D 分析任务,以提供 3D 组织架构的补充视图。通过有效地对多个切片的基因表达和空间位置进行建模,STitch3D 可以区分切片之间的生物变异和批次效应,并整合切片之间的信息以组装强大的 3D 组织模型。基准测试研究和真实数据示例说明了 STitch3D 最先进的准确性以及跨多个切片借用信息的能力。现有的 ST 工具大多数是为通过执行空间域检测任务或细胞类型反卷积任务来分析单个切片而开发的,与此相比,STitch3D 通过准确的 3D 域检测和 3D 细胞类型反卷积结果实现细胞组织结构的 3D 视图。使用不同的数据集,作者展示了 STitch3D 在组织尺度甚至整个生物体上的 3D 重建能力。STitch3D 的输出可应用于各种下游任务,显示出其多功能性。STitch3D 是一个公开可用的软件包 (https://github.com/YangLabHKUST/STitch3D
),并作为 ST 研究的高效可靠的工具。
研究结果
1. 方法概述
STitch3D 是一种基于深度学习的方法,它使用多个 2D ST 切片来重建 3D 组织结构(Fig. 1)。STitch3D 的输入是多个 ST 切片和匹配的 scRNA-seq 参考。预处理步骤包括通过对齐切片来构建 3D 空间点坐标,以及构建全局 3D 邻域图。完成这些步骤后,STitch3D 经过训练以集成所有切片的信息。引入共享潜在空间来提取有意义的生物变异并促进消除批次效应。在潜在空间中,每个 spot 都有其表示,用于联合执行空间域识别和细胞类型反卷积任务。
Figure 1. STitch3D 概述
a. 来自多个 ST 组织切片的原始数据,以及来自参考 scRNA-seq 数据集的细胞类型特异性基因表达谱,被视为 STitch3D 的输入。
b. STitch3D 的预处理步骤包括对齐来自不同组织切片的 spots 以构建 spots 的 3D 位置,以及构建全局 3D graph。STitch3D 的主要模型结合了这些结构来执行 3D 空间域识别和 3D 细胞类型反卷积的表征学习。
c. STitch3D 输出 3D 空间区域识别结果以及组织中不同细胞类型的 3D 空间分布的估计。STitch3D 还支持多种下游分析,包括空间轨迹推断、低质量基因表达测量的去噪、虚拟组织切片的生成以及具有 3D 空间表达模式的基因识别。
d. STitch3D 联合建模多个切片,并利用基于图注意力的神经网络来学习具有 3D 空间信息的 spots 和细胞类型比例的潜在表示。
具体来说,STitch3D 通过利用 spots 的 3D 邻域图的基于图注意力的网络,将来自多个切片的 spots 的基因表达和空间信息映射到共享潜在空间中。引入另一个神经网络来从潜在表示推断细胞类型比例。通过有效的批次效应模型来整合多个切片,STitch3D 经过训练,可以通过将估计的细胞类型比例与细胞类型特异性基因表达谱相结合来重建 ST 基因表达。训练后,STitch3D 学习空间信息 spot 表示和细胞类型比例。这些表示用于通过聚类算法进行 3D 空间域识别,而细胞类型比例有助于恢复 3D 细胞类型分布。通过这些输出,STitch3D 可以实现各种下游分析。详细信息包含在方法中。
2. 基准测试研究
作者首先使用人类背外侧前额皮质 (DLPFC) 数据集评估了 STitch3D 的空间域检测性能。最初的研究中注释了六层(L1-L6)和白质(WM)。当应用于每个单个切片时,STitch3D 稳定地恢复了层结构。当应用于多切片分析时,STitch3D 在各个切片上产生一致的结果,促进 3D 重建(Supplementary Fig. 1)。与层注释相比,STitch3D 的结果具有相似的模式,表明其可靠性(Fig. 2a,b )。对于定量评估,作者将手动注释视为 ground truth,并使用调整后的兰德指数 (ARI) 评估准确性。与单切片结果相比,STitch3D 的多切片结果获得了更高的 ARI 分数,这表明 STitch3D 能够跨切片借用信息(Fig. 2e )。作者将 STitch3D 与包括 BayesSpace、SpaGCN 和 STAGATE 在内的空间域识别方法进行了比较。与 STitch3D 不同,这些方法在检测皮质层方面表现出不太令人满意的能力(Fig. 2e and Supplementary Fig. 1)。STitch3D 的 3D 空间域识别的优势在于其有效整合了共享潜在空间中的切片(Fig. 2d)。潜在表征在所有切片上显示出一致的模式,轨迹从 WM 和 L6 到 L1(Supplementary Fig. 2)。恢复的空间轨迹对应于皮质生成,在此期间皮质神经元从内层到外层相继诞生。
Figure 2. STitch3D 和其他最先进方法的基准测试
a. STitch3D 对 DLPFC 数据的 3D 空间域检测结果。
b. 手动注释的 3D 可视化。
c. STitch3D 重建的 Ex_8_L5_6 神经元亚型的 3D 空间分布。比例值大于 20% 的 spots 显示为紫色,透明度较低表示比例较高。
d. 作者使用 UMAP 图可视化了 STitch3D 学习到的共享潜在空间中 spots 的表示,按切片索引、STitch3D 分配的域标签、手动注释进行着色。
e. 空间域检测方法的 ARI 分数。
f. 用十种区域特异性神经元亚型测量的细胞类型反卷积方法的 AUC 分数的小提琴图。点表示中值,条形表示第 25 个百分位数和第 75 个百分位数之间的范围,基于 n = 40 个点计算。
g. 基于 seqFISH+ 数据的模拟研究中比较方法的总体准确度得分。
h. 基于 STARmap 数据的模拟研究中比较方法的总体准确度得分。 i. 基于 MERFISH 数据的模拟研究中比较方法的总体准确度得分。
接下来,作者评估了 STitch3D 的细胞类型反卷积性能。作者使用了相应的细胞类型参考,其中注释了十种兴奋性神经元亚型。每个亚型的层特异性是根据层标记基因确定的。作者根据受试者工作特征(ROC)分析评估了细胞类型反卷积的可靠性,其中使用神经元亚型的估计比例来恢复层特异性。ROC 曲线下面积 (AUC) 值越高,表明性能越可靠。与单切片结果相比,STitch3D 在多切片分析中获得了更高的 AUC 分数(Fig. 2f )。以名为 Ex_8_L5_6 的神经元亚型为例,该亚型在第 5-6 层标记基因具有高表达,STitch3D 在第 5-6 层恢复了其明显的富集(Supplementary Figs. 3 and 4)。与定量评估一致,与单切片分析相比,在 STitch3D 的多切片结果中观察到第 1-4 层中 Ex_8_L5_6 比例下降且噪声较小(Supplementary Fig. 4)。STitch3D 的多切片结果可以清晰地表征神经元亚型的 3D 空间分布(Fig. 2c )。作者还将 STitch3D 与细胞类型反卷积方法,例如 RCTD、Cell2location、Tangram、DestVI 和 CARD 进行了比较。与 STitch3D 相比,这些方法显示出较低的 AUC 分数(Fig. 2f)。其中,Cell2location 还允许进行多切片分析。然而,单切片和多切片实验中相似的 AUC 分数表明,它跨切片借用信息的能力有限。
根据基准研究,作者还对细胞类型反卷积方法进行了全面比较。作者在三种不同的场景中模拟了 ST 切片。由于模拟数据集中的真实细胞类型比例已知,作者使用总体准确度得分定量测量结果。Methods and Supplementary Section 1 提供了详细信息。
在第一个场景中,使用小鼠皮层 seqFISH+ 数据集通过将细胞网格化成 spots 来创建模拟 ST 切片(Supplemen-tary Fig. 5a)。通过相应的单细胞参考,STitch3D 在所有方法中获得了最高的总体准确度得分(Fig. 2g and Supplementary Fig. 5b)。使用该数据集,作者还验证了 STitch3D 的基因填充准确性(Supplementary Fig. 5c)。与同样能够进行基因填充的 Tangram 相比,STitch3D 在所有三个测试基因上都取得了更好的分数(Supplementary Fig. 5d)。在第二种情况下,作者通过添加独立噪声来模拟来自小鼠视觉皮层 STARmap slice 的多个切片作为技术重复(Supplementary Fig. 6a)。在单切片实验中,STitch3D 是最好的两种方法之一(Fig. 2h )。当纳入更多切片时,STitch3D 显示出稳定提高的准确性,当纳入更多切片时,其结果的噪音变得更少(Supplementary Fig. 6b)。在第三种情况中,作者使用了小鼠下丘脑视前区的多个 MERFISH 切片(Supplementary Fig. 7)。在比较的方法中,STitch3D 显示出单切片的最佳性能(Bregma −0.24; Fig. 2i)。当联合分析三个相邻切片(Bregma −0.29, −0.24, −0.19)时,STitch3D 取得了更高的总体得分。使用其他两组三个相邻切片进行类似的分析,显示出一致的结果(Supplementary Fig. 8)。
除了上述实验之外,STitch3D 在应用于高分辨率数据集时也表现出良好的性能,表明其高度灵活性和广泛的适用性(Supplementary Section 7 and Supplementary Figs. 9-11)。
总之,通过上述实验,作者展示了 STitch3D 在单切片分析中最先进的性能。更重要的是,STitch3D 的多切片分析进一步使其能够以更高的精度获得一致的结果,为 3D 重建奠定基础。
3. 成年小鼠大脑的重建
在本节中,作者将演示 STitch3D 可以准确地重建复杂的 3D 成年小鼠大脑。作者使用了横跨前后 (AP) 轴的 35 个冠状切片和包含 59 种细胞类型的细胞类型参考。这里的 3D 重建任务具有挑战性,因为它需要方法来解释数十个切片中的批次效应,并区分细微的细胞亚型之间的细微差异。
作者在验证切片对齐的正确性后应用了 STitch3D(Supplementary Section 3 and Supplementary Figs. 12--14)。STitch3D 根据集成 spot 表示将大脑划分为组织良好的 3D 域(Supplementary Fig. 15a)。例如,标记为 cluster 1、2 和 5 的三个层结构域形成了同皮质区域(Fig. 3a--c and Supplementary Fig. 16)。这些 clusters 在轨迹推断中表现出很强的连通性(Supplementary Fig. 15b)。这些 clusters 内的拟时序分析显示所有切片的皮质生成具有一致的模式(Fig. 3j)。cluster 3 和 9 对应于海马和丘脑区域,它们沿 AP 轴变化,表明 STitch3D 能够保留切片之间的生物变异(Supplementary Figs. 17d,e and 18)。通过这个例子,作者还验证了 STitch3D 批次效应建模的有效性。当作者将其从 STitch3D 中删除时,切片的集成度较差,导致切片之间的空间域检测不一致(Supplementary Fig. 17c--e)。
Figure 3. 成年小鼠大脑的 3D 重建
a. STitch3D 空间域检测结果中的 clusters 1、2 和 5 在 2D ST 切片上可视化。
bc. 使用 ICP (b) 和 Allen 小鼠大脑通用坐标框架 (CCFv3) (c) 在 STitch3D 对齐 3D 坐标中对 clusters 1、2 和 5 进行 3D 可视化。
d. 在 2D ST 切片上可视化的 STitch3D 细胞类型反卷积结果中四种海马神经元类型的估计比例。透明度越低表示比例越高。
ef. 使用 ICP (e) 和 CCFv3 (f) 在 STitch3D 对齐的 3D 坐标中对四种海马神经元类型的比例进行 3D 可视化。显示比例值大于 20% 的 spots。
g. 用六种区域细胞类型测量的比较方法的 AUC 分数。水平虚线表示 STitch3D 的分数。
hi. z-scores 中基因 Tle4 (h) 和 Rell1 (i) 的去噪和原始表达水平。
j. 皮质层(clusters 1、2、5)之间的空间轨迹,在六个 2D 切片上可视化拟时序。
k. 包含虚拟矢状切片的平面的可视化。
l. 具有空间区域的虚拟矢状切片,以及四种海马神经元类型的比例。
利用参考文献中的细粒度细胞类型特征,STitch3D 揭示了 3D 细胞类型分布。例如,它准确地重建了海马 CA 和 DG 中四种神经元类型的分布(Fig. 3e,f )。这些分布与 Allen Reference Atlas -- Mouse Brain 中注释的海马区 CA1、CA2、CA3 和 DG 正确匹配(Fig. 3d and Supplementary Fig. 19)。STitch3D 还捕获了兴奋性神经元在皮质层(Supplementary Fig. 20)和其他主要区域亚型(Supplementary Fig. 21)的分布。为了对方法之间进行定量比较,作者使用四种海马神经元类型的估计比例来恢复 CA1、CA2、CA3 和 DG 区域,并使用 ROC 分析将结果与区域注释进行比较。对第 2-3 层和第 5-6 层的两种皮质神经元类型进行了类似的分析(Fig. 3g)。 STitch3D 的单切片分析已经显示出与其他方法相比总体上更好的 AUC 分数。通过跨切片借用信息,STitch3D 在多切片分析中实现了更高的准确性(Supplementary Fig. 22)。作者在单切片和多切片分析中可视化了估计的 3D 细胞类型分布。通过 STitch3D 的单切片分析估计的第 5-6 层和 DG1 兴奋性神经元亚型的细胞类型分布显示注释区域之外的噪声散射模式(Supplementary Fig. 23c,d)。相比之下,这些细胞类型明显集中在多层分析中的预期区域(Supplementary Fig. 23a,b)。作者还将输入切片的数量从 20 更改为 35,以研究其影响,并观察 STitch3D 在不同切片数量下令人满意的 3D 重建。此外,它在不同的数据质量下表现出了强大的性能。更多细节包含在 Supplementary Sections 4 and 6 and Supplementary Figs. 24--28 中。
ST 研究中的一个问题是基因表达测量中存在大量噪音。STitch3D 通过将估计的细胞类型比例与参考中的细胞类型特征相结合来实现基因去噪。作者用基因 Tle4 和 Rell1 演示了这一功能,它们在原始数据中具有噪声模式。应用 STitch3D 后,基因表达模式变得清晰,并与 Allen Mouse Brain Atlas 一致(Fig. 3h,i and Supplementary Fig. 29),验证了 STitch3D 的可靠性。
STitch3D 的 3D 重建结果进一步提供了原始切片未捕获的组织的辅助视图。通过使用冠状切片重建 3D 模型,作者通过引入平行于 AP 轴的平面并将相邻点投影到其上来创建虚拟矢状切片(Fig. 3k )。通过识别的空间域和估计的细胞类型比例,虚拟切片正确地揭示了矢状脑结构(Fig. 3l),显示出与 Allen Reference Atlas(Supplementary Fig. 30)中的矢状切片参考一致的模式。
4. 重建人类心脏的发育
作者将 STitch3D 应用于人类心脏 ST 数据集,包括在受孕后 4.5-5、6.5 和 9 周 (PCWs) 收集的三组切片。作者首先关注 6.5-PCW 人类心脏,其中 STitch3D 在 9 个切片中一致地识别出了 5 个 clusters(Fig. 4a,b )。流出道 (OFT) 和心房分别由 clusters 3 和 4 检测到。Cluster 1,2 和 5 确定了不同的心室区域。对于三个心室 clusters,作者进行了基因功能(GO)分析来表征它们的功能(Fig. 4d)。Cluster 1 对应于小梁心室心肌区域。其最丰富的 GO 术语主要与细胞呼吸有关。Cluster 2 对应致密的心室心肌和心外膜,并且富含与心脏发育和心脏收缩相关的过程。Cluster 5 对应于心室中包含空腔的区域,并且富含气体传输项和细胞对金属离子的反应。从 clusters 5、1 到 cluster 2 的推断轨迹显示了早期小梁心室心肌形成心室心肌壁的发育过程(Supplementary Fig. 31)。
Figure 4. 人类心脏发育的 3D 重建
a. STitch3D 的空间域检测结果在 6.5-PCW 心脏的 2D ST 切片上可视化。
b. 在 STitch3D 的 6.5-PCW 切片的对齐 3D 坐标以及 Carnegie-stage-18 embryo (CS18-6524) 的心脏模型中可视化检测到的域。
c. STitch3D 估计的空间域中细胞类型的平均比例。
d. 6.5-PCW 心脏空间域的 GO 分析。
e. 6.5-PCW 心脏 3D 图谱中细胞类型的空间共定位。
f. STitch3D 估计的 6.5-PCW 心脏中 ACM 和 VCM 的 3D 空间分布。显示比例值大于 20% 的点。
gh. 6.5-PCW 心脏(g)、9-PCW 心脏(h,左)和 4.5-5-PCW 心脏(h,右)中 EPDC、SMCs 和成纤维细胞样细胞的 3D 空间分布。显示比例值大于 20% 的点。
i. 心室中 ACM、心脏神经嵴细胞和 SMC 的平均比例,通过比较方法估计。水平虚线表示 0.01。
j. 估计细胞类型比例与标记基因表达模式之间的皮尔逊相关性。
k. 通过饼图可视化的 6.5-PCW 心脏切片中估计的细胞类型比例。
l-n. IGF2 (l)、ACTB (m) 和 FOS (n) 基因的空间表达模式。
STitch3D 还可以准确生成 3D 细胞类型分布。在三种心肌细胞亚型中,心房心肌细胞(ACMs)和心室心肌细胞(VCMs)被正确地定位于心房和心室(Fig. 4c,f,k )。在心房和心室中均发现富含 Myoz2 的心肌细胞(Fig. 4c,k ),这与原始研究一致。此外,OFT 中显示了平滑肌细胞 (SMC) 的富集(Fig. 4c,g,k ),并通过基因标记 MYH11 进行了验证(Supplementary Fig. 32)。根据基因标记 TBX18 的支持,正确地发现 6.5-PCW 心脏被心外膜衍生细胞包围(EPDC;Fig. 4g and Supplementary Fig. 32)。对于细胞类型共定位,ACMs 和 VCMs 分布在不同的区域,但都与富含 Myoz2 的心肌细胞共定位(Fig. 4e)。虽然两者都是内皮细胞类型,但毛细血管内皮与 VCM 共定位,而内皮/周细胞主要与 EPDCs 共定位。通过模型扩展,STitch3D 还能够将单个细胞映射到心脏中的空间位置(Supple-mentary Section 8 and Supplementary Fig. 33)。
为了定量评估,根据原研究中的单细胞分析,发现心室中不存在 ACMs、心脏神经嵴细胞和 SMCs,作为评估结果可靠性的指南。与有时高估心室中这三种细胞类型比例的其他方法相比,STitch3D 产生了合理的细胞类型反卷积结果(Fig. 4i,k and Supplementary Fig. 34)。此外,最初的研究分别鉴定了 ACMs、VCMs 和富含 Myoz2 的心肌细胞的标记基因 MYH6、MYH7 和 MYOZ2。DestVI 估计的 ACMs 和 VCMs 细胞类型比例与标记基因表达不太一致,如较低的 Pearson 相关评分所示(Fig. 4j)。CARD 显示富含 Myoz2 的心肌细胞比例不太令人满意。与其他方法相比,STitch3D 产生了更准确的估计。
在验证了 STitch3D 重建的 6.5-PCW 人类心脏的可靠性后,作者将 STitch3D 应用于 4.5-5-PCW 和 9-PCW 心脏。作者观察到所有阶段的 ACMs、VCM、SMC 和成纤维细胞样细胞的相似分布模式(Fig. 4k and Supplementary Fig. 35)。对于详细的时间差异,发现 EPDCs 在 6.5-和 9-PCW 心脏表面上富集,但在 4.5-5-PCW 心脏表面上表现出相对较低的密度(Fig. 4g,h and Supplementary Figs. 32, 36 and 37)。与晚期相比,4.5-5-PCW 心脏在其周围层呈现出更高密度的心外膜细胞。接下来,作者研究了 6.5-PCW 心脏和 9-PCW 心脏之间的差异。作者对 STitch3D 检测到的 EPDC 富集点的基因表达进行了 t 检验,发现 6.5-PCW 心脏中 EPDC 富集点的 IGF2 基因表达水平较高(Fig. 4l )。在对 SMC 富集点的类似分析中,基因 ACTB 和 FOS 分别在 6.5-PCW 和 9-PCW 心脏中显示出较高的表达水平(Fig. 4m,n)。使用 STitch3D 识别的这些细微的时间差异有助于更好地表征人类心脏发生过程。
5. HER2 阳性乳腺癌数据分析
除了正常组织数据外,作者还将 STitch3D 应用于耻垢分枝杆菌刺激后的小鼠淋巴结数据以及伤口愈合过程中的小鼠皮肤数据,以证明其捕获细胞水平对扰动反应的能力(Supplementary Section 5 and Supplementary Figs. 38 and 39)。在本节中,作者分析了 HER2 阳性乳腺肿瘤数据,以显示 STitch3D 与异常组织中的生物学发现相关的能力。
将 STitch3D 应用到 8 名患者的肿瘤样本后,计算了全局细胞类型共定位。作者在所有样本中发现了一些一致的结果,例如,两种癌症相关成纤维细胞之间的负空间相关性(CAF;Supplementary Fig. 40)。此外,间充质干细胞和炎症样 CAFs(MSC/iCAF 样)与包括 B 细胞、T 细胞和浆细胞在内的免疫细胞共定位,与肌成纤维细胞样 CAF(myCAF 样)相比,显示出不同的模式。
然后作者重点关注患者 E 的结果。在三个切片中,第一个切片由病理学家注释。使用 STitch3D,三个切片得到了很好的整合(Fig. 5a ),这使作者能够将病理学家的注释转移到未标记的切片上(Fig. 5b )。STitch3D 还识别了六个空间区域(Fig. 5a,d )。具体来说,clusters 2-5 恢复了侵袭性癌症区域,STitch3D 确实发现与其他区域相比,这些 clusters 中的癌症上皮细胞富集(Fig. 5e,f )。癌上皮细胞比例与乳腺癌标志物 ERBB2 表达之间的高度相关性支持了 STitch3D 的结果(Fig. 5c )。此外,两种 CAF 亚型的分布呈现出不同的分布模式(Fig. 5e ),这与其负细胞类型比例相关性一致。接下来,作者研究了癌症区域的异质性。cluster 4 和 cluster 5 均显示出癌上皮细胞的富集。然而,cluster 4 显示出较高的 B 细胞和 T 细胞富集度,而 cluster 5 显示出较高的癌上皮细胞富集度(Fig. 5f )。作者对这些 clusters 进行了差异表达分析,然后进行了 GO 分析(Fig. 5g,h)。cluster 4 显示了免疫系统过程的富集,这验证了 STitch3D 识别的免疫细胞富集。在第 5 组中,作者观察到对内质网应激的反应丰富,这在乳腺癌进展中发挥着重要作用。cluster 5 还显示了细胞凋亡过程的富集调节。丰富的生物过程的差异表明这两个区域之间的差异,突出了它们各自对比的免疫/基质微环境。
Figure 5. STitch3D 在乳腺癌数据中的应用
a. STitch3D 学习到的潜在点表示的 UMAP 图,由 cluster 标签和切片索引着色。
b. 病理学家对 slice 1 的注释,并使用 STitch3D 的学习表示转移 slice 2 和 3 的注释。
c. 癌上皮细胞的估计比例与乳腺癌标记基因 ERBB2 模式之间的 Pearson 相关性。
d. STitch3D 的 3D 空间域检测结果。
e. STitch3D 重建的癌上皮细胞和两种 CAF 亚型的 3D 空间分布。
f. 所有 clusters 中不同细胞类型的富集或耗尽。
gh. clusters 4 (g) 和 5 (h) 的值得注意的 GO 术语。
6. 果蝇胚胎全生物图谱的建立
作者应用 STitch3D 重建了 3D 果蝇胚胎模型,以证明其重建 3D 整个生物体空间图谱的能力。作者分析了 Stereo-seq 分析的 16-18 小时胚胎,其中空间 bins 是通过在原始研究中合并 20×20 个 DNA 纳米球构建的。为了应用 STitch3D,作者基于同一发育阶段的 scRNA-seq 果蝇胚胎图谱构建了细胞类型参考。细胞类型注释基于伯克利果蝇基因组计划 (BDGP) 和 FlyBase 提供的标记基因(Supplementary Table 1 and Supplementary Figs. 41 and 42)。
由于果蝇胚胎 ST 数据高度稀疏,这项任务具有挑战性(Supplementary Fig. 43)。尽管存在困难,STitch3D 通过整合 ST 和 scRNA-seq 数据集成功重建了果蝇胚胎(Fig. 6 and Supplemen-tary Figs. 44--46)。例如,在 STitch3D 的重建中,中枢神经系统(CNS)点组装成一个空间结构,概括了胚胎 CNS 的形态和位置(Fig. 6a )。该结果也得到了 CNS 特异性标记基因 Obp44a 的验证(Fig. 6b )。另一个例子是重建的唾液腺,它再次完全再现了唾液腺的形态和位置(Fig. 6d ),并显示出与唾液腺特异性标记基因 CG14453 相似的模式(Fig. 6e )。其他细胞类型反卷积方法比较,STitch3D 在区域细胞类型分布和标记基因之间实现了最高的相关性(Fig. 6c,f )。作者还将 STitch3D 重建的 CNS 和唾液腺区域与原始研究注释的区域进行了比较,发现 STitch3D 的结果与晚期胚胎 CNS 和唾液腺形态更相似(Supplementary Fig. 47)。重建的胚胎使作者能够放大器官类型内的特定区域并发现新的基因表达模式。例如,作者将基因 CG14265 鉴定为唾液腺中高表达的基因。它表现出原始切片未捕获的从内侧到外侧的表达梯度(Fig. 6g,h)。
Figure 6. STitch3D 构建了果蝇胚胎的 3D 图谱
ad. STitch3D 估计的 CNS (a) 和唾液腺 (d) 3D 分布的可视化,其中显示了比例值大于 50% 的点。
be. 中枢神经系统相关标记基因 Obp44a (b) 和唾液腺相关标记基因 CG14453 (e) 表达模式的可视化。将标记基因的表达模式与 STitch3D 估计的中枢神经系统 (b) 和唾液腺 (e) 的比例进行了比较。
cf. 细胞类型(CNS (c) 和唾液腺 (f))估计比例与标记基因表达(分别为 Obp44a 和 CG14453)之间的 Pearson 相关性。水平虚线表示 STitch3D 的结果。
g. STitch3D 生成的虚拟切片上唾液腺富集点中 CG14265 表达水平的可视化。
h. CG14265 的空间表达模式(顶部)以及唾液腺富集点和包含虚拟切片的平面(底部)的 3D 可视化。
i. 作者检查了比较方法识别前肠、腺胃、中肠和后肠/肛垫的能力。显示比例值大于 40% 的点。
j. STitch3D 估计的前肠、腺胃、中肠和后肠/肛垫 3D 分布的可视化。显示比例值大于 50% 的点。
kl. STitch3D 识别的腺胃区域 (k) 和后肠/肛垫区域 (l) 的差异表达基因分析。水平线表示值 2.0(即 Padj = 0.01),垂直虚线表示值 0.75。根据 BDGP 和 Fly-FISH 定位于这些区域的已知基因以蓝色注释。FC,倍数变化。
m. STitch3D 识别的腺胃区域中高度可变基因的表达模式。
此外,在 STitch3D 的结果中,在从前到后的连贯空间区域中检测到前肠、腺胃、中肠和后肠/肛垫(Fig. 6i,j and Supplementary Figs. 48 and 49)。然而,Cell2location、CARD、DestVI 和 RCTD 未能检测到腺胃或后肠/肛垫。尽管 Tangram 检测到了这些区域,但这些点未能在空间上组装成连贯的结构(Fig. 6i)。STitch3D 的性能对于不同的切片数量和分辨率也很稳健(Supplementary Figs. 50--52)。
在 STitch3D 识别的区域中,原始研究中未注释前胃和后肠/肛垫。然后作者对这些区域进行差异表达基因分析。作者首先关注腺胃区域,并使用 t 检验来寻找富含腺胃的基因。作者发现 122 个基因的调整后 P 值小于 0.01,log2(fold change) 值大于 0.75,并且超过 1% 的点中的非零计数。特别是,BDGP 和 Fly-FISH 证实这些基因中的大多数位于晚期胚胎腺胃或附近区域(Fig. 6k )。有些基因在数据库中不可用,或者在染色中未发现。然而,它们与已知的腺胃富集基因高度共定位(Fig. 6m )。同样,对于后肠/肛垫区域,作者获得了 72 个具有统计显着性的基因(Fig. 6l)。通过 STitch3D 鉴定,这些基因在后肠/肛垫中显示出高浓度(Supplementary Fig. 53)。此外,作者还发现了前肠和中肠内不同亚区域富集的基因(Supplementary Figs. 54--56),有助于生物学家建立控制肠道分化过程的全面基因调控网络。总而言之,上述结果凸显了 STitch3D 在重建具有精确 3D 区域细胞类型分布模式的虚拟胚胎方面的能力,这将为在系统水平上研究胚胎发生过程提供强大的工具。
讨论
作者提出了 STitch3D,通过集成多个 ST 切片来识别 3D 组织区域和 3D 细胞类型分布,从而表征 3D 组织架构。作者使用不同的数据集(范围从组织到整个生物体)展示了 STitch 3D 的可靠性。
STitch3D 在两个主要方面改进了现有方法。首先,大多数工具都是为空间域检测或细胞类型反卷积任务而开发的。然而,这两项任务本质上是相互联系的,因为不同区域的细胞类型组成通常不同。STitch3D 联合处理这两项任务。因此,细胞类型组合物可以用作识别生物可解释的 3D 区域的增强信息。其次,STitch3D 最重要的特点是它能够集成多个切片进行 3D 重建,而大多数方法仅设计用于分析单个切片。STitch3D 汇集 3D 邻域点的信息,并提供有效的批次效应建模。先前的研究表明,数据集成提高了单细胞分析的统计功效。通过模型创新,STitch3D 通过集成多个切片,提高了空间域检测和细胞类型反卷积的性能。
在这项研究中,作者重点关注使用基因表达和空间位置信息。利用苏木精和伊红 (H&E) 染色的组织学图像和多组学数据可以提高结果的可解释性,留待未来的工作。
3D 组织重建对于加速生物发现显然具有重要意义。随着更多包含多个切片的 ST 数据集的生成,组装组织 3D 全景图的需求将迅速增长。STitch3D 满足了对重建 3D 组织结构的工具的需求,并将在 ST 数据分析中发挥重要作用。
--------------- 结束 ---------------
注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。
本文由mdnice多平台发布