单细胞转录组测序技术能够在单细胞分辨率下研究样本的转录组信息,可以完美解决细胞异质问题,能全面真实揭示细胞多样性和复杂性,能够更加深入地研究细胞类型、细胞功能、细胞亚群及其异质性、细胞谱系等,还常用于识别新的细胞类型、确认罕见的细胞群、构建细胞状态和系统发育的图谱。目前单细胞转录组测序技术大多应用在生物医学领域,随着单细胞转录组测序技术的发展,点燃了单细胞测序技术在植物学领域的研究热潮。凌恩生物特别推出前沿植物组学研究技术---植物单细胞核转录组测序---突破植物单细胞研究壁垒,助力植物科学家破解植物的单细胞表达异质性。
图 单细胞(核)转录组测序实验流程
拿到单细胞测序数据之后,我们常做的分析有细胞周期评估、细胞聚类、识别差异表达基因,Marker基因鉴定等。对于深入研究植物细胞发育分化、作用调控机制等,通过细胞轨迹推断、细胞通讯、转录因子、蛋白互作网络图、基因变异信息、细胞系统发育和RNA速率分析等,能够解析植物生长发育、环境应激等过程中的关键生物学作用机制及调控因子。下面我们来看一下具体的分析内容。
图 单细胞常见分析
0 1、拟时间序列分析
细胞分化和发育是生命的基本特征,同一时间取样的细胞也包括不同的中间分化状态,对其进行研究可以帮助了解细胞是如何分化成各种不同类型的细胞行使响应功能的。拟时序分析可以推断发育过程中细胞的分化轨迹或细胞亚型的演化过程,因此,有效利用拟时序分析绘制植物细胞的发育分化轨迹并重塑细胞分化路径,深入解析植物细胞分化路径,了解植物细胞的动态发育过程。除此之外RNA速率分析等分析方法,也可以推断发育过程中细胞的分化轨迹或细胞亚型的演化过程。
Monocle软件将RNA-Seq实验构成一个时间序列,每个细胞表示轨迹上的不同时间点,能够揭示关键调控因子的开关式变化,基因调控连续波动,调控因子的表达差异。原则上能够重现单细胞基因表达各种细胞过程的动力学,包括分化,增殖和致癌转化。选取基因后,把多维空间减小到二维的空间,当Monocle对单细胞进行排序时,能够轻松地进行可视化和解释。如下图为对细胞排序后,在二维空间中的轨迹:
图 轨迹分析图
0 2、转录因子分析
细胞转录状态的差异导致了细胞的异质性,转录因子与基因表达调控区域的特异性结合是基因表达的重要调控方式,在细胞特异性转录的基因调控网络中起主导作用。对不同细胞类型的转录因子-基因调控网络进行分析,可以了解植物发育分化、环境响应等过程中的基因调控机制网络。
利用Match1.0 (http://www.gene-regulation.com/cgi-bin/pub/programs/match/bin/match.cgi) 在线工具进行转录因子预测,并给出每个 mRNA 的起始位点上游 2000bp 下游 500bp 区域内的转录因子的结合位点、方向以及打分。
图 mRNA 与转录因子网络图
0 3、WGCNA分析
加权基因共表达网络构建(Weighted Gene Co-Expression Network Analysis,WGCNA)是一种从高通量数据中挖掘模块(module)信息的算法。在单细胞转录组中,WGCNA可以帮助寻找与特定生物学过程或状态相关的共表达基因集群,并确定这些基因集群的调控模式和功能信息。可以用来鉴定高度协同变化的基因集,并根据基因集的内连性和基因集与表型之间的关联鉴定候补生物标记基因或治疗靶点。
图 基因共表达模块分析
0 4、细胞通讯分析
植物可通过植物激素、信号肽和可移动的小RNA分子等方式进行细胞间的通讯,维持植物正常生长发育和环境响应。细胞通讯分析可以揭示这种细胞间的信息传递机制,构建信号转导网络并且探索调控因子的功能等。主要研究内容是配体-受体对在多细胞生物对环境刺激的细胞间通讯中的主要影响,利用PlantPhoneDB(https://jasonxu.shinyapps.io/PlantPhoneDB/),其是一个包含大量高置信度配体-受体对的泛植物数据库,计算细胞类型之间的配体-受体对的相互作用分数,并进行可视化。
图 细胞-细胞间相互通讯的和弦图
0 5、GSEA 分析
基因集富集分析,用于确定先验基因集是否在两种生物状态(例如表型)之间差异显著。(GSEA 软件的网址: http://software.broadinstitute.org/gsea/index.jsp )GSEA 的优势是不局限于差异基因,不需要指定明确的差异基因阈值,可以在基因集(也就是多个基因)水平上来处理表达谱数据。这里所说的基因集(gene sets)是指基于当前积累的知识,例如关于生物通路知识或以前得到的共表达数据来定义的一组基因。预先定义的基因集是指不同数据库来源的基因集合,可以采用GO、KEGG、Rectome、Hallmark等等数据库收录的基因集合。
图 基因集合富集结果图
图 基因集的热图
0 6、GSVA分析
基因集变异分析,GSVA不需要预先进行样本之间的差异分析,它依据表达矩阵就可以计算每个样本中特定基因集的变异分数。因此相当于把转录组中每一个基因的表达量转换成这些基因组成的通路的表达量。从gene到pathway的转变,更数据加具有生物学意义,对生命现象更具有可解释性。
图 不同样本或组的同类型细胞的基因富集情况
0 7、蛋白互作网络分析
蛋白质互作通常可以分为物理互作和遗传互作。物理互作是指蛋白质间通过空间构象或化学键发生的结合或化学反应;遗传互作是指特殊情况下,蛋白/基因的表型变化受其他蛋白/基因影响。目前蛋白互作较全的数据库是 STRING 数据库,分析时需要先下载物种的蛋白互作数据,然后索引一对有互作关系的两个基因是否均为差异基因,最终得到差异基因的互作关系,并将互作关系数据导入 Cytoscape 软件实现互作网络的可视化。
图 差异基因蛋白网络互作网络图
0 8、细胞互作分析
细胞聚类得到 cluster 之间根据基因表达量进行相关性分析,相同的细胞类型对应的相关性系数会较高,以此来判断细胞与细胞之间的相互作用关系。
图 细胞 Cluster 相关性分析
使用 scanpy 软件对细胞进行聚类并对不同 cluster 间的作用关系进行绘图。图中不同的数字代表不同的 cluster,不同 cluster 之间的连线代表相互作用关系,线条越粗表示 cluster 之间的相互作用越强(注:Scnapy 分析需要对细胞进行重新聚类,聚类结果与Seurat 聚类存在差异)。还可以基于受体配体表达情况分析不同细胞间相互作用,并以网络图的形式展示。
图 细胞聚类及可视化
图 细胞 Cluster 互作网络组
0 9、基因功能网络富集
在 gene list 富集到的 term 中,挑选出富集程度较高的,然后根据功能相关性聚成几类,并按照关联性和相似性构建网络,比如不同的颜色代表不同的功能类别或者用不同的颜色代表不同样本。
图 基因功能网络富集图
10、RNA 速率(RNA velocity)
单细胞 RNA-seq 测序可以区分新转录本、未剪接的前体 mRNA (通过内含子的存在检测)和成熟的、剪接的 mRNA,利用这一事实引入 RNA 速率概念,利用算法恢复定细胞定向动态信息。对于 RNA 速率,通过将测量结果与潜在的 mRNA 剪接动力学相连接来推断细胞的定向轨迹: 特定基因的转录诱导导致(新转录的)前体未剪接 mRNA 的增加,相反地,转录抑制或缺乏导致未剪接 mRNA 的减少。因此,通过区分未剪接的 mRNA 和剪接的 mRNA,可以近似地了解 mRNA 丰度(RNA 速度)的变化。然后,通过 mRNA 的速度组合可以用来估计单个细胞的未来状态。
图 细胞速率分析- RNA velocity 分析
植物单细胞核转录组其优势明显,适用样本类型丰富,操作步骤相对简单,降低人为引入的转录偏差,相对提高检测细胞类型的全面性,建议老师根据实际样本类型、研究目的、目标细胞群体等条件选择合适的方法。有意向的老师欢迎咨询~
参考文献
Khozyainova AA, Valyaeva AA, Arbatsky MS, Isaev SV, Iamshchikov PS, Volchkov EV, Sabirov MS, Zainullina VR, Chechekhin VI, Vorobev RS, Menyailo ME, Tyurin-Kuzmin PA, Denisov EV. Complex Analysis of Single-Cell RNA Sequencing Data. Biochemistry (Mosc). 2023
Gao, R., Bai, S., Henderson, Y. C., et al. Delineating copy number and clonal substructure in human tumors from single-cell transcriptomes. Nat Biotechnol. 2021
Generalizing RNA velocity to transient cell states through dynamical modeling. Nature Biotechnology ,2020
Xu C, et al. PlantPhoneDB: A manually curated pan-plant database of ligand-receptor pairs infers cell-cell communication. Plant Biotechnol J. 2022
相关阅读