作者,Evil Genius
过年了,大家打打台球,娱乐娱乐。
今天我们复习,邻域分子聚类与邻域细胞聚类。




依据基因表达特征的聚类
方法:以每个细胞(spot)为中心,取其周围一定半径内的所有基因表达量(或经过降维/特征选择后的数据)作为该位置的特征向量,然后进行聚类(如K-means, Louvain, Leiden)。
生物学意义:
识别功能微环境或生态位:
将具有相似整体转录状态的区域识别出来。这些区域可能对应特定的功能单元,如"免疫抑制微环境"、"血管生成前沿"、"应激反应区"或"代谢活跃区"。
例如,一个聚类可能同时高表达细胞应激基因、某些细胞因子和基质重塑基因,提示这是一个组织损伤与修复界面。
揭示连续的生物学过程:
基因表达的渐变可以在空间上形成连续簇。这对于研究发育梯度、伤口愈合前沿、肿瘤侵袭边缘等动态过程至关重要。
聚类结果可以揭示这些过程的中间状态及其空间排列。
发现新的、空间定义的细胞状态:
超越已知的细胞类型分类。同一个细胞类型(如巨噬细胞)在不同的微环境中可能表现出截然不同的基因表达程序(M1 vs M2, 或肿瘤相关巨噬细胞的特异状态)。这种方法能发现这些空间上下文依赖的亚型。
特点:
信息丰富:利用了全部或大部分转录组信息。
无偏性:不依赖于先验的细胞类型注释,可能发现未知模式。
计算复杂:维度高,需要有效的降维和特征选择。
解释性挑战:聚类的结果需要通过对高表达基因进行功能富集分析来理解其生物学意义,解释步骤在后。
依据细胞类型数量的聚类
方法:首先对每个细胞(spot)进行细胞类型注释(通常基于其自身的基因表达)。然后,以每个细胞为中心,统计其邻域内各类细胞的数量或比例,形成一个"细胞类型组成向量"。最后,基于这个组成向量进行聚类。
生物学意义:
识别细胞间相互作用的热点或模块:
直接揭示多细胞组成的结构或单元。例如,识别出"三级淋巴结构"区域(富含B细胞、T细胞、滤泡树突状细胞的空间共定位)、"血管周围生态位"(平滑肌细胞、内皮细胞、周细胞的特定组合)或"免疫排斥"区域(肿瘤细胞与免疫细胞彼此分离)。
量化空间组织模式:
关注的是细胞类型之间的空间关系。这对于理解组织结构(如肝小叶的分带、肠绒毛的层状结构)和疾病中的组织结构破坏(如癌症中基质细胞与癌细胞的互作模式改变)至关重要。
推断细胞间通讯潜力:
特定的细胞类型组合是细胞间通讯(配体-受体互作)发生的物理基础。聚类结果可以直接指向潜在的、活跃的信号传导微环境。
特点:
直观且易于解释:结果直接表述为"富含A细胞和B细胞,但缺乏C细胞的区域",生物学意义明确。
依赖于注释质量:完全取决于第一步单细胞水平注释的准确性。如果细胞类型定义模糊或注释错误,后续分析会产生偏差。
信息有损:丢失了同一细胞类型内部不同功能状态的信息。例如,两个都是"T细胞富集区",但一个区域的T细胞是耗竭状态,另一个是激活状态,这种方法可能无法区分。
维度较低:向量维度等于定义的细胞类型数量,通常比基因数量少很多,计算更简便。
异同对比
| 维度 | 基于基因表达特征的聚类 | 基于细胞类型数量的聚类 |
|---|---|---|
| 数据本质 | 分子水平:基因表达丰度的空间模式。 | 细胞水平:细胞类型构成的空间模式。 |
| 核心问题 | "这里正在发生什么?" (功能、状态、活动) | "谁和谁在一起?" (组成、结构、互作) |
| 主要发现 | 功能微环境、连续生物过程、空间依赖的细胞状态。 | 多细胞结构、组织学区域、细胞互作热点。 |
| 优势 | 1. 信息全面,无偏发现。 2. 能捕捉细胞状态连续变化。 3. 不依赖先验注释。 | 1. 结果直观,易于解释和验证(可与H&E图像对照)。 2. 直接关联到组织结构。 3. 计算高效。 |
| 局限 | 1. 结果解释需要后续分析。 2. 高维数据分析复杂度高。 3. 可能对细微的细胞组成变化不敏感。 | 1. 完全依赖初始细胞类型注释的质量。 2. 丢失细胞状态异质性信息。 3. 无法发现全新的、未注释的细胞状态。 |
| 关系 | 上游与基础:基因表达模式是定义细胞类型和状态的根源。 | 下游与应用:细胞类型是分析组织结构和互作的基本单元。 |