生信碱移
预后单细胞建模
SIDISH 模型,将 bulk 队列中的预后信息整合到单个细胞级别,从而识别与不良结局相关的 High-Risk 细胞群,并在此基础上进行临床预后预测、单个或多个基因模拟敲除、以及重要预后靶点筛选。
肿瘤等复杂疾病的核心难题之一,是细胞与表型层面的高度异质性。换句话说,在肿瘤领域,预后分析应当在单个细胞水平进行,因为细胞的异质性是极其大的。但是不管是公共数据库还是自测数据,同时具有单细胞测序以及对应临床预后信息的样本少之又少。有的时候想找一个公共预后数据集都难,还想要有对应样本单细胞测序数据简直是不可能的。所以,单细胞数据的表型缺少限制了其在大规模肿瘤队列中的预后表征,上述问题同样存在空间转录组数据的应用分析中。
一些方法可以将全基因组关联 (GWAS) 数据映射到单细胞或者空间转录组数据集上,实现疾病/表型相关细胞的精细研究。比如,单细胞层面有今年刚刚见刊的 seismic 工具,而空转方面则有西湖大学杨剑老师团队同样今年见刊 Nature 正刊的 gsMap 工具。小编曾经分享过这两种工具的简介以及使用,感兴趣的铁子可以点击下方链接:
点击阅读:GWAS+单细胞测序,使用GWAS数据鉴定核心细胞亚群和关键基因
点击阅读:GWAS+空间转录组,将空间信息映射到人类复杂性状于疾病
回到正题,为了解决单细胞/空转测序数据没有预后数据的问题,来自麦吉尔大学的研究者于这几天在 Nature Communications [IF:15.7] 上提出了 SIDISH 框架。该框架以迭代反馈的方式,把 bulk 队列中的预后信息整合到单细胞表示学习中,从而识别与预后不良结局相关的 High-Risk 细胞群,并在此基础上进行多种下游分析。论文用多种癌症数据展示其通用性,并将方法扩展到空间转录组,在组织微环境中定位 High-Risk 细胞,同时在基准评测与消融实验中证明其优于或依赖于关键模块。

DOI:10.1038/s41467-025-66162-4
简单来讲,SIDISH 的流程被分为四个阶段,每个阶段形成循环迭代:① 第一个阶段使用变分自编码器在 scRNA-seq 上学习低维潜在表示;损失函数里引入可迭代更新的基因权重矩阵 W,用于逐步强调与临床结局更相关的基因;② 第二阶段在 bulk RNA-seq 与生存结局上训练深度 Cox 回归模型,并将第一阶段学到的编码器权重迁移到生存模型中,同时进行微调,使单细胞表征能贴合患者层面的生存信号。该阶段引入了患者权重向量 v,在迭代中强化对高风险患者的学习。③ 第三阶段利用训练后的 Cox 模型同时为患者和细胞赋予风险得分(不用怀疑,就是预后那一套的说法),将细胞分为 High-Risk 与 Background。④ 第四阶段用 SHAP 量化基因对 High-Risk 判别的贡献,并把贡献映射回 W,同时将患者风险更新回 v,让单细胞与bulk的信号在循环中迭代更新(有种EM算法的感觉了,这种神经网络的EM这几年其实还不少)。

图:SIDISH 四阶段模型训练流程示意。
搞不明白的铁子也没关系,小编快速带你搞懂输出,你就知道这个方法的功能了。① 首先,模型除了给bulk样本风险得分以外,还能够给每个单细胞风险得分。所以在此基础上,能够筛选预后相关的高风险细胞亚群。② 除了这个以外,这个模型能够做模拟单基因/组合基因敲除,评估其降低 High-Risk 细胞的能力,并且给所有基因一个排名,筛选候选治疗靶点。

图: SIDISH 下游分析功能。
这里给大家举例几张正文的分析示例看看。
① 首先是鉴定高风险的细胞:

② 在此基础上,可以统计哪种细胞亚群的高风险得分细胞更多:

③ 高低风险细胞的差异基因,后续做些富集这种常见的就不展示了:

④ 高低风险样本的预后分析。逻辑上训练过程是bulk/单细胞相互学习优化的,所以感觉这个生存预后可能会比单纯的COX那种会好:

⑤ 空转同样是那一套,只不过从高风险的细胞变成了高风险的spot (空间微环境):

⑥ 模拟敲除计算的基因排名,看看哪些基因是潜在的预后治疗靶点:

⑦ 还能够做组合敲除,研究多个基因的人这不得学习一下:

⑧ 展示敲除前后的风险变化。这里就有一个很powerful的例子,看看敲除 EGFR 这个基因的变化:

上图敲除后的图例需要解释一下,不同颜色表示敲除 EGFR 之后,细胞风险状态相对敲除前发生了怎样的转变:①灰色是 Background → Background。即原本是背景细胞,敲除后仍是背景细胞,状态不变;②蓝色是 High-Risk → Background。原本高风险,敲除后转为背景细胞,可以理解为被干预拉回低风险的细胞;③紫色是 Background → High-Risk。原本是背景细胞,敲除后变成高风险;属于副作用的细胞;④红色是 High-Risk → High-Risk。即原本高风险,敲除后仍高风险。图例对应的数字是相应类型细胞的数量,可以看到敲除 EGFR 以后灰色占大多数,并且高风险细胞区域减少(蓝色);尽管紫色也有,但是没有蓝色的多。这意味着敲除后具有一定治疗效果。
工具github链接:https://github.com/mcgilldinglab/SIDISH
看到这里了不妨点一下关注