贝叶斯共识聚类(BCC)

共识聚类被广泛用于整合多种聚类算法或多源数据集。贝叶斯共识聚类提出了一种数据驱动的共识聚类方法 ,通过扩展有限狄利克雷混合模型以适配多数据源,同时对源特定特征和整体聚类进行建模。该方法为每个数据源生成独立的聚类结果,但这些结果均与所有数据源的整体聚类松散关联 。贝叶斯共识聚类能够同步完成特定数据源聚类与共识聚类,且共识聚类的形成基于一种概率分布,该分布对在特定区域频繁出现的簇赋予更高概率。

研究者还提出了一种启发式方法,用于为给定数据集选择最优聚类数量。贝叶斯共识聚类的实现基于数据服从正态分布的假设。

在实证研究中,BCC方法被应用于乳腺癌亚型识别 ,数据来源包括TCGA乳腺癌数据库中的348个样本,涵盖基因表达、DNA甲基化、miRNA表达和蛋白质数据(见表2)。该方法最终生成3个簇 ,分别对应已知的乳腺癌亚型:BCC的簇1对应基底细胞亚型,簇2对应Luminal A亚型,簇3则包含ER/PR阳性状态的样本。其中,基因表达数据的特定模式与整体聚类的关联度最高

多数据集整合(MDI)

多数据集整合方法采用狄利克雷混合模型对每个数据源进行聚类,同时建模聚类间的成对依赖性。MDI 在基因组特征等被分配至组分的变量层面 连接不同模型,这种基于组分变量的关联能够捕捉多组学数据间的依赖关系。例如,该方法可识别在多个数据集中被分配到同一组分、从而共同聚类的基因群。

作者提出的MDI应用案例包括整合酿酒酵母的基因表达和ChIP数据,以识别转录共调控的蛋白质复合物。此外,Savage等与Chauvel等的研究展示了该方法在利用TCGA多组学数据识别疾病亚型中的应用。


网络方法:相似性网络融合(SNF)

相似性网络融合是一种基于网络的方法,通过网络融合技术 整合多组学数据集。首先,SNF为每种数据类型构建独立的相似性网络(节点代表患者或样本,边权重反映其相似性),随后通过非线性融合算法将这些网络合并为一个综合网络。融合过程基于消息传递理论,通过迭代使每个网络的结构逐渐与其他网络对齐。该方法的优势在于:弱连接(噪声)在迭代中逐渐消失,而强连接被保留并增强 ,直至收敛。

尽管SNF被归类为"网络方法",但其技术核心同时结合了"融合"与"相似性"策略。

例如,研究通过SNF整合TCGA中215例胶质母细胞瘤(GBM) 的DNA甲基化、miRNA表达和基因表达数据(见表2),成功识别出GBM的3个亚型。其中最小聚类(簇3)对应已知的IDH1突变亚型,该亚型患者更年轻且预后较好;簇1包含对替莫唑胺(TMZ)治疗有反应的患者;簇2则与组织蛋白酶D(CTSD)过表达显著相关,后者已知会抑制TMZ疗效。这表明SNF能通过新型网络融合方法有效识别疾病亚型。

相关推荐
じ☆冷颜〃1 天前
黎曼几何驱动的算法与系统设计:理论、实践与跨领域应用
笔记·python·深度学习·网络协议·算法·机器学习
HyperAI超神经1 天前
【vLLM 学习】Rlhf
人工智能·深度学习·学习·机器学习·vllm
Echo_NGC22371 天前
【神经视频编解码NVC】传统神经视频编解码完全指南:从零读懂 AI 视频压缩的基石
人工智能·深度学习·算法·机器学习·视频编解码
摆烂咸鱼~1 天前
机器学习(10)
人工智能·机器学习·支持向量机
yuhaiqun19891 天前
学服务器训练AI模型:5步路径助力高效入门
运维·服务器·人工智能·笔记·机器学习·ai
小鸡吃米…1 天前
机器学习中的回归分析
人工智能·python·机器学习·回归
摆烂咸鱼~1 天前
机器学习(9-1)
人工智能·机器学习
webkubor1 天前
🧠 2025:AI 写代码越来越强,但我的项目返工却更多了
前端·机器学习·ai编程
Niuguangshuo1 天前
变分推断:用简单分布逼近复杂世界的艺术
人工智能·机器学习
佛祖让我来巡山1 天前
Numpy
机器学习·数据分析·numpy·矢量运算