贝叶斯共识聚类(BCC)

共识聚类被广泛用于整合多种聚类算法或多源数据集。贝叶斯共识聚类提出了一种数据驱动的共识聚类方法 ,通过扩展有限狄利克雷混合模型以适配多数据源,同时对源特定特征和整体聚类进行建模。该方法为每个数据源生成独立的聚类结果,但这些结果均与所有数据源的整体聚类松散关联 。贝叶斯共识聚类能够同步完成特定数据源聚类与共识聚类,且共识聚类的形成基于一种概率分布,该分布对在特定区域频繁出现的簇赋予更高概率。

研究者还提出了一种启发式方法,用于为给定数据集选择最优聚类数量。贝叶斯共识聚类的实现基于数据服从正态分布的假设。

在实证研究中,BCC方法被应用于乳腺癌亚型识别 ,数据来源包括TCGA乳腺癌数据库中的348个样本,涵盖基因表达、DNA甲基化、miRNA表达和蛋白质数据(见表2)。该方法最终生成3个簇 ,分别对应已知的乳腺癌亚型:BCC的簇1对应基底细胞亚型,簇2对应Luminal A亚型,簇3则包含ER/PR阳性状态的样本。其中,基因表达数据的特定模式与整体聚类的关联度最高

多数据集整合(MDI)

多数据集整合方法采用狄利克雷混合模型对每个数据源进行聚类,同时建模聚类间的成对依赖性。MDI 在基因组特征等被分配至组分的变量层面 连接不同模型,这种基于组分变量的关联能够捕捉多组学数据间的依赖关系。例如,该方法可识别在多个数据集中被分配到同一组分、从而共同聚类的基因群。

作者提出的MDI应用案例包括整合酿酒酵母的基因表达和ChIP数据,以识别转录共调控的蛋白质复合物。此外,Savage等与Chauvel等的研究展示了该方法在利用TCGA多组学数据识别疾病亚型中的应用。


网络方法:相似性网络融合(SNF)

相似性网络融合是一种基于网络的方法,通过网络融合技术 整合多组学数据集。首先,SNF为每种数据类型构建独立的相似性网络(节点代表患者或样本,边权重反映其相似性),随后通过非线性融合算法将这些网络合并为一个综合网络。融合过程基于消息传递理论,通过迭代使每个网络的结构逐渐与其他网络对齐。该方法的优势在于:弱连接(噪声)在迭代中逐渐消失,而强连接被保留并增强 ,直至收敛。

尽管SNF被归类为"网络方法",但其技术核心同时结合了"融合"与"相似性"策略。

例如,研究通过SNF整合TCGA中215例胶质母细胞瘤(GBM) 的DNA甲基化、miRNA表达和基因表达数据(见表2),成功识别出GBM的3个亚型。其中最小聚类(簇3)对应已知的IDH1突变亚型,该亚型患者更年轻且预后较好;簇1包含对替莫唑胺(TMZ)治疗有反应的患者;簇2则与组织蛋白酶D(CTSD)过表达显著相关,后者已知会抑制TMZ疗效。这表明SNF能通过新型网络融合方法有效识别疾病亚型。

相关推荐
dazzle19 分钟前
机器学习算法原理与实践-入门(三):使用数学方法实现KNN
人工智能·算法·机器学习
玄同7651 小时前
Python 后端三剑客:FastAPI/Flask/Django 对比与 LLM 开发选型指南
人工智能·python·机器学习·自然语言处理·django·flask·fastapi
B站_计算机毕业设计之家1 小时前
豆瓣电影推荐系统 | Python Django Echarts构建个性化影视推荐平台 大数据 毕业设计源码 (建议收藏)✅
大数据·python·机器学习·django·毕业设计·echarts·推荐算法
啊阿狸不会拉杆2 小时前
《机器学习导论》第 5 章-多元方法
人工智能·python·算法·机器学习·numpy·matplotlib·多元方法
铁蛋AI编程实战2 小时前
MemoryLake 实战:构建超长对话 AI 助手的完整代码教程
人工智能·python·microsoft·机器学习
张较瘦_2 小时前
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路
论文阅读·人工智能·机器学习
算法狗22 小时前
大模型面试题:大模型的训练和推理中显存和计算量的情况
人工智能·深度学习·机器学习·语言模型
我材不敲代码2 小时前
机器学习入门 04逻辑回归part2——提高逻辑回归模型的召回率
人工智能·机器学习·逻辑回归
渡我白衣3 小时前
信而有征——模型评估、验证与可信部署的完整体系
人工智能·深度学习·神经网络·目标检测·机器学习·计算机视觉·自然语言处理