贝叶斯共识聚类(BCC)

共识聚类被广泛用于整合多种聚类算法或多源数据集。贝叶斯共识聚类提出了一种数据驱动的共识聚类方法 ,通过扩展有限狄利克雷混合模型以适配多数据源,同时对源特定特征和整体聚类进行建模。该方法为每个数据源生成独立的聚类结果,但这些结果均与所有数据源的整体聚类松散关联 。贝叶斯共识聚类能够同步完成特定数据源聚类与共识聚类,且共识聚类的形成基于一种概率分布,该分布对在特定区域频繁出现的簇赋予更高概率。

研究者还提出了一种启发式方法,用于为给定数据集选择最优聚类数量。贝叶斯共识聚类的实现基于数据服从正态分布的假设。

在实证研究中,BCC方法被应用于乳腺癌亚型识别 ,数据来源包括TCGA乳腺癌数据库中的348个样本,涵盖基因表达、DNA甲基化、miRNA表达和蛋白质数据(见表2)。该方法最终生成3个簇 ,分别对应已知的乳腺癌亚型:BCC的簇1对应基底细胞亚型,簇2对应Luminal A亚型,簇3则包含ER/PR阳性状态的样本。其中,基因表达数据的特定模式与整体聚类的关联度最高

多数据集整合(MDI)

多数据集整合方法采用狄利克雷混合模型对每个数据源进行聚类,同时建模聚类间的成对依赖性。MDI 在基因组特征等被分配至组分的变量层面 连接不同模型,这种基于组分变量的关联能够捕捉多组学数据间的依赖关系。例如,该方法可识别在多个数据集中被分配到同一组分、从而共同聚类的基因群。

作者提出的MDI应用案例包括整合酿酒酵母的基因表达和ChIP数据,以识别转录共调控的蛋白质复合物。此外,Savage等与Chauvel等的研究展示了该方法在利用TCGA多组学数据识别疾病亚型中的应用。


网络方法:相似性网络融合(SNF)

相似性网络融合是一种基于网络的方法,通过网络融合技术 整合多组学数据集。首先,SNF为每种数据类型构建独立的相似性网络(节点代表患者或样本,边权重反映其相似性),随后通过非线性融合算法将这些网络合并为一个综合网络。融合过程基于消息传递理论,通过迭代使每个网络的结构逐渐与其他网络对齐。该方法的优势在于:弱连接(噪声)在迭代中逐渐消失,而强连接被保留并增强 ,直至收敛。

尽管SNF被归类为"网络方法",但其技术核心同时结合了"融合"与"相似性"策略。

例如,研究通过SNF整合TCGA中215例胶质母细胞瘤(GBM) 的DNA甲基化、miRNA表达和基因表达数据(见表2),成功识别出GBM的3个亚型。其中最小聚类(簇3)对应已知的IDH1突变亚型,该亚型患者更年轻且预后较好;簇1包含对替莫唑胺(TMZ)治疗有反应的患者;簇2则与组织蛋白酶D(CTSD)过表达显著相关,后者已知会抑制TMZ疗效。这表明SNF能通过新型网络融合方法有效识别疾病亚型。

相关推荐
砥锋7 小时前
纯NumPy手写两层GCN:从零开始理解图神经网络核心思想
机器学习
Larcher7 小时前
🔥 告别抓瞎:用 Claude Code (cc) 优雅接手与维护已有项目
javascript·机器学习·前端框架
大模型最新论文速读9 小时前
PreFT:只在 prefill 时使用 LoRA,推理速度翻倍效果不降
论文阅读·人工智能·深度学习·机器学习·自然语言处理
AI算法沐枫10 小时前
大模型 | 大模型之机器学习基本理论
人工智能·python·神经网络·学习·算法·机器学习·计算机视觉
larance10 小时前
[菜鸟教程] 机器学习教程第六课-机器学习基础术语
人工智能·机器学习
cxr82810 小时前
数据驱动的AI逆向材料设计:体系、方法与突破路径
人工智能·机器学习·智能体·逆向合成·材料设计合成·蜂群理论
Project_Observer10 小时前
使用Zoho Projects AI自动项目管理
大数据·数据库·人工智能·深度学习·机器学习·深度优先
前端若水11 小时前
【无标题】
java·人工智能·python·机器学习
吃好睡好便好11 小时前
在Matlab中绘制阶梯图
开发语言·人工智能·学习·算法·机器学习·matlab
YangYang9YangYan12 小时前
2026产品专员学习数据分析的价值与路径
学习·数据挖掘·数据分析