贝叶斯共识聚类(BCC)

共识聚类被广泛用于整合多种聚类算法或多源数据集。贝叶斯共识聚类提出了一种数据驱动的共识聚类方法 ,通过扩展有限狄利克雷混合模型以适配多数据源,同时对源特定特征和整体聚类进行建模。该方法为每个数据源生成独立的聚类结果,但这些结果均与所有数据源的整体聚类松散关联 。贝叶斯共识聚类能够同步完成特定数据源聚类与共识聚类,且共识聚类的形成基于一种概率分布,该分布对在特定区域频繁出现的簇赋予更高概率。

研究者还提出了一种启发式方法,用于为给定数据集选择最优聚类数量。贝叶斯共识聚类的实现基于数据服从正态分布的假设。

在实证研究中,BCC方法被应用于乳腺癌亚型识别 ,数据来源包括TCGA乳腺癌数据库中的348个样本,涵盖基因表达、DNA甲基化、miRNA表达和蛋白质数据(见表2)。该方法最终生成3个簇 ,分别对应已知的乳腺癌亚型:BCC的簇1对应基底细胞亚型,簇2对应Luminal A亚型,簇3则包含ER/PR阳性状态的样本。其中,基因表达数据的特定模式与整体聚类的关联度最高

多数据集整合(MDI)

多数据集整合方法采用狄利克雷混合模型对每个数据源进行聚类,同时建模聚类间的成对依赖性。MDI 在基因组特征等被分配至组分的变量层面 连接不同模型,这种基于组分变量的关联能够捕捉多组学数据间的依赖关系。例如,该方法可识别在多个数据集中被分配到同一组分、从而共同聚类的基因群。

作者提出的MDI应用案例包括整合酿酒酵母的基因表达和ChIP数据,以识别转录共调控的蛋白质复合物。此外,Savage等与Chauvel等的研究展示了该方法在利用TCGA多组学数据识别疾病亚型中的应用。


网络方法:相似性网络融合(SNF)

相似性网络融合是一种基于网络的方法,通过网络融合技术 整合多组学数据集。首先,SNF为每种数据类型构建独立的相似性网络(节点代表患者或样本,边权重反映其相似性),随后通过非线性融合算法将这些网络合并为一个综合网络。融合过程基于消息传递理论,通过迭代使每个网络的结构逐渐与其他网络对齐。该方法的优势在于:弱连接(噪声)在迭代中逐渐消失,而强连接被保留并增强 ,直至收敛。

尽管SNF被归类为"网络方法",但其技术核心同时结合了"融合"与"相似性"策略。

例如,研究通过SNF整合TCGA中215例胶质母细胞瘤(GBM) 的DNA甲基化、miRNA表达和基因表达数据(见表2),成功识别出GBM的3个亚型。其中最小聚类(簇3)对应已知的IDH1突变亚型,该亚型患者更年轻且预后较好;簇1包含对替莫唑胺(TMZ)治疗有反应的患者;簇2则与组织蛋白酶D(CTSD)过表达显著相关,后者已知会抑制TMZ疗效。这表明SNF能通过新型网络融合方法有效识别疾病亚型。

相关推荐
qq_359716234 小时前
openpi使用过程中相关问题
人工智能·深度学习·机器学习
阿钱真强道6 小时前
08 从 MLP 到 LeNet:为什么一个神经元不够?
深度学习·神经网络·机器学习·mlp·决策边界
罗西的思考6 小时前
【OpenClaw】通过Nanobot源码学习架构---(2)外层控制逻辑
人工智能·机器学习
Datacarts6 小时前
洞察电商数据:淘宝商品评论API数据分析
数据挖掘·数据分析
FluxMelodySun8 小时前
机器学习(二十八) 特征选择与常见的特征选择方法
人工智能·机器学习
水中加点糖8 小时前
多模态数据标注平台LabelStudio——部署与智能标注体验
人工智能·机器学习·自动标注·数据标注·labelstudio·ai标注·标注平台
BioRunYiXue9 小时前
Nature Methods:CellVoyager 自主 AI 智能体开启生物数据分析新时代
大数据·开发语言·前端·javascript·人工智能·数据挖掘·数据分析
热爱生活的猴子11 小时前
什么情况是训练好验证差,什么情况判定为收敛慢,什么情况下判定为震荡,什么情况下说明是泛化差
人工智能·深度学习·机器学习
caiyangyang00711 小时前
AI 赋能企业报表新范式:SpringReport + DeepSeek 大模型,让数据分析零门槛
人工智能·数据挖掘·数据分析
Ujimatsu12 小时前
数据分析相关面试题-A/B 测试 & 统计学部分
算法·机器学习·数据分析