XGBoost(eXtreme Gradient Boosting) 是一种基于梯度提升决策树(Gradient Boosting Decision Tree, GBDT)的高性能机器学习算法,由陈天奇于2016年提出。它通过迭代地训练多个弱学习器(通常是决策树),并逐步修正前一轮模型的误差,最终组合成一个强预测模型。
在生物信息学中的应用
****1. 疾病风险预测:****从全基因组关联研究(GWAS)或外显子组数据中识别疾病相关基因或突变(如癌症驱动突变预测);
****2. 非同义突变功能预测:****评估基因突变对蛋白质功能的影响(如工具 DANN 使用 XGBoost 改进预测准确性);
****3. 癌症亚型分类:****基于 RNA-seq 或微阵列数据区分肿瘤亚型(如 TCGA 中的乳腺癌分型);
****4. 生物标志物筛选:****通过特征重要性分析识别关键基因或通路(如 COVID-19 重症相关基因);
****5. 蛋白质-蛋白质相互作用:****结合序列和结构特征预测互作关系;
****6. 蛋白质功能注释:****预测酶的 EC 编号或蛋白质亚细胞定位;
****7. 药物活性预测:****基于分子描述符(如指纹、理化性质)预测化合物活性(如抗 HIV 药物筛选);
****8. ADMET 性质评估:****预测药物的吸收、分布、代谢、排泄和毒性(如肝毒性预测模型);
****9. 细胞类型注释:****基于scRNA-seq 数据自动分类细胞(如与随机森林结合的工具 scANVI);
****10. 空间基因表达模式分析:****预测组织微环境中的基因表达空间分布;
****11. 病原体检测:****从宏基因组数据中识别致病微生物(如呼吸道感染病原体分类);
****12. 微生物-宿主互作:****预测肠道菌群与宿主疾病的关联。。
这里给大家推荐一个在线分析平台【掌上生信绘图平台(https://handybioplot.cn)】,无需编写代码,只需要上传文件即可一键分析并自动绘制相关图片,为您节约宝贵的时间成本。

使用说明

分析参数

特征重要性排序图

roc图

绘图参数
结果图片还可以使用绘图参数自由修改

任务列表
如果分析结果不满意,可以修改参数重新提交分析,所有任务独立记录,可自由切换查看结果
