2025 - 生信信息学 - GEO数据分析 - RF分析(随机森林)

GEO数据分析 - RF分析(随机森林)


01 准备数据文件

r 复制代码
#install.packages("randomForest")


#引用包
library(randomForest)
set.seed(123456)

inputFile="diffGeneExp.txt"       #输入文件
setwd("/Users/wangyang/Desktop/BCBM/02randomForest-ANN")      #设置工作目录

#读取输入文件
data=read.table(inputFile, header=T, sep="\t", check.names=F, row.names=1)
data=t(data)
group=gsub("(.*)\\_(.*)", "\\2", row.names(data))

#随机森林树
rf=randomForest(as.factor(group)~., data=data, ntree=500)
pdf(file="forest.pdf", width=6, height=6)
plot(rf, main="Random forest", lwd=2)
dev.off()

#找出误差最小的点
optionTrees=which.min(rf$err.rate[,1])
optionTrees
rf2=randomForest(as.factor(group)~., data=data, ntree=optionTrees)

#查看基因的重要性
importance=importance(x=rf2)

#绘制基因的重要性图
pdf(file="geneImportance.pdf", width=6.2, height=7.8)
varImpPlot(rf2, main="")
dev.off()

#挑选疾病特征基因
rfGenes=importance[order(importance[,"MeanDecreaseGini"], decreasing = TRUE),]
rfGenes=names(rfGenes[rfGenes>1])     #挑选重要性评分大于1的基因
#rfGenes=names(rfGenes[1:30])         #挑选重要性评分最高的30个基因
write.table(rfGenes, file="rfGenes.txt", sep="\t", quote=F, col.names=F, row.names=F)

#输出重要基因的表达量
sigExp=t(data[,rfGenes])
sigExpOut=rbind(ID=colnames(sigExp),sigExp)
write.table(sigExpOut, file="rfGeneExp.txt", sep="\t", quote=F, col.names=F)
相关推荐
DeepModel8 小时前
机器学习降维核心:奇异值分解 SVD
人工智能·python·机器学习
十铭忘8 小时前
认知循环架构与现有智能体:区别和联系
人工智能·架构
tang777898 小时前
OpenClaw数据采集实战:隧道代理实测测评
大数据·人工智能·爬虫·网络协议·tcp/ip·数据挖掘·opencllaw
蚂蚁数据AntData8 小时前
DB-GPT V0.8.0 版本更新|范式跃迁:AI + Data 驱动的数据分析交互体验升级
大数据·数据库·人工智能·数据分析·开源
Agent产品评测局8 小时前
能源行业自动化解决方案选型,安全与降本双提升:2026企业级智能体选型指南
运维·人工智能·安全·ai·chatgpt·自动化
杜子不疼.8 小时前
Spring Cloud + AI:微服务架构下的智能路由、故障自愈、日志分析
人工智能·spring cloud·架构
知识靠谱8 小时前
【大模型智能体应用】Claude Code 的上下文记忆管理系统架构解析:7层渐进式设计的工程思考
人工智能
Codigger官方8 小时前
从一维到无限:Phoenix 语言如何用“矩阵思维”重塑 AI 时代的算力逻辑
人工智能·线性代数·矩阵
淬炼之火8 小时前
笔记:LoRA,一种针对大语言模型的参数高效微调方法
人工智能·笔记·语言模型
SpaceAIGlobal8 小时前
医护人员使用AI生成PPT:如何保证原始数据不被篡改?
人工智能·powerpoint