2025 - 生信信息学 - GEO数据分析 - RF分析(随机森林)

GEO数据分析 - RF分析(随机森林)


01 准备数据文件

r 复制代码
#install.packages("randomForest")


#引用包
library(randomForest)
set.seed(123456)

inputFile="diffGeneExp.txt"       #输入文件
setwd("/Users/wangyang/Desktop/BCBM/02randomForest-ANN")      #设置工作目录

#读取输入文件
data=read.table(inputFile, header=T, sep="\t", check.names=F, row.names=1)
data=t(data)
group=gsub("(.*)\\_(.*)", "\\2", row.names(data))

#随机森林树
rf=randomForest(as.factor(group)~., data=data, ntree=500)
pdf(file="forest.pdf", width=6, height=6)
plot(rf, main="Random forest", lwd=2)
dev.off()

#找出误差最小的点
optionTrees=which.min(rf$err.rate[,1])
optionTrees
rf2=randomForest(as.factor(group)~., data=data, ntree=optionTrees)

#查看基因的重要性
importance=importance(x=rf2)

#绘制基因的重要性图
pdf(file="geneImportance.pdf", width=6.2, height=7.8)
varImpPlot(rf2, main="")
dev.off()

#挑选疾病特征基因
rfGenes=importance[order(importance[,"MeanDecreaseGini"], decreasing = TRUE),]
rfGenes=names(rfGenes[rfGenes>1])     #挑选重要性评分大于1的基因
#rfGenes=names(rfGenes[1:30])         #挑选重要性评分最高的30个基因
write.table(rfGenes, file="rfGenes.txt", sep="\t", quote=F, col.names=F, row.names=F)

#输出重要基因的表达量
sigExp=t(data[,rfGenes])
sigExpOut=rbind(ID=colnames(sigExp),sigExp)
write.table(sigExpOut, file="rfGeneExp.txt", sep="\t", quote=F, col.names=F)
相关推荐
格林威1 分钟前
工业相机“心跳”监测脚本(C# 版) 支持海康 / Basler / 堡盟工业相机
开发语言·人工智能·数码相机·opencv·计算机视觉·c#·视觉检测
404号扳手2 分钟前
03大模型核心原理
人工智能·llm
沪漂阿龙在努力4 分钟前
深度拆解LangChain Chains与LCEL:从Runnable到生产级AI工作流
人工智能
AI专业测评8 分钟前
2026网文圈大地震:顶配AI写作神器实测,这几款让“代练”彻底失业
人工智能·算法·aigc·ai写作
七月稻草人13 分钟前
ToClaw炒股个人踩坑实录:我实盘 2 个月踩过的坑、避坑指南与真实使用感受
大数据·人工智能·toclaw
慕容卡卡15 分钟前
你所不知道的RAG那些事
java·开发语言·人工智能·spring boot·spring cloud
砍材农夫17 分钟前
spring-ai 第十二mcp server调用入门(http协议)
人工智能·spring·http
大数据魔法师18 分钟前
AI Agent(三)- Ollama安装与使用
人工智能
safety_140419 分钟前
智驾传感器十问——激光雷达和毫米波雷达的作用(1)
人工智能
沪漂阿龙22 分钟前
从输入到输出:一文搞懂 LangChain Model I/O 的核心玩法
人工智能·langchain