R语言处理缺失数据(1)-mice

复制代码
#清空
rm(list=ls())
gc()

###生成模拟数据###
#生成100个随机数
library(magrittr)
set.seed(1)
asd<-rnorm(100, mean = 60, sd = 10) %>% round #平均60,标准差10
#将10个数随机替换为NA
NA_positions <- sample(1:100, 10)
asd[NA_positions] <- NA
#转化为data.frame
asd <-asd %>% data.frame
colnames(asd)<-"Age"
set.seed(1)
#添加其他相关数据
asd$Weight<-rnorm(100, mean = 75, sd = 5) %>% round
asd$BMI<-rnorm(100,mean=19,sd=4)
asd$Sex<-sample(0:1,100,replace=T) %>% as.factor
asd$death<-sample(0:1,100,replace=T) %>% as.factor
#查看数据分布
str(asd)
library(ggplot2)
ggplot(asd,aes(Age))+#数据集、坐标轴
  geom_histogram(color = "#000000", fill = "#0099F8")+#设置直方图线条颜色为黑色,设置直方图填充颜色为蓝色。
  ggtitle("数据分布") +#设置坐标轴名称
  theme_classic() +#将主题设置为经典风格
  theme(plot.title = element_text(size = 18))#将文本字号设置为18


###缺失情况观察###
library(VIM) 
aggr(asd,prop=T, numbers=F, sortVars=T)
library(mice)
md.pattern(asd)

###使用 MICE 包进行多重插补缺失值###
library(mice)
help(package="mice")
imp_asd<-mice(asd,method="rf",m=10,seed=123)#m代表插补几次
stripplot(imp_asd, cex=1, alpha=1)#可视化插补情况,蓝色是原始数据,红色是插补数据
densityplot(imp_asd)
result<-complete(imp_asd)

###拟合模型###
fit<-with(imp_asd,glm(death~Age+Weight+BMI+Sex,family = binomial))#生成10个回归模型
fit_combine<-pool(fit)#合并10个模型
summary(fit_combine)#总结

备注:mice包支持的方法:

相关推荐
小艳加油2 天前
R语言生态环境数据分析:从基础操作到水文、地形、物种多度、空间聚类、排序与生物多样性的系统应用
数据分析·r语言·生态环境
Davina_yu4 天前
R语言报错:无法打开文件‘sales_2025.txt‘: No such file or directory
开发语言·r语言
小小8程序员4 天前
R 语言 4.5.0 全解析:性能优化、新特性与使用指南下载安装步骤
r语言
墨&白.5 天前
如何卸载/更新Mac上的R版本
开发语言·macos·r语言
Lun3866buzha6 天前
【深度学习】Mask R-CNN在温室番茄成熟度检测中的应用——基于ResNet18与FPN的多级特征融合分类系统
深度学习·r语言·cnn
Katecat996636 天前
夜间收费站与道路场景多类型车辆检测与分类:基于Faster R-CNN R50 PAFPN的实现_1
分类·r语言·cnn
Piar1231sdafa6 天前
红枣目标检测Cascade R-CNN改进版_FPN结构优化详解
目标检测·r语言·cnn
天桥下的卖艺者7 天前
R语言绘制复杂加权数据(nhanes数据)多模型生存分析决策曲线
开发语言·r语言
Tiger Z7 天前
《R for Data Science (2e)》免费中文翻译 (第15章) --- Regular expression(1)
数据分析·r语言·数据科学·免费书籍
Dekesas96957 天前
【深度学习】基于Faster R-CNN的黄瓜幼苗智能识别与定位系统,农业AI新突破
人工智能·深度学习·r语言