从0开始学习R语言--Day62--RE插补

对于会有多次测量值的数据,用普通的回归去插补,往往会忽略掉数据个体本身的特点,毕竟多次的测量值其实就代表了数据个体的不稳定性,存在额外的干扰。

而RE的插补原理是结合个体本身的随机效应和群体的固体效应再加上截距进行插补的,比如学生A参加了月考,期中考,但是缺席了期末考,如果要插补期末考的成绩,除了班级的教学质量之外,学生个体的学习能力也很关键,可能存在学生本身是学霸,成很稳定,也可能存在学生是中游水平,期中考试超常发挥,需要综合考量。

以下是一个例子:

复制代码
library(nlme)
library(ggplot2)
# 生成模拟数据:10个患者,每个患者测量3-5次
set.seed(123)

n_patients <- 10
time_points <- 5

# 创建数据框
data <- data.frame(
  patient_id = rep(1:n_patients, each = time_points),
  time = rep(1:time_points, times = n_patients),
  treatment = rep(rbinom(n_patients, 1, 0.5), each = time_points)  # 治疗组(0/1)
)

# 生成因变量y(含随机效应和噪声)
data$y <- 2 * data$treatment + rep(rnorm(n_patients, sd = 1.5), each = time_points) + 
  rnorm(nrow(data), sd = 1)

# 人为制造缺失值(MAR:缺失概率与时间相关)
data$y[data$time > 3 & runif(nrow(data)) > 0.7] <- NA
head(data, 15)

# 拟合线性混合模型(LMM)
model <- lme(y ~ treatment + time, random = ~ 1 | patient_id, 
             data = data, na.action = na.exclude)

# 预测缺失值(插补)
data$y_imputed <- ifelse(is.na(data$y), predict(model, newdata = data), data$y)

# 查看插补结果
head(data[is.na(data$y), c("patient_id", "time", "y", "y_imputed")], 10)

ggplot(data, aes(x = time, y = y_imputed, group = patient_id, color = factor(treatment))) +
  geom_line(alpha = 0.6) +
  geom_point(aes(y = y), size = 2, na.rm = TRUE) +  # 原始观测点(含缺失)
  labs(title = "RE插补效果(红色点为原始观测值)", 
       x = "时间", y = "观测值", color = "治疗组") +
  theme_minimal()

输出:

从图中可以看到,尽管RE能考虑随机效应加固体效应,但是如果样本本身存在离散值或者波动比较大的话,那么不管用什么方法去插补效果都比较差。

相关推荐
前端小端长2 分钟前
深入理解Composition API与Vue3.0响应式原理
开发语言·javascript
野老杂谈1 小时前
【Solidity学习】合约基本结构与状态变量
学习·区块链
承渊政道2 小时前
C++学习之旅【C++类和对象(下)】
c++·学习·visual studio
枫叶丹42 小时前
【Qt开发】Qt窗口(九) -> QFontDialog 字体对话框
c语言·开发语言·数据库·c++·qt
海上彼尚3 小时前
Go之路 - 7.go的结构体
开发语言·后端·golang
源代码•宸8 小时前
分布式缓存-GO(分布式算法之一致性哈希、缓存对外服务化)
开发语言·经验分享·分布式·后端·算法·缓存·golang
云和数据.ChenGuang8 小时前
PHP-FPM返回的File not found.”的本质
开发语言·php·运维工程师·运维技术
R.lin8 小时前
Java 8日期时间API完全指南
java·开发语言·python
旖旎夜光9 小时前
多态(11)(下)
c++·学习
yangpipi-9 小时前
《C++并发编程实战》 第4章 并发操作的同步
开发语言·c++