从0开始学习R语言--Day09--方差分析

前两天我们学习了T检验来判断两组数据之间的差异是显著存在还是因为偶然,但如果存在多组数据,我们还是两两去对比作T检验的话,会存在假阳性(也就是把没有差异判断为有差异),虽然每次单独的T检验只有5%,但即使数据只是多了三组,也要作三次T检验,假阳性的概率就被叠加到了大概14%。

方差分析

而如果我们采用方差分析的方式,先判断是否存在差异,并在后续判断两两之间的差异时,考虑数据组内的差异性,因为存在即使两组数据的均值不同,但如果组内的方差较大,可能会得出差异并不显著的判断。

总的来说就是,先做整体检验,也就是F检验,如果算得的p值小于0.05,则判断属于零假设(所有组的均值相等);反之则属于备择假设(所有组的均值相等)。

让我们来生成几组数据来看看:

R 复制代码
set.seed(123)
group_A <- rnorm(30, mean=75, sd=5)  # 均值75
group_B <- rnorm(30, mean=80, sd=5)  # 均值80
group_C <- rnorm(30, mean=78, sd=5)  # 均值78

data <- data.frame(
  score = c(group_A, group_B, group_C),
  group = factor(rep(c("A", "B", "C"), each=30))
)

mean_A <- mean(data$score[data$group == "A"])  # 75.1
mean_B <- mean(data$score[data$group == "B"])  # 80.2
mean_C <- mean(data$score[data$group == "C"])  # 77.9

print(mean_A)
print(mean_B)
print(mean_C)

t.test(data$score[data$group == "A"], data$score[data$group == "B"])$p.value  # 2e-5
t.test(data$score[data$group == "A"], data$score[data$group == "C"])$p.value  # 0.02
t.test(data$score[data$group == "B"], data$score[data$group == "C"])$p.value  # 0.03

anova_result <- aov(score ~ group, data=data)
summary(anova_result)  # p=1.2e-6(显著)

TukeyHSD(anova_result)

输出:

R 复制代码
[1] 2.75475e-06
[1] 0.006857083
[1] 0.01466084
            Df Sum Sq Mean Sq F value   Pr(>F)    
group        2  564.9  282.43   14.03 5.25e-06 ***
Residuals   87 1751.9   20.14                     

  Tukey multiple comparisons of means
    95% family-wise confidence level

[1] 74.76448
[1] 80.89169
[1] 78.1221

Fit: aov(formula = score ~ group, data = data)

$group
         diff        lwr          upr     p adj
B-A  6.127210  3.3644587  8.889962265 0.0000027
C-A  3.357621  0.5948689  6.120372541 0.0130630
C-B -2.769590 -5.5323415 -0.006837922 0.0492944

可以看到,如果按照正常的流程去算,我们只能计算得出三组的均值,但如果均值像我们算得这样,我们无法知道差异是否显著,而如果执行方差分析,就可以先从p值开始算起,知道存在差异后,进一步计算T检验,注意这里对B和A做了方差分析,B>C,A>C,知道两者不存在差异,少了一次比较,看着比较少,但如果数据量多起来,就可以显著地减少误差和工作量。

相关推荐
skywalk81631 分钟前
介绍一下 Backtrader量化框架(C# 回测快)
开发语言·c#·量化
源代码•宸5 分钟前
Leetcode—3314. 构造最小位运算数组 I【简单】
开发语言·后端·算法·leetcode·面试·golang·位运算
lbb 小魔仙5 分钟前
【Java】深入解析 Java 集合底层原理:HashMap 扩容与 TreeMap 红黑树实现
java·开发语言
非凡ghost7 分钟前
批量转双层PDF(可识别各种语言)
windows·学习·pdf·软件需求
FJW0208147 分钟前
Python深浅拷贝
开发语言·python
开开心心_Every9 分钟前
网络管理员IP配置工具:设置多台电脑地址
运维·服务器·网络·网络协议·学习·tcp/ip·edge
Coder个人博客9 分钟前
1233434235
java·开发语言
徐同保10 分钟前
开发onlyoffice插件,功能是选择文本后立即通知父页面
开发语言·前端·javascript
知识分享小能手10 分钟前
Oracle 19c入门学习教程,从入门到精通,Oracle 控制文件与日志文件管理详解(8)
数据库·学习·oracle
Never_Satisfied11 分钟前
C#数组去重方法总结
开发语言·c#