R语言*号标识显著性差异判断组间差异是否具有统计意义


前言

该R代码用于对Iris数据集进行多组比较分析,探讨不同鸢尾花品种在不同测量变量(花萼和花瓣长度与宽度)上的显著性差异。通过将数据转换为长格式,并利用ANOVA和Tukey检验,代码生成了不同品种间的显著性标记,并将结果导出为Excel文件。同时,代码使用柱状图显示均值、标准差及显著性星号标记,使结果更加直观。


代码说明

代码如下

c 复制代码
# 加载必要的包
library(dplyr)         # 用于数据操作
library(tidyr)         # 用于数据整理
library(ggplot2)       # 用于数据可视化
library(multcompView)  # 用于多重比较结果可视化
library(writexl)       # 用于将数据导出为Excel文件
library(tidyverse)     # 包含dplyr、tidyr等,用于数据处理和可视化

# 定义函数用于添加显著性星号
add_significance <- function(p_value) {
  if (p_value < 0.001) {
    "***"
  } else if (p_value < 0.01) {
    "**"
  } else if (p_value < 0.05) {
    "*"
  } else {
    ""
  }
}
# 根据P值的大小添加显著性符号("*"、"**"、"***")

# 将数据转换为长格式
iris_long <- iris %>%
  pivot_longer(cols = starts_with("Sepal") | starts_with("Petal"),
               names_to = "Variable", values_to = "Value")
# 将Iris数据集转换为长格式,以便后续分组计算。新列命名为Variable和Value

# 计算每个Variable和Species组合的均值和标准差
summary_stats <- iris_long %>%
  group_by(Variable, Species) %>%
  summarise(
    mean = mean(Value),
    sd = sd(Value),
    .groups = 'drop'
  )
# 对每个测量变量和品种组合,计算均值和标准差,结果存储在summary_stats中

# 对每个变量组的不同品种之间进行ANOVA和Tukey检验,并生成显著性星号标记
significance_results <- data.frame()   # 创建空数据框以存储显著性检验结果
variables <- unique(iris_long$Variable) # 获取所有变量名的唯一值

for (var in variables) {
  # 子集数据
  var_data <- iris_long %>% filter(Variable == var)
  # 选择当前变量的数据子集
  
  # ANOVA 和 Tukey 检验
  anova_result <- aov(Value ~ Species, data = var_data)
  tukey_result <- TukeyHSD(anova_result)
  # 使用ANOVA检验变量在不同品种之间的差异,然后进行Tukey事后检验
  
  # 提取 Tukey 检验结果
  tukey_data <- as.data.frame(tukey_result$Species)
  colnames(tukey_data)[colnames(tukey_data) == "p adj"] <- "p_value" # 重命名列
  tukey_data <- tukey_data %>%
    rownames_to_column(var = "comparison") %>%
    mutate(significance = sapply(p_value, add_significance), Variable = var) %>%
    select(Variable, comparison, significance)
  # 提取Tukey检验结果并添加显著性星号
  
  significance_results <- rbind(significance_results, tukey_data)
  # 将每个变量的显著性结果添加到significance_results中
}

# 将显著性结果合并到 summary_stats 数据框
summary_stats <- summary_stats %>%
  left_join(significance_results %>%
              select(Variable, significance),
            by = "Variable") %>%
  mutate(y_position = mean + sd + 0.2) # 设置星号显示位置
# 将显著性星号标记添加到均值和标准差数据框中,y_position用于设置星号显示高度

# 导出到Excel
write_xlsx(list("Summary Statistics" = summary_stats,
                "Significance Results" = significance_results),
           "iris_species_significance.xlsx")
# 将统计汇总和显著性检验结果导出为Excel文件

# 绘制分组柱状图并添加显著性星号
ggplot(summary_stats, aes(x = Variable, y = mean, fill = Species)) +
  geom_bar(stat = "identity", position = position_dodge(width = 0.8)) +
  geom_errorbar(aes(ymin = mean - sd, ymax = mean + sd),
                width = 0.2, position = position_dodge(width = 0.8)) +
  geom_text(aes(y = y_position, label = significance),
            position = position_dodge(width = 0.8), vjust = -0.5, color = "red") +
  labs(title = "Mean and SD of Iris Measurements by Species",
       x = "Measurement Variable", y = "Mean Value") +
  theme_minimal() +
  scale_fill_brewer(palette = "Set1")
# 使用ggplot2绘制分组柱状图,添加误差条和显著性标记,并对图例和标签进行格式设置

总结

此代码为研究者提供了一个完整的数据分析和可视化流程,不仅对数据进行了均值、标准差的计算,还通过显著性星号展示了各品种间的差异。通过将显著性分析结果以星号标记在图中呈现,帮助读者更清晰地了解不同变量在鸢尾花品种之间的差异,从而更好地理解数据。

相关推荐
MATLAB代码顾问11 小时前
5大智能算法优化标准测试函数对比(Python实现)
开发语言·python
万粉变现经纪人13 小时前
如何解决 pip install llama-cpp-python 报错 未安装 CMake/Ninja 或 CPU 不支持 AVX 问题
开发语言·python·开源·aigc·pip·ai写作·llama
清风明月一壶酒13 小时前
OpenClaw自动处理Word文档全流程
开发语言·c#·word
其实防守也摸鱼13 小时前
CTF密码学综合教学指南--第五章
开发语言·网络·笔记·python·安全·网络安全·密码学
小郑加油14 小时前
python学习Day12:pandas安装与实际运用
开发语言·python·学习
AC赳赳老秦14 小时前
投标合规提效:用 OpenClaw 实现标书 / 合同自动审核、关键词校验、格式优化,降低废标风险
开发语言·前端·python·eclipse·emacs·deepseek·openclaw
KuaCpp15 小时前
C++面向对象(速过复习版)
开发语言·c++
wbs_scy15 小时前
Linux线程同步与互斥(三):线程同步深度解析之POSIX 信号量与环形队列生产者消费者模型,从原理到源码彻底吃透
java·开发语言
2zcode15 小时前
基于MATLAB元胞自动机(CA)的AZ80A镁合金动态再结晶(DRX)过程模拟
开发语言·matlab·动态再结晶
iCxhust15 小时前
微机原理实践教程(C语言篇)---A001闪烁灯
c语言·开发语言·汇编·单片机·嵌入式硬件·51单片机·微机原理