从0开始学习R语言--Day39--Spearman 秩相关

在非参数统计中,不看数据的实际数值,单纯比较两组变量的值的排名是通用的基本方法,但在客观数据中,很多变量的关系都是非线性的,其他的方法不是对样本数据的大小和线性有要求,就是只能对比数据的差异性,而不能展示这种非线性的单调性,比如想知道练习时间与游戏段位的关系,虽然从结果上看是正相关,但在过程中的体现可能是进步速度非常快后趋于稳定,其他的函数方法会漏掉这种细节。

以下是一个例子:

R 复制代码
set.seed(123)
# 生成数据:学习时间增加,成绩总体上升但非线性
Hours <- sort(runif(50, 1, 10))  # 1到10小时,均匀分布
Score <- 50 + 10 * sqrt(Hours) + rnorm(50, 0, 5)  # 非线性关系+噪声

# 构建数据框
df <- data.frame(Hours, Score)
head(df)

# 方法1:直接使用cor.test()
result <- cor.test(df$Hours, df$Score, method = "spearman")
print(result)

# 方法2:手动计算(验证原理)
rank_Hours <- rank(df$Hours)
rank_Score <- rank(df$Score)
n <- nrow(df)
rho_manual <- 1 - (6 * sum((rank_Hours - rank_Score)^2)) / (n * (n^2 - 1))
cat("手动计算的Spearman rho:", rho_manual, "\n")

library(ggplot2)
ggplot(df, aes(x = Hours, y = Score)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE, color = "red") +  # 线性趋势线(对比用)
  labs(title = "学习时间与成绩的Spearman相关 (rho=0.72)")

输出:

R 复制代码
	Spearman's rank correlation rho

data:  df$Hours and df$Score
S = 5248, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.7479952 

手动计算的Spearman rho: 0.7479952 

从结果可以看到,结果显示0.748,属于正相关。而图像显示,如果用一般的方法,直接用线性函数去拟合,会忽略实际数据中弯曲的分布,即不知道数据在实际中的增长方向,会对后续数据的加工使用造成错觉。

相关推荐
m0_480502643 分钟前
Rust 入门 泛型和特征-特征对象 (十四)
开发语言·后端·rust
非凡ghost19 分钟前
AMS PhotoMaster:全方位提升你的照片编辑体验
windows·学习·信息可视化·软件需求
瓦特what?33 分钟前
关于C++的#include的超超超详细讲解
java·开发语言·数据结构·c++·算法·信息可视化·数据挖掘
祁同伟.1 小时前
【C++】动态内存管理
开发语言·c++
一只鲲1 小时前
40 C++ STL模板库9-容器2-vector
开发语言·c++
励志不掉头发的内向程序员1 小时前
C++基础——内存管理
开发语言·c++
lifallen2 小时前
JCTools 无锁并发队列基础:ConcurrentCircularArrayQueue
java·开发语言·数据结构·算法
千里镜宵烛2 小时前
深入理解 Linux 线程:从概念到虚拟地址空间的全面解析
开发语言·c++·操作系统·线程
云间月13142 小时前
飞算JavaAI智慧教育场景实践:从个性化学习到教学管理的全链路技术革新
学习·飞算javaai挑战赛
Eternity_GQM2 小时前
【Word VBA Zotero 引用宏错误分析与改正指南】【解决[21–23]参考文献格式插入超链接问题】
开发语言·c#·word