【R语言】卡方检验

一、定义

卡方检验是用来检验样本观测次数与理论或总体次数之间差异性的推断性统计方法,其原理是比较观测值与理论值之间的差异。两者之间的差异越小,检验的结果越不容易达到显著水平;反之,检验结果越可能达到显著水平。

二、用法

chisq.test()函数

函数的用法:

R 复制代码
chisq.test(x, y=NULL, correct=TRUE, p=rep(1/length(x), length(x)), rescale.p=FALSE, simulate.p.value=FALSE, B=2000)

参数详解:

  1. x:数值向量、因子或矩阵;
  2. y:数值向量或因子;当x是因子时,y也必须是一个相同长度的因子;如果x是一个矩阵,那么y就会被自动忽略。
  3. correct:用于单元格的数值小于5时的连续矫正,只能用于2x2的列联表;连续性矫正通常用于减少由于样本量较小而导致的偏差。
  4. p :表示与x长度相同的概率值向量。用于拟合优度检验时,指定每个类别的期望概率。如果未指定,则默认为等概率分布,即每个类别的概率为1/length(x)
  5. rescale.p :逻辑参数,用于控制是否将p的和重新调整为1;默认情况下为FALSE,表示不进行调整。如果p的元素之和不为1,且rescale.p = TRUE,则会自动将p重新调整为等概率分布。
  6. simulate.p.value :逻辑参数,用于控制是否以蒙特卡洛采样的方法模拟p值。默认情况下为FALSE,表示不使用蒙特卡洛模拟。当样本量较小或期望频数较小时,使用蒙特卡洛模拟可以得到更准确的p值。
  7. B :整数参数,指定蒙特卡洛采样的重复次数。仅在simulate.p.value = TRUE时有效。默认情况下为2000次重复采样。

三、举例

1、默认p中所有元素都相等

随机抽取了50名儿童从5种玩具中挑选出一种自己最喜欢的玩具。

R 复制代码
# 50名儿童对5种玩具的选择结果
toys <- c(10, 8, 20, 7, 5)
# 检验这5种玩具的结果是否相同
chisq.test(toys)
# 参数p中的每个元素默认相同,故设置p=rep(0.2,5)
chisq.test(toys, p=rep(0.2,5))

从以下结果可知,卡方值为14,自由度为4,p值为0.008<0.05,故可得出结论这5种玩具受欢迎程度差异显著。

2、p中的元素不等

R 复制代码
# 50名儿童对5种玩具的选择结果
toys <- c(10, 8, 20, 7, 5)
p <- c(0.21, 0.13, 0.43, 0.12, 0.11)
chisq.test(toys, p=p)

从 以下结果可知,5种玩具的受欢迎程度不同,但这些不同与前期研究的结论是吻合的(p=0.953>0.05

R 复制代码
set.see(123)
norm <- rnorm(10000)
ks.test(norm, y="pnorm")

3、拟合优度检验ks.test()函数

ks.test()函数是 R 语言中用于执行 Kolmogorov-Smirnov (K-S) 检验的函数。K-S 检验是一种非参数检验方法,用于比较一个样本的分布与一个参考分布(或两个样本的分布)是否存在差异。具体来说,它评估样本数据的累积分布函数(CDF)与参考分布(或另一个样本数据的 CDF)之间的差异是否显著。

单样本K-S检验

检验一个样本是否服从标准正态分布:

R 复制代码
# 生成一个标准正态分布的样本
set.seed(123) # 设定随机种子数
sample_data <- rnorm(10000)

# 执行单样本 K-S 检验
ks.test(sample_data, "pnorm", mean = 0, sd = 1)

双样本K-S检验

检验两个样本的分布是否相同

R 复制代码
# 生成两个样本
set.seed(123)
sample1 <- rnorm(10000, mean = 0, sd = 1)
sample2 <- rnorm(10000, mean = 0.5, sd = 1)

# 执行双样本 K-S 检验
ks.test(sample1, sample2)

4、二维列联表独立性检验

若要对二维列联表进行独立性检验,只需要让chisq.test()函数中的x参数为一个矩阵,或者让x参数和y参数都是向量(或同因子)。

用vcd扩展包中的Arthritis数据集为例,男性和女性在接受两种实验处理时的人数是否一致,以及这种相关疗法是否有效果。

x参数是矩阵

R 复制代码
library(vcd)
table1 <- table(Arthritis$Treatment, Arthritis$Sex)
table1

table2 <- table(Arthritis$Treatment, Arthritis$Improved)
table2

chisq.test(x=table1)
chisq.test(x=table2) 

x和y参数都是因子

R 复制代码
chisq.test(x=Arthritis$Treatment, y=Arthritis$Sex)
chisq.test(x=Arthritis$Treatment, y=Arthritis$Improved)

上面两种方法的结果都想死,男性和女性在接受两种实验处理时的人数是一致的,因为p=0.5356>0.05;新疗法也是有效果的,因为p=0.001463<<0.05。

相关推荐
华梦岚1 小时前
F#语言的学习路线
开发语言·后端·golang
lly2024062 小时前
XML 元素:结构化数据的基石
开发语言
钟离墨笺2 小时前
【c++】四种类型转换形式
开发语言·c++
“抚琴”的人2 小时前
【C#零基础从入门到精通】(一)——了解C#
开发语言·c#
梅清瑶2 小时前
Powershell语言的数据库编程
开发语言·后端·golang
吴天德少侠3 小时前
设计模式中的关联和依赖区别
java·开发语言·设计模式
汤姆和杰瑞在瑞士吃糯米粑粑3 小时前
【C++学习篇】C++11
开发语言·c++
zjkzjk77113 小时前
C++ 左值引用 & 右值引用 && std::move()左值改右值 移动构造函数()
开发语言·c++
Thomas_YXQ3 小时前
Unity3D Shader 简析:变体与缓存详解
开发语言·前端·缓存·unity3d·shader
max5006003 小时前
Python 脚本实现数据可视化
开发语言·python·信息可视化