卡方检验作为一种非常著名的非参数检验方法(不受总体分布因素的限制),在工程试验、临床试验、社会调查等领域被广泛应用。但是也正是因为使用的便捷性,造成时常被误用。本文参阅相关的文献,对卡方检验的适用性进行粗浅的论述。
首先,从技术角度来看,(1)卡方检验的样本涉及的因素(也就是变量)需要两个(含)以上,而且是定性变量(分类变量,定类变量),其值可以是数字,也可以符号,但是即使是数字也不具备数量的含义,只是用于区分。比如性别变量,它的值可以是男或女,也可以是0或1,A或B;(2)其样本数据是由多个因素在不同水平(取值)情况下共同决定的数据,直观上表现为列联表(交互分类表,交叉表),形如下表。
|-----|-----|-----|
| | 北京 | 上海 |
| 满意 | 600 | 480 |
| 一般 | 120 | 150 |
| 不满意 | 80 | 70 |
[某项产品的地区调查(人)]
上表涉及的因素(变量)有两个,分别是地区和满意度,其值分别是[北京,上海]和[满意,一般,不满意]。而样本是由两个变量的不同取值作用下的统计数据,可以是总和,也可以是平均数,或者其他统计量。
其次,从应用的角度来看,我们的目的是要进行无差异推断,或者不相关推断(无差异等价于不相关)。比如上述问题可以回答北京、上海两地对该产品的满意度是否无差异,或者说对该产品的满意度是否与上述地区不相关。通过即调用卡方检验函数,获得p=0.00472,在显著性水平0.05下,两地满意度无差异(或与地区不相关)的假设被拒绝。于是我们可以认为"两地对某产品的满意度是有差异的"或"某产品的满意度与地区有相关性"。代码如下:
#chi2_contingency是卡方检验函数
from scipy.stats import chi2_contingency
import numpy as np
#定义样本数据
X= np.array([[600,120,80],[480,150,70]])
chi2_contingency(X)
结果:(10.714285714285714, 0.004714356473549276, 2, array([[576., 144., 80.],[504., 126., 70.]]))。这些数值分别为卡方值、p值、自由度和理论值。
还有一种特殊情况,就是样本数据只有一组,也就是说表面上看因素只有一个,这种情况实际是进行"试验值(实际值,经验值)与理论值的无差异"推断。如下例:
进行抛硬币试验,进行七轮,每轮抛20次,数据如下表所示。是否可以认为硬币正面与反面(只有这两种情况)朝上的概率相同。
|-----|-----|-----|-----|-----|-----|-----|
| 第一轮 | 第二轮 | 第三轮 | 第四轮 | 第五轮 | 第六轮 | 第七轮 |
| 8 | 12 | 10 | 7 | 9 | 8 | 9 |
[硬币正面向上的频数]
乍一看,此样本只有一组数据,而结合要解答的问题,实际上还有一组数据,即理论值。该理论值是等概率条件下硬币正面向上的次数,也就是每轮都是10。于是样本就变成了
|-----|-----|-----|-----|-----|-----|-----|
| 第一轮 | 第二轮 | 第三轮 | 第四轮 | 第五轮 | 第六轮 | 第七轮 |
| 8 | 12 | 10 | 7 | 9 | 8 | 9 |
| 10 | 10 | 10 | 10 | 10 | 10 | 10 |
[硬币正面向上的频数]
通过将上述样本数据带入卡方检验函数,p=0.98928。即在显著性水平0.05下,我们接受"硬币正面与反面朝上的概率相同"这一假设。
再来看一个例子,某餐厅对一年内每周内每天的营业额进行统计(均值),看看营业情况是否存在时间方面的差异,数据如下。
|----|----|----|----|----|----|----|
| 周一 | 周二 | 周三 | 周四 | 周五 | 周六 | 周日 |
| 9 | 11 | 6 | 7 | 8 | 15 | 10 |
[一周的营业额统计(万元)]
该问题同样是一种"试验值(实际值,经验值)与理论值的无差异"推断问题。只不过理论值的与上例不同。如果我们认为营业额与时间无关,也就意味的每天营业额是相同的,于是理论值将由每天营业额的均值来体现。即样本数据为:
|------|------|------|------|------|------|------|
| 周一 | 周二 | 周三 | 周四 | 周五 | 周六 | 周日 |
| 9 | 11 | 6 | 7 | 8 | 15 | 10 |
| 9.42 | 9.42 | 9.42 | 9.42 | 9.42 | 9.42 | 9.42 |
[一周的营业额统计(万元)]
通过将上述样本数据带入卡方检验函数,p=0.85073。即在显著性水平0.05下,我们接受"营业额不存在时间方面的差异"这一假设。尽管从表面来看,该结果不太容易被接受,似乎周末营业情况更好,但是放眼总体(更长的时间范围),并不能支持直观感受。
***********************接下来划重点,举一个非常有代表性的误用卡方检验的例子***************
某调查机构调查了不同收入水平话费支出的情况,试图分析收入水平是否与话费支出水平相关。数据如下
|----|------|------|------|------|------|------|-------|
| 收入 | 3000 | 4000 | 5000 | 6000 | 7000 | 8000 | 10000 |
| 话费 | 90 | 100 | 150 | 180 | 200 | 300 | 400 |
然后对两组数据进行了卡方检验,p=0.000006。结论:拒绝两者不相关的假设。也就是说收入水平与话费支出水平是相关的。从结果来看是没有问题的,两组数据确实是显著正相关的,其皮尔逊相关系数corr=0.9758。但是从样本数据本身来看,不符合使用卡方检验的适用条件。因为:
(1)收入和话费两个因素不是定性变量,而是定量变量。
(2)样本值也不是两个因素共同确定的数值,而是归属于每个因素本身。
对于此类问题使用相关系数才是合理的。
如果上述调查结果改为不同收入水平和话费支出水平下的用户数量,则可以应用卡方检验。比如数据转换为
|---------|------|------|------|------|------|------|-------|
| | 3000 | 4000 | 5000 | 6000 | 7000 | 8000 | 10000 |
| <=90 | 85 | 30 | 24 | 7 | 18 | 12 | 3 |
| 90-100 | 7 | 100 | 11 | 29 | 12 | 9 | 5 |
| 100-150 | 15 | 20 | 75 | 14 | 10 | 6 | 8 |
| 150-200 | 5 | 4 | 5 | 90 | 19 | 16 | 1 |
| 200-250 | 6 | 9 | 8 | 3 | 50 | 11 | 3 |
| 250-300 | 3 | 16 | 15 | 14 | 15 | 80 | 6 |
| >300 | 2 | 9 | 4 | 19 | 13 | 20 | 90 |
使用卡方检验后<0.05,于是我们可以拒绝收入水平与话费支出水平不相关的假设,也就是说收入水平会影响(或决定)话费支出水平。