统计学9——分类数据统计

知识结构

内容精读

1.分类数据与 $\\chi\^2$ 统计量

分类数据在第一章已经进行了详细介绍，就是对数据进行分类的结果，特征是，调查结果虽然用数值表示，但不同数值描述了调查对象的不同特征。由此分类数据的结果是频数，而 $\\chi\^2$ 检验是对频数进行分析的统计分析方法

$\\chi\^2$ 统计量作为三大统计量之一，可以用于测定两个分类变量间的相关程度。

\\chi\^2=\\sigma\\frac{(f_{0}-f_{e})\^2}{f_{2}}

其中 $f_{0}$ 表示观察值频数， $f_{2}$ 表示期望值频数

$\\chi\^2$ 统计量描述了观察值与期望值的接近程度，两者越接近， $\\chi\^2$ 就越小。

2.拟合优度检验

拟合优度检验是用 $\\chi\^2$ 统计量进行统计的显著性检验的一个重要内容。依据总体分布状况，计算出分类变量中各类别的期望频数，与观察频数进行对比，判断期望频数与观察频数是否有显著差异。

拟合优度检验的一般步骤如下：

计算 $f_{0}-f_{e}$
计算 $(f_{0}-f_{e})\^2$
计算 $(f_{0}-f_{e})\^2/f_{e}$
计算 $\\chi\^2$
与 $\\chi\^2_{\\alpha}(R-1)$ 进行比较，若 $\\chi\^2\>\\chi\^2_{\\alpha}(R-1)$ ，则认为观察频数与期望频数有显著差异。说明选取的分类特征对研究问题是有影响的。

3.独立性检验

拟合优度是对一个变量的检验，有时候我们也会遇到变量数不唯一的问题，比如研究两个变量间是否存在联系。这种对两个变量的研究又称为独立性检验，通常借助列联表进行性展示。

所谓列联表就是将两个或以上的变量进行交叉分类的频数分布表。

|----|-----|-----|-----|-----|
| 地区 | 一级 | 二级 | 三级 | 合计 |
| 甲 | 52 | 64 | 24 | 140 |
| 乙 | 60 | 59 | 52 | 171 |
| 丙 | 50 | 65 | 74 | 189 |
| 合计 | 162 | 188 | 150 | 500 |

上面就是一个3×3的二维列联表，三个地区与三个等级间相互交叉。

针对上面的列联表，独立性检验就是检查地区与等级之间是否有关联。

计算方法与拟合优度相同，都需要构建 $\\chi\^2$ 统计量。只是对于列联表中每个单位的期望频数采用 $f_{e}=\\frac{RT×CT}{n}$ ，RT、CT分别为单元所在行、列的合计值。 $\\chi\^2$ 统计量的自由度df=(R-1)(C-1)，若 $\\chi\^2\>\\chi\^2_{\\alpha}{(R-1)(C-1)}$ ，则拒绝原假设，认为两变量间不是相互独立的。

4.相关性检验

前面的独立性检验只是判断两个变量是否存在联系，那么如果存在联系，联系的程度又是怎样的呢？这时候就需要进行相关性检验。

$\\varphi$ 相关系数

\\varphi=\\sqrt{\\chi\^2/n}

是列联表中最常用的一种相关系数。 $\\varphi$ 的值应该在0-1之间，当两个变量相互独立时， $\\varphi=0$ ， $\\varphi=1 或 \\varphi=-1$ 时是两个变量完全相关的一种情况。 $\\varphi$ 的绝对值越大，就说明变量的相关程度越高。

ps:

当列联表的行或列大于2时， $\\varphi$ 会随着行列的变大而变大，且没有上限，这时使用 $\\varphi$ 测定相关程度就不够清晰了。

c相关系数

c=\\sqrt{\\frac{\\chi\^2}{\\chi\^2+n}}

c系数主要用于列联表大于2×2的情况。同样当两个变量相互独立式c=0,并且它不会大于1。c系数的最大值依赖于列联表的行数和列数，且随着R和C的增大而增大，因此根据不同的行和列计算的列联系数不便于比较。但因其计算简便，且对总体分布没有要求，在实际的使用较为广泛。

V相关系数

V=\\sqrt{\\frac {\\chi\^2} {n×min\[(R-1),(C-1)\]} }

跟前两个系数相同的是，当两变量相互独立时，V也等于0，此外当两变量完全相关V=1,对于行列中一个维度为2时，V系数的值就等于 $\\varphi$ 系数

以上三种相关系数均是实际中常用的相关性检验的方法，但需要注意的时，使用时要注意列联表的行列数和是否是一个相关系数，只有相同行列个数的列联表，并且采用同一种系数，这样的比较才是有意义的。

5. $\\chi\^2$ 分布的期望值准则

在使用 $\\chi\^2$ 分布进行独立性检验是，样本量必须足够大，否则可能会出现错误，有这样两条准则：

如果只有两个单元，每个单元的期望频数必须大于等于5.
如果有两个以上单元，20%的单元的期望频数小于5，则不能使用 $\\chi\^2$ 检验。

名词解释

拟合优度检验

是用x2统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况，计算出分类变量中各类别的期望频数，与分布的观察频数进行对比，判断期望频数与观察频数是否有显著性差异,从而达到对分类变量进行分析的目的。

列联独立性检验

独立性检验是对两个分类变量的分析，分析列联表中行变量和列变量是否相互独立。