统计学9——分类数据统计

知识结构

内容精读

1.分类数据与\\chi\^2统计量

分类数据在第一章已经进行了详细介绍,就是对数据进行分类的结果,特征是,调查结果虽然用数值表示,但不同数值描述了调查对象的不同特征。由此分类数据的结果是频数,而\\chi\^2检验是对频数进行分析的统计分析方法

\\chi\^2统计量作为三大统计量之一,可以用于测定两个分类变量间的相关程度。

\\chi\^2=\\sigma\\frac{(f_{0}-f_{e})\^2}{f_{2}}

其中f_{0}表示观察值频数,f_{2}表示期望值频数

\\chi\^2统计量描述了观察值与期望值的接近程度,两者越接近,\\chi\^2就越小。

2.拟合优度检验

拟合优度检验是用\\chi\^2统计量进行统计的显著性检验的一个重要内容。依据总体分布状况,计算出分类变量中各类别的期望频数,与观察频数进行对比,判断期望频数与观察频数是否有显著差异。

拟合优度检验的一般步骤如下:

  • 计算f_{0}-f_{e}
  • 计算(f_{0}-f_{e})\^2
  • 计算(f_{0}-f_{e})\^2/f_{e}
  • 计算\\chi\^2
  • \\chi\^2_{\\alpha}(R-1)进行比较,若\\chi\^2\>\\chi\^2_{\\alpha}(R-1),则认为观察频数与期望频数有显著差异。说明选取的分类特征对研究问题是有影响的。

3.独立性检验

拟合优度是对一个变量的检验,有时候我们也会遇到变量数不唯一的问题,比如研究两个变量间是否存在联系。这种对两个变量的研究又称为独立性检验,通常借助列联表进行性展示。

所谓列联表就是将两个或以上的变量进行交叉分类的频数分布表。

|----|-----|-----|-----|-----|
| 地区 | 一级 | 二级 | 三级 | 合计 |
| 甲 | 52 | 64 | 24 | 140 |
| 乙 | 60 | 59 | 52 | 171 |
| 丙 | 50 | 65 | 74 | 189 |
| 合计 | 162 | 188 | 150 | 500 |

上面就是一个3×3的二维列联表,三个地区与三个等级间相互交叉。

针对上面的列联表,独立性检验就是检查地区与等级之间是否有关联。

计算方法与拟合优度相同,都需要构建\\chi\^2统计量。只是对于列联表中每个单位的期望频数采用f_{e}=\\frac{RT×CT}{n},RT、CT分别为单元所在行、列的合计值。\\chi\^2统计量的自由度df=(R-1)(C-1),若\\chi\^2\>\\chi\^2_{\\alpha}{(R-1)(C-1)},则拒绝原假设,认为两变量间不是相互独立的。

4.相关性检验

前面的独立性检验只是判断两个变量是否存在联系,那么如果存在联系,联系的程度又是怎样的呢?这时候就需要进行相关性检验。

\\varphi 相关系数

\\varphi=\\sqrt{\\chi\^2/n}

是列联表中最常用的一种相关系数。\\varphi的值应该在0-1之间,当两个变量相互独立时,\\varphi=0\\varphi=1 或 \\varphi=-1时是两个变量完全相关的一种情况。\\varphi的绝对值越大,就说明变量的相关程度越高。

ps:

当列联表的行或列大于2时,\\varphi会随着行列的变大而变大,且没有上限,这时使用\\varphi测定相关程度就不够清晰了。

c相关系数

c=\\sqrt{\\frac{\\chi\^2}{\\chi\^2+n}}

c系数主要用于列联表大于2×2的情况。同样当两个变量相互独立式c=0,并且它不会大于1。c系数的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大,因此根据不同的行和列计算的列联系数不便于比较。但因其计算简便,且对总体分布没有要求,在实际的使用较为广泛。

V相关系数

V=\\sqrt{\\frac {\\chi\^2} {n×min\[(R-1),(C-1)\]} }

跟前两个系数相同的是,当两变量相互独立时,V也等于0,此外当两变量完全相关V=1,对于行列中一个维度为2时,V系数的值就等于\\varphi系数

以上三种相关系数均是实际中常用的相关性检验的方法,但需要注意的时,使用时要注意列联表的行列数和是否是一个相关系数,只有相同行列个数的列联表,并且采用同一种系数,这样的比较才是有意义的。

5.\\chi\^2分布的期望值准则

在使用\\chi\^2分布进行独立性检验是,样本量必须足够大,否则可能会出现错误,有这样两条准则:

  • 如果只有两个单元,每个单元的期望频数必须大于等于5.
  • 如果有两个以上单元,20%的单元的期望频数小于5,则不能使用\\chi\^2检验。

名词解释

拟合优度检验

是用x2统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著性差异,从而达到对分类变量进行分析的目的。

列联独立性检验

独立性检验是对两个分类变量的分析,分析列联表中行变量和列变量是否相互独立。

相关推荐
IT_陈寒24 分钟前
Vue这个坑我跳了两次,原来问题出在这
前端·人工智能·后端
新新技术迷1 小时前
Node给AI接口做SSE代理与鉴权
人工智能
redreamSo1 小时前
大模型是不是到顶了?瓶颈到底在哪
人工智能·openai
Oo9202 小时前
Tool Use 背后的技术逻辑
人工智能
姗姗来迟了2 小时前
Vue3封装AI流式对话组件踩坑实录
人工智能
码上天下2 小时前
用Pinia管理AI多会话状态
人工智能
用户054324329703 小时前
Next.js接大模型流式SSE实操踩坑
人工智能
Assby3 小时前
从 Function Calling 到 MCP:理解 Agent 工具调用的底层通信机制
人工智能·后端
小星AI3 小时前
Claude Code 从入门到精通,一步到位
人工智能
后端小肥肠4 小时前
Codex + Obsidian 做人生副本视频:输入主题文案,直通剪映草稿
人工智能·aigc·agent