非参数统计基础1——Pearson检验

非参数统计基础1------Pearson检验

一、非参数假设检验的核心场景

当我们研究一个总体时,常常不知道它的分布类型(比如不知道是正态分布、泊松分布还是其他分布),这时候需要通过样本信息检验"总体是否服从某个预设分布",或者"两个指标是否独立"------这类不依赖总体分布形式的检验,就是非参数假设检验。而Pearson检验是解决这两类问题最常用的非参数方法。

二、第一类应用:总体分布的拟合检验

(一)核心思想:用"频率 vs 概率"判断分布是否匹配

我们知道,当样本量足够大时,事件发生的频率会稳定在其概率附近 (大数定律)。比如,如果总体真的服从泊松分布,那么样本中"出现iii个α\alphaα粒子"的实际次数(实际频数fif_ifi),应该和根据泊松分布计算的理论次数(理论频数npinp_inpi,nnn是样本量,pip_ipi是该事件的概率)相差不大。

Pearson检验的核心,就是用一个统计量量化"实际频数与理论频数的差异",如果差异太大,就拒绝"总体服从预设分布"的假设。

(二)关键公式与定理

  1. Pearson统计量

    这个统计量专门衡量差异程度,公式为:
    χ2=∑i=1k(fi−npi)2npi\chi^2 = \sum_{i=1}^k \frac{(f_i - np_i)^2}{np_i}χ2=i=1∑knpi(fi−npi)2

    • 其中k是把总体取值范围分成的"互不相交的区间/事件类"个数;
    • fif_ifi:第iii类的实际频数(样本中落在该类的个数);
    • npinp_inpi:第iii类的理论频数(根据预设分布计算的期望个数)。

    逻辑:如果总体真的服从预设分布(H0H_0H0成立),(fi−npif_i- np_ifi−npi)应该很小,统计量χ2\chi^2χ2会偏小;如果差异大,χ2\chi^2χ2会偏大------所以我们用χ2\chi^2χ2的大小作为检验标准。

  2. Pearson定理(确定统计量的分布)

    当样本量n充分大(通常要求n≥50)时,无论总体原本服从什么分布,统计量χ2\chi^2χ2近似服从自由度为k-γ-1的χ²分布

    • 若预设分布F0(x)F_0(x)F0(x)完全已知(无未知参数),则γ=0\gamma=0γ=0,自由度=k-1;
    • 若预设分布F0(x)F_0(x)F0(x)有γ\gammaγ个未知参数(比如泊松分布的λ\lambdaλ、正态分布的μ\muμ和σ\sigmaσ),需要用极大似然估计求出这些参数,此时自由度=k−γ−1k-γ-1k−γ−1。
  3. 使用注意事项

    因为是"渐近分布",必须满足两个条件:

    • 样本量n≥50n\geq50n≥50;
    • 每个理论频数npi≥5np_i\geq5npi≥5(最好≥10\geq10≥10),如果有npi<5np_i<5npi<5,需要合并相邻的区间/类别,直到满足条件。

(三)检验步骤(6步走)

  1. 建立假设:H0H_0H0:总体服从预设分布F0(x)F_0(x)F0(x);H1H_1H1:不服从;
  2. 划分区间/类别:把总体取值范围(−∞,+∞)(-\infty, +\infty)(−∞,+∞)分成kkk个互不相交的类A1,A2,⋯ ,AkA_1,A_2,\cdots,A_kA1,A2,⋯,Ak;
  3. 计算理论频数npinp_inpi:若F0(x)F_0(x)F0(x)有未知参数,先做极大似然估计,再用得到的F(x)F(x)F(x)计算p^i=P(X∈Ai)\hat{p}_i=P(X\in A_i)p^i=P(X∈Ai),进而得到np^in\hat{p}_inp^i(npinp_inpi);
  4. 统计实际频数fif_ifi:数样本中落在每个AiA_iAi的个数;
  5. 计算χ2\chi^2χ2统计量的值;
  6. 查临界值:给定显著性水平α\alphaα,查χ2\chi^2χ2分布表得χ1−α2\chi^2_{1-\alpha}χ1−α2(自由度),若χ2≥χ1−α2\chi^2\geq \chi^2_{1-\alpha}χ2≥χ1−α2,则拒绝H0H_0H0,否则接受H0H_0H0。

(四)例:检验α粒子数是否服从泊松分布

题目背景

在铀放射实验中,观察100100100次(n=100n=100n=100),记录每次到达计数器的α\alphaα粒子数XXX,实际频数fif_ifi如下:

粒子数iii 0 1 2 3 4 5 6 7 8 9 10 11
实际频数fif_ifi 1 5 16 17 26 11 9 9 2 1 2 1

理论上X应服从泊松分布:P(X=i)=λii!e−λP(X=i)=\frac{\lambda^i}{i!}e^{-\lambda}P(X=i)=i!λie−λ(λ\lambdaλ未知),试在α=0.05\alpha=0.05α=0.05下检验理论是否符合实际。

分步解答
  1. 建立假设
    H0H_0H0:X∼P(X=i)=λii!e−λX\sim P(X=i)=\frac{\lambda^i}{i!}e^{-\lambda}X∼P(X=i)=i!λie−λ;H1H_1H1:不服从。

  2. 估计未知参数λ

    泊松分布的均值E(X)=λE(X)=\lambdaE(X)=λ,用极大似然估计(样本均值):
    λ^=xˉ=∑i=011i⋅fin=0×1+1×5+2×16+...+11×1100=4.2\hat{\lambda} = \bar{x} = \frac{\sum_{i=0}^{11} i \cdot f_i}{n} = \frac{0×1 + 1×5 + 2×16 + ... + 11×1}{100} = 4.2λ^=xˉ=n∑i=011i⋅fi=1000×1+1×5+2×16+...+11×1=4.2

  3. 划分类别并计算理论频数npinp_inpi

    泊松分布是离散型,每个i就是一个类别,计算npi=100×4.2ii!e−4.2np_i = 100×\frac{4.2^i}{i!}e^{-4.2}npi=100×i!4.2ie−4.2,结果如下(部分):

    • i=0i=0i=0:np0≈100×0.015=1.5np_0\approx100×0.015=1.5np0≈100×0.015=1.5;
    • i=1i=1i=1:np1≈6.3np_1\approx6.3np1≈6.3;
    • i=2i=2i=2:13.213.213.2;
    • ...;
    • i=11i=11i=11:np11≈0.1np_{11}\approx0.1np11≈0.1

    注意:i=0(1.5)i=0(1.5)i=0(1.5)、i=8(3.6)i=8(3.6)i=8(3.6)、i=9(1.7)i=9(1.7)i=9(1.7)、i=10(0.7)i=10(0.7)i=10(0.7)、i=11(0.1)i=11(0.1)i=11(0.1)的npi<5np_i<5npi<5,需要合并!

  4. 合并类别

    合并后得到k=8k=8k=8个类别:
    {0,1},{2},{3},{4},{5},{6},{7},{8,9,10,11} \{0,1\},\{2\},\{3\},\{4\},\{5\},\{6\},\{7\},\{8,9,10,11\} {0,1},{2},{3},{4},{5},{6},{7},{8,9,10,11}

    合并后的理论频数均≥5\geq5≥5(比如{0,1}\{0,1\}{0,1}的np=1.5+6.3=7.8np=1.5+6.3=7.8np=1.5+6.3=7.8)。

  5. 计算χ²统计量

    核心公式:∑(fi−np^i)2np^i\sum \frac{(f_i - n\hat{p}_i)^2}{n\hat{p}_i}∑np^i(fi−np^i)2,代入数据计算得:
    χ2=0.415+0.594+0.122+2.245+1.723+0.505+0.609+0.014=6.257\chi^2 = 0.415 + 0.594 + 0.122 + 2.245 + 1.723 + 0.505 + 0.609 + 0.014 = 6.257χ2=0.415+0.594+0.122+2.245+1.723+0.505+0.609+0.014=6.257

  6. 查临界值并判断

    • 自由度=k−γ−1=8−1−1=6k-\gamma-1=8-1-1=6k−γ−1=8−1−1=6(k=8k=8k=8,γ=1\gamma=1γ=1个未知参数λ\lambdaλ);
    • 给定α=0.05\alpha=0.05α=0.05,查χ2\chi^2χ2分布表得χ0.952(6)=12.592\chi^2_{0.95}(6)=12.592χ0.952(6)=12.592;
    • 因为6.257<12.5926.257 < 12.5926.257<12.592,所以接受H₀ ,即认为α\alphaα粒子数服从λ=4.2\lambda=4.2λ=4.2的泊松分布。

三、第二类应用:二维列联表独立性检验

(一)核心问题:检验两个指标是否独立

比如"吸烟与否"和"是否患慢性气管炎"是否有关?"性别"和"偏好的手机品牌"是否有关?这类问题可以转化为"两个指标XXX和YYY是否相互独立",用列联表+Pearson检验解决。

补充:通常也称指标所取的状态为水平。

(二)r×s列联表的结构

假设XXX有rrr个类别(A1,⋯ ,ArA_1,\cdots,A_rA1,⋯,Ar),YYY有sss个类别(B1,⋯ ,BsB_1, \cdots, B_sB1,⋯,Bs),从总体抽nnn个样本,记录"X∈AiX\in A_iX∈Ai且Y∈BjY\in B_jY∈Bj"的个数nijn_{ij}nij(实际频数),整理成表格:

Y&XY\&XY&X B1B_1B1 ... BsB_sBs 行合计nin_ini
A1A_1A1 n11n_{11}n11 ... n1sn_{1s}n1s n1=n11+⋯+n1sn_{1}=n_{11}+\dots+n_{1s}n1=n11+⋯+n1s
... ... ... ... ...
ArA_rAr nr1n_{r1}nr1 ... nrsn_{rs}nrs nr=nr1+⋯+nrsn_{r}=n_{r1}+\dots+n_{rs}nr=nr1+⋯+nrs
列合计njn_{j}nj n1=n11+⋯+nr1n_{1}=n_{11}+\dots+n_{r1}n1=n11+⋯+nr1 ... ns=n1s+⋯+nrsn_{s}=n_{1s}+\dots+n_{rs}ns=n1s+⋯+nrs 总样本nnn

(三)检验逻辑与公式

  1. 假设 :H0H_0H0:XXX与YYY相互独立;H1H_1H1:不独立。
  2. 独立的等价条件 :若XXX与YYY独立,则P(X∈Ai,Y∈Bj)=P(X∈Ai)⋅P(Y∈Bj)P(X\in A_i,Y\in B_j)=P(X\in A_i)\cdot P(Y\in B_j)P(X∈Ai,Y∈Bj)=P(X∈Ai)⋅P(Y∈Bj),即pij=pi⋅pjp_{ij}=p_i·p_jpij=pi⋅pj。
  3. 理论频数估计
    • 用频率估计概率:p^i⋅=nin\hat{p}_i·=\frac{n_i}{n}p^i⋅=nni(X∈AiX\in A_iX∈Ai的概率),p^j=njn\hat{p}_j=\frac{n_j}{n}p^j=nnj(Y∈BjY\in B_jY∈Bj的概率);
    • 理论频数:np^ij=n⋅p^i⋅p^j=ni⋅njnn\hat{p}_{ij}=n·\hat{p}_i·\hat{p}_j=\frac{n_i·n_j}{n}np^ij=n⋅p^i⋅p^j=nni⋅nj。
  4. 检验统计量
    χ2=∑i=1r∑j=1s(nij−ni⋅njn)2ni⋅njn\chi^2 = \sum_{i=1}^r \sum_{j=1}^s \frac{(n_{ij} - \frac{n_i·n_j}{n})^2}{\frac{n_i·n_j}{n}}χ2=i=1∑rj=1∑snni⋅nj(nij−nni⋅nj)2
  5. 自由度 :(r−1)(s−1)(r-1)(s-1)(r−1)(s−1)(因为有r+s−2r+s-2r+s−2个独立未知参数)。

(四)例:慢性气管炎与吸烟的独立性检验

题目背景

抽查50岁以上339339339人,得到2×22\times 22×2列联表(XXX=吸烟与否,YYY=患气管炎与否):

患慢性气管炎(B1B_1B1) 未患慢性气管炎(B2B_2B2) 行合计nin_ini
吸烟(A1A_1A1) 43(n11n_{11}n11) 162(n12n_{12}n12) 205(n1n_1n1)
不吸烟(A2A_2A2) 13(n21n_{21}n21) 121(n22n_{22}n22) 134(n2n_2n2)
列合计njn_jnj 56(n1n_1n1) 283(n2n_2n2) 339(nnn)

试在α=0.01\alpha=0.01α=0.01下检验"吸烟"与"患慢性气管炎"是否独立。

分步解答
  1. 建立假设 :H0H_0H0:吸烟与患气管炎独立;H1H_1H1:不独立。

  2. 计算理论频数

    每个单元格的理论频数np^ij=ni⋅njnn\hat{p}_{ij}=\frac{n_i·n_j}{n}np^ij=nni⋅nj:

    • n11n_{11}n11的理论频数:205×56339≈33.86\frac{205×56}{339}≈33.86339205×56≈33.86;
    • n12n_{12}n12的理论频数:205×283339≈171.14\frac{205×283}{339}≈171.14339205×283≈171.14;
    • n21n_{21}n21的理论频数:134×56339≈22.14\frac{134×56}{339}≈22.14339134×56≈22.14;
    • n22n_{22}n22的理论频数:134×283339≈111.86\frac{134×283}{339}≈111.86339134×283≈111.86。
  3. 计算χ²统计量
    χ2=(43−33.86)233.86+(162−171.14)2171.14+(13−22.14)222.14+(121−111.86)2111.86≈7.4688\chi^2 = \frac{(43-33.86)^2}{33.86} + \frac{(162-171.14)^2}{171.14} + \frac{(13-22.14)^2}{22.14} + \frac{(121-111.86)^2}{111.86} ≈7.4688χ2=33.86(43−33.86)2+171.14(162−171.14)2+22.14(13−22.14)2+111.86(121−111.86)2≈7.4688

  4. 查临界值并判断

    • 自由度=(2−1)(2−1)=1=(2-1)(2-1)=1=(2−1)(2−1)=1;
    • α=0.01\alpha=0.01α=0.01,查χ2\chi^2χ2分布表得χ0.992(1)=6.635\chi^2_{0.99}(1)=6.635χ0.992(1)=6.635;
    • 因为7.4688>6.6357.4688 > 6.6357.4688>6.635,所以拒绝H₀,即认为吸烟与患慢性气管炎有密切关系!

四、总结

Pearson检验的核心是"用χ2\chi^2χ2统计量衡量实际与理论的差异",主要解决两类问题:

  1. 总体分布的拟合检验(判断总体是否服从预设分布);
  2. 列联表独立性检验(判断两个指标是否相关)。

关键点

  • 统计量的核心是"(实际-理论)²/理论"的求和;
  • 自由度的计算:拟合检验是k−γ−1k-γ-1k−γ−1,独立性检验是(r−1)(s−1)(r-1)(s-1)(r−1)(s−1);
  • 样本量n≥50n\geq50n≥50,理论频数npi≥5np_{i}\geq5npi≥5(否则合并类别)。
相关推荐
Illusionna.2 天前
C 语言实现独立样本 t 检验和配对样本 t 检验
c语言·编程·统计·统计学·t-test·独立样本t检验·配对样本t检验
ballball~~2 天前
正态(高斯)分布(Gaussian distribution)
算法·概率论
AI科技星2 天前
引力场与磁场的几何统一:磁矢势方程的第一性原理推导、验证与诠释
数据结构·人工智能·经验分享·线性代数·算法·计算机视觉·概率论
Niuguangshuo3 天前
高斯分布的加权和 vs. 加权混合
概率论
Niuguangshuo3 天前
随机变量及其分布:从离散到连续,深入理解概率模型的基础
概率论
Z_Jiang3 天前
金融投资 的 小游戏:海边躺平
经验分享·金融·概率论·程序员创富
liliangcsdn5 天前
全方差公式在DDIM中的应用示例
概率论
helloworld也报错?5 天前
深度强化学习(1)——基础知识(名词解释,概率论基础,蒙特卡洛采样,马尔可夫决策过程)
人工智能·深度学习·机器学习·概率论
liliangcsdn6 天前
全期望公式在DDIM中的应用实例
算法·机器学习·概率论