机器学习概率论与统计学--(12)假设检验

假设检验是统计推断的另一大支柱。它提供了一套规范的流程，用于根据样本数据对关于总体的某个陈述（假设）做出拒绝或不拒绝的决策。本讲将从基本概念出发，介绍假设检验的框架、两类错误、常见参数检验方法（t检验、方差分析）以及非参数检验（卡方检验），最后讨论p值的局限。

1. 基本概念

1.1 原假设与备择假设

原假设 H 0 H_0 H0：通常代表"无差异"、"无效果"或"现状"，是希望被否定或检验的陈述。例如：某药物无效；总体均值等于某个值 μ 0 \mu_0 μ0。
备择假设 H 1 H_1 H1 或 H a H_a Ha：与原假设对立的陈述，代表研究者希望证实的结论。例如：药物有效；总体均值不等于 μ 0 \mu_0 μ0（双侧）或大于/小于 μ 0 \mu_0 μ0（单侧）。

1.2 检验统计量与拒绝域

检验统计量：根据样本数据计算的统计量，其分布（在原假设成立时）已知。例如：t统计量、z统计量、卡方统计量。
拒绝域 ：检验统计量的取值范围，若落入该区域，则拒绝 H 0 H_0 H0。拒绝域由显著性水平 α \alpha α 和备择假设的方向决定。

1.3 显著性水平 α \alpha α

显著性水平 α \alpha α 是预先设定的阈值，表示在原假设成立时，错误地拒绝 H 0 H_0 H0 的最大概率。通常取 0.05、0.01 或 0.10。它决定了拒绝域的临界值。

1.4 p 值

p 值是在原假设成立的条件下，观察到当前样本结果（或更极端结果）的概率。p 值越小，说明样本数据与原假设的不一致性越强。若 p ≤ α p \le \alpha p≤α，则拒绝 H 0 H_0 H0。

例1 ：某厂声称灯泡平均寿命为 1000 小时。随机抽取 25 个灯泡，测得平均寿命 980 小时，标准差 50 小时。欲检验 H 0 : μ = 1000 H_0: \mu=1000 H0:μ=1000 vs H 1 : μ < 1000 H_1: \mu<1000 H1:μ<1000。计算 t 统计量 = (980-1000)/(50/5)= -2，自由度 24，p 值为 P(T<-2) ≈ 0.028。若 α = 0.05 \alpha=0.05 α=0.05，因 p<0.05，拒绝 H 0 H_0 H0，认为平均寿命低于 1000 小时。

2. 两类错误与检验功效

假设检验的决策可能出错，分为两类：

真实情况	接受 H 0 H_0 H0	拒绝 H 0 H_0 H0
H 0 H_0 H0 真	正确（1-α）	第一类错误（α）
H 0 H_0 H0 假	第二类错误（β）	正确（1-β）

第一类错误 （Type I error）：拒绝真实的 H 0 H_0 H0，概率记为 α \alpha α（显著性水平）。
第二类错误 （Type II error）：接受错误的 H 0 H_0 H0，概率记为 β \beta β。
检验功效 （Power）： 1 − β 1-\beta 1−β，即正确拒绝错误 H 0 H_0 H0 的概率。功效越大，检验越灵敏。

影响功效的因素：样本量 n n n、效应大小（真实参数与假设值的差距）、显著性水平 α \alpha α、总体变异程度。

例2 ：在例1中，若真实均值 μ = 980 \mu=980 μ=980，标准差 50，n=25， α = 0.05 \alpha=0.05 α=0.05。可计算 β \beta β（需使用非中心 t 分布）和功效。增大样本量或增大效应量会提高功效。

3. 常见参数检验

3.1 单样本 t 检验

目的：检验正态总体的均值是否等于某个指定值 μ 0 \mu_0 μ0。

前提：总体方差未知，样本来自正态分布（或大样本）。

检验统计量 ：
t = X ˉ − μ 0 S / n ∼ t ( n − 1 ) ( 当 H 0 真 ) . t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t(n-1) \quad (\text{当 } H_0 \text{ 真}). t=S/n Xˉ−μ0∼t(n−1)(当 H0 真).

步骤：

设定 H 0 : μ = μ 0 H_0: \mu = \mu_0 H0:μ=μ0， H 1 : μ ≠ μ 0 H_1: \mu \ne \mu_0 H1:μ=μ0（双侧）或单侧。
计算样本均值 X ˉ \bar{X} Xˉ，样本标准差 S S S。
计算 t 值。
查表或计算 p 值，与 α \alpha α 比较。

例3 ：已知某校学生平均身高以往为 170 cm，现随机测 20 名学生，均值为 172 cm，标准差 5 cm。检验身高是否有变化（双侧）。
t = ( 172 − 170 ) / ( 5 / 20 ) = 2 / 1.118 = 1.789 t = (172-170)/(5/\sqrt{20}) = 2/1.118 = 1.789 t=(172−170)/(5/20 )=2/1.118=1.789，自由度 19，p 值约为 0.089 > 0.05，不拒绝 H 0 H_0 H0，认为无显著变化。

3.2 独立样本 t 检验

目的：比较两个独立正态总体的均值是否相等。

前提：两样本独立，方差齐性（或使用 Welch 校正）。

检验统计量 （等方差情形）：
t = X ˉ 1 − X ˉ 2 S p 1 n 1 + 1 n 2 , S p 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 . t = \frac{\bar{X}_1 - \bar{X}_2}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}, \quad S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}. t=Spn11+n21 Xˉ1−Xˉ2,Sp2=n1+n2−2(n1−1)S12+(n2−1)S22.

自由度 d f = n 1 + n 2 − 2 df = n_1+n_2-2 df=n1+n2−2。若方差不齐，使用 Welch t 检验（自由度修正）。

例4 ：比较两种教学方法，A班 30 人，均分 75，标准差 8；B班 32 人，均分 70，标准差 7。假设方差齐性，计算：
S p 2 = ( 29 ∗ 64 + 31 ∗ 49 ) / ( 60 ) = ( 1856 + 1519 ) / 60 = 3375 / 60 = 56.25 S_p^2 = (29*64 + 31*49)/(60) = (1856+1519)/60 = 3375/60 = 56.25 Sp2=(29∗64+31∗49)/(60)=(1856+1519)/60=3375/60=56.25， S p = 7.5 S_p = 7.5 Sp=7.5。
t = ( 75 − 70 ) / ( 7.5 ∗ 1 / 30 + 1 / 32 ) = 5 / ( 7.5 ∗ 0.254 ) = 5 / 1.905 = 2.625 t = (75-70) / (7.5*\sqrt{1/30+1/32}) = 5 / (7.5*0.254) = 5/1.905 = 2.625 t=(75−70)/(7.5∗1/30+1/32 )=5/(7.5∗0.254)=5/1.905=2.625，df=60，p≈0.011 <0.05，拒绝 H 0 H_0 H0，认为方法A效果更好。

3.3 配对样本 t 检验

目的：比较同一组对象在前后两个时间点（或两种处理）的均值差异，消除个体间变异。

原理：计算差值 d i = x i 1 − x i 2 d_i = x_{i1} - x_{i2} di=xi1−xi2，然后对差值进行单样本 t 检验（ μ d = 0 \mu_d = 0 μd=0）。

统计量 ：
t = d ˉ S d / n ∼ t ( n − 1 ) . t = \frac{\bar{d}}{S_d/\sqrt{n}} \sim t(n-1). t=Sd/n dˉ∼t(n−1).

例5 ：10 名患者服用降压药前后的舒张压（mmHg）：前 [100,98,102,95,101,99,97,103,96,100]，后 [92,90,94,88,93,91,89,95,90,92]。差值均值为 8，标准差 1.5，n=10，t=8/(1.5/3.162)=8/0.474=16.88，p极小，拒绝 H 0 H_0 H0，药物有效。

3.4 方差分析（ANOVA）

目的：比较两个以上独立组均值的差异。单因素方差分析用于一个因子（多水平）的均值比较。

基本思想：将总变异分解为组间变异（由于不同处理）和组内变异（随机误差）。若组间变异显著大于组内变异，则认为因子效应显著。

统计量 ：
F = M S between M S within ∼ F ( k − 1 , N − k ) , F = \frac{MS_{\text{between}}}{MS_{\text{within}}} \sim F(k-1, N-k), F=MSwithinMSbetween∼F(k−1,N−k),

其中 k k k 为组数， N N N 为总样本量。

例6 ：三种饲料喂养的猪增重（kg）：

A组：10,12,11,9

B组：14,15,13,16

C组：8,9,7,10

计算组间均方和组内均方，得 F 值，与 F 临界值比较，可判断饲料是否显著影响增重。

4. 非参数检验

4.1 卡方拟合优度检验

目的：检验观测频数是否与某个理论分布（或指定比例）一致。

统计量 ：
χ 2 = ∑ i = 1 k ( O i − E i ) 2 E i , \chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}, χ2=i=1∑kEi(Oi−Ei)2,

其中 O i O_i Oi 为观测频数， E i E_i Ei 为理论频数（期望频数）。在 H 0 H_0 H0 下， χ 2 \chi^2 χ2 近似服从自由度为 k − 1 k-1 k−1 的卡方分布（若参数需估计，自由度减去估计参数个数）。

例7 ：孟德尔豌豆杂交实验，预期黄圆:黄皱:绿圆:绿皱 = 9:3:3:1。观测频数分别为 315, 101, 108, 32，总 556。计算期望：5569/16=312.75，556 3/16=104.25，等等。 χ 2 = ∑ ( O − E ) 2 / E = 0.47 \chi^2 = \sum (O-E)^2/E = 0.47 χ2=∑(O−E)2/E=0.47，自由度为3，p>0.9，不拒绝 H 0 H_0 H0，符合孟德尔比例。

4.2 卡方独立性检验

目的：检验两个分类变量是否独立（基于列联表）。

统计量 ：
χ 2 = ∑ i = 1 r ∑ j = 1 c ( O i j − E i j ) 2 E i j , \chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(O_{ij} - E_{ij})^2}{E_{ij}}, χ2=i=1∑rj=1∑cEij(Oij−Eij)2,

其中 E i j = ( 第 i 行合计 ) × ( 第 j 列合计 ) / 总样本量 E_{ij} = (第 i 行合计) \times (第 j 列合计) / 总样本量 Eij=(第i行合计)×(第j列合计)/总样本量。自由度 ( r − 1 ) ( c − 1 ) (r-1)(c-1) (r−1)(c−1)。

例8：调查性别与对某项政策的态度（支持/反对），得列联表：

支持反对合计

男 30 20 50

女 40 10 50

合计 70 30 100

期望频数：男支持 = 5070/100=35，男反对=50 30/100=15，女支持=35，女反对=15。 χ 2 = ( 30 − 35 ) 2 / 35 + ( 20 − 15 ) 2 / 15 + ( 40 − 35 ) 2 / 35 + ( 10 − 15 ) 2 / 15 = 25 / 35 + 25 / 15 + 25 / 35 + 25 / 15 ≈ 0.714 + 1.667 + 0.714 + 1.667 = 4.762 \chi^2 = (30-35)^2/35 + (20-15)^2/15 + (40-35)^2/35 + (10-15)^2/15 = 25/35+25/15+25/35+25/15 ≈ 0.714+1.667+0.714+1.667=4.762 χ2=(30−35)2/35+(20−15)2/15+(40−35)2/35+(10−15)2/15=25/35+25/15+25/35+25/15≈0.714+1.667+0.714+1.667=4.762，df=1，p≈0.029<0.05，拒绝独立性假设，认为性别与态度相关。

	支持	反对	合计
男	30	20	50
女	40	10	50
合计	70	30	100
期望频数：男支持 = 5070/100=35，男反对=50 30/100=15，女支持=35，女反对=15。 χ 2 = ( 30 − 35 ) 2 / 35 + ( 20 − 15 ) 2 / 15 + ( 40 − 35 ) 2 / 35 + ( 10 − 15 ) 2 / 15 = 25 / 35 + 25 / 15 + 25 / 35 + 25 / 15 ≈ 0.714 + 1.667 + 0.714 + 1.667 = 4.762 \chi^2 = (30-35)^2/35 + (20-15)^2/15 + (40-35)^2/35 + (10-15)^2/15 = 25/35+25/15+25/35+25/15 ≈ 0.714+1.667+0.714+1.667=4.762 χ2=(30−35)2/35+(20−15)2/15+(40−35)2/35+(10−15)2/15=25/35+25/15+25/35+25/15≈0.714+1.667+0.714+1.667=4.762，df=1，p≈0.029<0.05，拒绝独立性假设，认为性别与态度相关。

5. p 值的局限

虽然 p 值是假设检验中常用的决策指标，但存在一些重要局限：

不能衡量效应大小 ：p 值很小只说明样本数据与原假设不一致，但实际差异可能微不足道（当样本量极大时，任何微小偏离都会产生极小 p 值）。应结合效应量（如 Cohen's d、相关系数）报告实际重要性。
受样本量影响：对于固定效应大小，样本量越大，p 值越小。因此，大样本下即使无实际意义的差异也可能显著；小样本下真实差异可能不显著。
不能作为原假设为真的概率 ：p 值是 P ( 数据或更极端 ∣ H 0 ) P(\text{数据或更极端} \mid H_0) P(数据或更极端∣H0)，不是 P ( H 0 ∣ 数据 ) P(H_0 \mid \text{数据}) P(H0∣数据)。后者需要贝叶斯方法。
不提供信息量：单个 p 值无法反映模型的整体拟合、参数估计的精度等。
多重比较问题 ：多次检验时，即使所有 H 0 H_0 H0 为真，也会以较高概率至少得到一个显著结果（族系错误率）。需校正（如 Bonferroni）。

建议：报告 p 值时同时给出置信区间 和效应量，避免过度依赖阈值（如 0.05）。

例9：某大样本研究（n=10000）发现智商与某基因变异有关，p=0.0001，但效应量 Cohen's d=0.05（极小），意味着实际差异可忽略。而小样本研究（n=20）中若 d=0.8（大效应），p 可能为 0.07 不显著，但值得进一步验证。

6. 总结

检验类型	目的	检验统计量	分布
单样本 t	均值是否等于某值	t = X ˉ − μ 0 S / n t = \frac{\bar{X}-\mu_0}{S/\sqrt{n}} t=S/n Xˉ−μ0	t(n-1)
独立样本 t	两独立组均值差异	t = X ˉ 1 − X ˉ 2 S p 1 / n 1 + 1 / n 2 t = \frac{\bar{X}_1-\bar{X}_2}{S_p\sqrt{1/n_1+1/n_2}} t=Sp1/n1+1/n2 Xˉ1−Xˉ2	t(n1+n2-2)
配对 t	配对数据均值差异	t = d ˉ S d / n t = \frac{\bar{d}}{S_d/\sqrt{n}} t=Sd/n dˉ	t(n-1)
单因素 ANOVA	多组均值相等	F = M S b e t w e e n M S w i t h i n F = \frac{MS_{between}}{MS_{within}} F=MSwithinMSbetween	F(k-1, N-k)
卡方拟合优度	分布是否匹配	χ 2 = ∑ ( O − E ) 2 E \chi^2 = \sum\frac{(O-E)^2}{E} χ2=∑E(O−E)2	χ 2 ( k − 1 ) \chi^2(k-1) χ2(k−1)
卡方独立性	两分类变量独立	同上	χ 2 ( ( r − 1 ) ( c − 1 ) ) \chi^2((r-1)(c-1)) χ2((r−1)(c−1))

假设检验提供了从样本推断总体的决策框架。正确理解两类错误、选择适当的检验方法，并谨慎解读 p 值，是统计分析的关键。下一讲可继续讲解回归分析或贝叶斯推断。

上一章 机器学习概率论与统计学--(11)概率论极限定理

下一章 机器学习概率论与统计学--(13)线性回归