机器学习概率论与统计学--(12)假设检验

假设检验是统计推断的另一大支柱。它提供了一套规范的流程,用于根据样本数据对关于总体的某个陈述(假设)做出拒绝或不拒绝的决策。本讲将从基本概念出发,介绍假设检验的框架、两类错误、常见参数检验方法(t检验、方差分析)以及非参数检验(卡方检验),最后讨论p值的局限。


1. 基本概念

1.1 原假设与备择假设

  • 原假设 H 0 H_0 H0:通常代表"无差异"、"无效果"或"现状",是希望被否定或检验的陈述。例如:某药物无效;总体均值等于某个值 μ 0 \mu_0 μ0。
  • 备择假设 H 1 H_1 H1 或 H a H_a Ha:与原假设对立的陈述,代表研究者希望证实的结论。例如:药物有效;总体均值不等于 μ 0 \mu_0 μ0(双侧)或大于/小于 μ 0 \mu_0 μ0(单侧)。

1.2 检验统计量与拒绝域

  • 检验统计量:根据样本数据计算的统计量,其分布(在原假设成立时)已知。例如:t统计量、z统计量、卡方统计量。
  • 拒绝域 :检验统计量的取值范围,若落入该区域,则拒绝 H 0 H_0 H0。拒绝域由显著性水平 α \alpha α 和备择假设的方向决定。

1.3 显著性水平 α \alpha α

显著性水平 α \alpha α 是预先设定的阈值,表示在原假设成立时,错误地拒绝 H 0 H_0 H0 的最大概率。通常取 0.05、0.01 或 0.10。它决定了拒绝域的临界值。

1.4 p 值

p 值是在原假设成立的条件下,观察到当前样本结果(或更极端结果)的概率。p 值越小,说明样本数据与原假设的不一致性越强。若 p ≤ α p \le \alpha p≤α,则拒绝 H 0 H_0 H0。

例1 :某厂声称灯泡平均寿命为 1000 小时。随机抽取 25 个灯泡,测得平均寿命 980 小时,标准差 50 小时。欲检验 H 0 : μ = 1000 H_0: \mu=1000 H0:μ=1000 vs H 1 : μ < 1000 H_1: \mu<1000 H1:μ<1000。计算 t 统计量 = (980-1000)/(50/5)= -2,自由度 24,p 值为 P(T<-2) ≈ 0.028。若 α = 0.05 \alpha=0.05 α=0.05,因 p<0.05,拒绝 H 0 H_0 H0,认为平均寿命低于 1000 小时。


2. 两类错误与检验功效

假设检验的决策可能出错,分为两类:

真实情况 接受 H 0 H_0 H0 拒绝 H 0 H_0 H0
H 0 H_0 H0 真 正确(1-α) 第一类错误(α)
H 0 H_0 H0 假 第二类错误(β) 正确(1-β)
  • 第一类错误 (Type I error):拒绝真实的 H 0 H_0 H0,概率记为 α \alpha α(显著性水平)。
  • 第二类错误 (Type II error):接受错误的 H 0 H_0 H0,概率记为 β \beta β。
  • 检验功效 (Power): 1 − β 1-\beta 1−β,即正确拒绝错误 H 0 H_0 H0 的概率。功效越大,检验越灵敏。

影响功效的因素:样本量 n n n、效应大小(真实参数与假设值的差距)、显著性水平 α \alpha α、总体变异程度。

例2 :在例1中,若真实均值 μ = 980 \mu=980 μ=980,标准差 50,n=25, α = 0.05 \alpha=0.05 α=0.05。可计算 β \beta β(需使用非中心 t 分布)和功效。增大样本量或增大效应量会提高功效。


3. 常见参数检验

3.1 单样本 t 检验

目的 :检验正态总体的均值是否等于某个指定值 μ 0 \mu_0 μ0。

前提:总体方差未知,样本来自正态分布(或大样本)。

检验统计量
t = X ˉ − μ 0 S / n ∼ t ( n − 1 ) ( 当 H 0 真 ) . t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t(n-1) \quad (\text{当 } H_0 \text{ 真}). t=S/n Xˉ−μ0∼t(n−1)(当 H0 真).

步骤

  1. 设定 H 0 : μ = μ 0 H_0: \mu = \mu_0 H0:μ=μ0, H 1 : μ ≠ μ 0 H_1: \mu \ne \mu_0 H1:μ=μ0(双侧)或单侧。
  2. 计算样本均值 X ˉ \bar{X} Xˉ,样本标准差 S S S。
  3. 计算 t 值。
  4. 查表或计算 p 值,与 α \alpha α 比较。

例3 :已知某校学生平均身高以往为 170 cm,现随机测 20 名学生,均值为 172 cm,标准差 5 cm。检验身高是否有变化(双侧)。
t = ( 172 − 170 ) / ( 5 / 20 ) = 2 / 1.118 = 1.789 t = (172-170)/(5/\sqrt{20}) = 2/1.118 = 1.789 t=(172−170)/(5/20 )=2/1.118=1.789,自由度 19,p 值约为 0.089 > 0.05,不拒绝 H 0 H_0 H0,认为无显著变化。

3.2 独立样本 t 检验

目的:比较两个独立正态总体的均值是否相等。

前提:两样本独立,方差齐性(或使用 Welch 校正)。

检验统计量 (等方差情形):
t = X ˉ 1 − X ˉ 2 S p 1 n 1 + 1 n 2 , S p 2 = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 . t = \frac{\bar{X}_1 - \bar{X}_2}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}, \quad S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}. t=Spn11+n21 Xˉ1−Xˉ2,Sp2=n1+n2−2(n1−1)S12+(n2−1)S22.

自由度 d f = n 1 + n 2 − 2 df = n_1+n_2-2 df=n1+n2−2。若方差不齐,使用 Welch t 检验(自由度修正)。

例4 :比较两种教学方法,A班 30 人,均分 75,标准差 8;B班 32 人,均分 70,标准差 7。假设方差齐性,计算:
S p 2 = ( 29 ∗ 64 + 31 ∗ 49 ) / ( 60 ) = ( 1856 + 1519 ) / 60 = 3375 / 60 = 56.25 S_p^2 = (29*64 + 31*49)/(60) = (1856+1519)/60 = 3375/60 = 56.25 Sp2=(29∗64+31∗49)/(60)=(1856+1519)/60=3375/60=56.25, S p = 7.5 S_p = 7.5 Sp=7.5。
t = ( 75 − 70 ) / ( 7.5 ∗ 1 / 30 + 1 / 32 ) = 5 / ( 7.5 ∗ 0.254 ) = 5 / 1.905 = 2.625 t = (75-70) / (7.5*\sqrt{1/30+1/32}) = 5 / (7.5*0.254) = 5/1.905 = 2.625 t=(75−70)/(7.5∗1/30+1/32 )=5/(7.5∗0.254)=5/1.905=2.625,df=60,p≈0.011 <0.05,拒绝 H 0 H_0 H0,认为方法A效果更好。

3.3 配对样本 t 检验

目的:比较同一组对象在前后两个时间点(或两种处理)的均值差异,消除个体间变异。

原理 :计算差值 d i = x i 1 − x i 2 d_i = x_{i1} - x_{i2} di=xi1−xi2,然后对差值进行单样本 t 检验( μ d = 0 \mu_d = 0 μd=0)。

统计量
t = d ˉ S d / n ∼ t ( n − 1 ) . t = \frac{\bar{d}}{S_d/\sqrt{n}} \sim t(n-1). t=Sd/n dˉ∼t(n−1).

例5 :10 名患者服用降压药前后的舒张压(mmHg):前 [100,98,102,95,101,99,97,103,96,100],后 [92,90,94,88,93,91,89,95,90,92]。差值均值为 8,标准差 1.5,n=10,t=8/(1.5/3.162)=8/0.474=16.88,p极小,拒绝 H 0 H_0 H0,药物有效。

3.4 方差分析(ANOVA)

目的:比较两个以上独立组均值的差异。单因素方差分析用于一个因子(多水平)的均值比较。

基本思想:将总变异分解为组间变异(由于不同处理)和组内变异(随机误差)。若组间变异显著大于组内变异,则认为因子效应显著。

统计量
F = M S between M S within ∼ F ( k − 1 , N − k ) , F = \frac{MS_{\text{between}}}{MS_{\text{within}}} \sim F(k-1, N-k), F=MSwithinMSbetween∼F(k−1,N−k),

其中 k k k 为组数, N N N 为总样本量。

例6 :三种饲料喂养的猪增重(kg):

A组:10,12,11,9

B组:14,15,13,16

C组:8,9,7,10

计算组间均方和组内均方,得 F 值,与 F 临界值比较,可判断饲料是否显著影响增重。


4. 非参数检验

4.1 卡方拟合优度检验

目的:检验观测频数是否与某个理论分布(或指定比例)一致。

统计量
χ 2 = ∑ i = 1 k ( O i − E i ) 2 E i , \chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}, χ2=i=1∑kEi(Oi−Ei)2,

其中 O i O_i Oi 为观测频数, E i E_i Ei 为理论频数(期望频数)。在 H 0 H_0 H0 下, χ 2 \chi^2 χ2 近似服从自由度为 k − 1 k-1 k−1 的卡方分布(若参数需估计,自由度减去估计参数个数)。

例7 :孟德尔豌豆杂交实验,预期黄圆:黄皱:绿圆:绿皱 = 9:3:3:1。观测频数分别为 315, 101, 108, 32,总 556。计算期望:5569/16=312.75,556 3/16=104.25,等等。 χ 2 = ∑ ( O − E ) 2 / E = 0.47 \chi^2 = \sum (O-E)^2/E = 0.47 χ2=∑(O−E)2/E=0.47,自由度为3,p>0.9,不拒绝 H 0 H_0 H0,符合孟德尔比例。

4.2 卡方独立性检验

目的:检验两个分类变量是否独立(基于列联表)。

统计量
χ 2 = ∑ i = 1 r ∑ j = 1 c ( O i j − E i j ) 2 E i j , \chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(O_{ij} - E_{ij})^2}{E_{ij}}, χ2=i=1∑rj=1∑cEij(Oij−Eij)2,

其中 E i j = ( 第 i 行合计 ) × ( 第 j 列合计 ) / 总样本量 E_{ij} = (第 i 行合计) \times (第 j 列合计) / 总样本量 Eij=(第i行合计)×(第j列合计)/总样本量。自由度 ( r − 1 ) ( c − 1 ) (r-1)(c-1) (r−1)(c−1)。

例8:调查性别与对某项政策的态度(支持/反对),得列联表:

支持 反对 合计
30 20 50
40 10 50
合计 70 30 100
期望频数:男支持 = 5070/100=35,男反对=50 30/100=15,女支持=35,女反对=15。 χ 2 = ( 30 − 35 ) 2 / 35 + ( 20 − 15 ) 2 / 15 + ( 40 − 35 ) 2 / 35 + ( 10 − 15 ) 2 / 15 = 25 / 35 + 25 / 15 + 25 / 35 + 25 / 15 ≈ 0.714 + 1.667 + 0.714 + 1.667 = 4.762 \chi^2 = (30-35)^2/35 + (20-15)^2/15 + (40-35)^2/35 + (10-15)^2/15 = 25/35+25/15+25/35+25/15 ≈ 0.714+1.667+0.714+1.667=4.762 χ2=(30−35)2/35+(20−15)2/15+(40−35)2/35+(10−15)2/15=25/35+25/15+25/35+25/15≈0.714+1.667+0.714+1.667=4.762,df=1,p≈0.029<0.05,拒绝独立性假设,认为性别与态度相关。

5. p 值的局限

虽然 p 值是假设检验中常用的决策指标,但存在一些重要局限:

  1. 不能衡量效应大小 :p 值很小只说明样本数据与原假设不一致,但实际差异可能微不足道(当样本量极大时,任何微小偏离都会产生极小 p 值)。应结合效应量(如 Cohen's d、相关系数)报告实际重要性。

  2. 受样本量影响:对于固定效应大小,样本量越大,p 值越小。因此,大样本下即使无实际意义的差异也可能显著;小样本下真实差异可能不显著。

  3. 不能作为原假设为真的概率 :p 值是 P ( 数据或更极端 ∣ H 0 ) P(\text{数据或更极端} \mid H_0) P(数据或更极端∣H0),不是 P ( H 0 ∣ 数据 ) P(H_0 \mid \text{数据}) P(H0∣数据)。后者需要贝叶斯方法。

  4. 不提供信息量:单个 p 值无法反映模型的整体拟合、参数估计的精度等。

  5. 多重比较问题 :多次检验时,即使所有 H 0 H_0 H0 为真,也会以较高概率至少得到一个显著结果(族系错误率)。需校正(如 Bonferroni)。

建议 :报告 p 值时同时给出置信区间效应量,避免过度依赖阈值(如 0.05)。

例9:某大样本研究(n=10000)发现智商与某基因变异有关,p=0.0001,但效应量 Cohen's d=0.05(极小),意味着实际差异可忽略。而小样本研究(n=20)中若 d=0.8(大效应),p 可能为 0.07 不显著,但值得进一步验证。


6. 总结

检验类型 目的 检验统计量 分布
单样本 t 均值是否等于某值 t = X ˉ − μ 0 S / n t = \frac{\bar{X}-\mu_0}{S/\sqrt{n}} t=S/n Xˉ−μ0 t(n-1)
独立样本 t 两独立组均值差异 t = X ˉ 1 − X ˉ 2 S p 1 / n 1 + 1 / n 2 t = \frac{\bar{X}_1-\bar{X}_2}{S_p\sqrt{1/n_1+1/n_2}} t=Sp1/n1+1/n2 Xˉ1−Xˉ2 t(n1+n2-2)
配对 t 配对数据均值差异 t = d ˉ S d / n t = \frac{\bar{d}}{S_d/\sqrt{n}} t=Sd/n dˉ t(n-1)
单因素 ANOVA 多组均值相等 F = M S b e t w e e n M S w i t h i n F = \frac{MS_{between}}{MS_{within}} F=MSwithinMSbetween F(k-1, N-k)
卡方拟合优度 分布是否匹配 χ 2 = ∑ ( O − E ) 2 E \chi^2 = \sum\frac{(O-E)^2}{E} χ2=∑E(O−E)2 χ 2 ( k − 1 ) \chi^2(k-1) χ2(k−1)
卡方独立性 两分类变量独立 同上 χ 2 ( ( r − 1 ) ( c − 1 ) ) \chi^2((r-1)(c-1)) χ2((r−1)(c−1))

假设检验提供了从样本推断总体的决策框架。正确理解两类错误、选择适当的检验方法,并谨慎解读 p 值,是统计分析的关键。下一讲可继续讲解回归分析或贝叶斯推断。

上一章 机器学习概率论与统计学--(11)概率论极限定理

下一章 机器学习概率论与统计学--(13)线性回归

相关推荐
枫叶林FYL2 小时前
【自然语言处理 NLP】前沿架构与多模态 6.1.1.4 混合架构(Mamba-Transformer Hybrid)
人工智能·机器学习·自然语言处理
Learn Beyond Limits2 小时前
神经机器翻译|Neural Machine Translation(NMT)
人工智能·神经网络·机器学习·ai·自然语言处理·nlp·机器翻译
电磁脑机2 小时前
论AI幻觉的本质:人类符号幻觉的镜像映射与认知破局 ——基于三场正交统一场论的底层阐释
人工智能·神经网络·机器学习·重构·架构
AI科技星2 小时前
基于三维空间合速度恒为光速公理的统一动力学与热力学理论:温度本质的第一性原理诠释与物质全物态实验验证
开发语言·线性代数·机器学习·计算机视觉·数学建模
Coding茶水间2 小时前
基于深度学习的草莓健康度检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Django+web+训练代码+数据集)
人工智能·深度学习·yolo·机器学习·django
切糕师学AI3 小时前
Elasticsearch Learning to Rank 完全指南
大数据·elasticsearch·机器学习·搜索引擎
渡我白衣3 小时前
见微知著——特征工程的科学与艺术
人工智能·深度学习·神经网络·机器学习·计算机视觉·自然语言处理·语音识别
kvo7f2JTy12 小时前
基于机器学习算法的web入侵检测系统设计与实现
前端·算法·机器学习
zxsz_com_cn14 小时前
设备预测性维护模型构建详解与实例:中讯烛龙如何用“数据+算法”破解故障预测难题
人工智能·深度学习·机器学习