数据分析笔记06：假设检验

1. 假设检验基本概念

定义：假设检验是对已经存在的结论或主张进行统计验证的过程。

基本流程：

将已有结论称为"假设"。
对假设的求证过程称为"检验"（Test）。
通过概率统计方式证实结论是否正确。

2. 原假设与备择假设

基本原则

互斥性：原假设（H0H_0H0）和备择假设（H1H_1H1）互斥，不可能同时成立。
完整性：两个假设涵盖所有可能情况。

建立思路

思路一：将研究中的假设作为备择假设。

适用于验证新方法、新技术的改善效果。
例：新型燃油喷射系统案例。
- H0:μ≤26H_0: \mu \leq 26H0:μ≤26（旧系统效率）。
- H1:μ>26H_1: \mu > 26H1:μ>26（新系统更好）。

思路二：将受到挑战的假设作为原假设。

适用于质疑现有标准或声明。
例：瓶装饮料含量案例。
- H0:μ≥350mlH_0: \mu \geq 350 \text{ml}H0:μ≥350ml（符合标签声明）。
- H1:μ<350mlH_1: \mu < 350 \text{ml}H1:μ<350ml（质疑标签）。

假设检验的三种形式

检验类型	原假设（H0H_0H0）	备择假设（H1H_1H1）	特点
下侧检验	μ≥μ0\mu \geq \mu_0μ≥μ0	μ<μ0\mu < \mu_0μ<μ0	单侧检验
上侧检验	μ≤μ0\mu \leq \mu_0μ≤μ0	μ>μ0\mu > \mu_0μ>μ0	单侧检验
双侧检验	μ=μ0\mu = \mu_0μ=μ0	μ≠μ0\mu \neq \mu_0μ=μ0	双侧检验

记忆技巧：看备择假设的符号快速判断检验类型。

3. 假设检验中的两类错误

第一类错误（Type I Error）：

定义：错误地拒绝了正确的原假设。
符号：α\alphaα（阿尔法）。
意义：当原假设为真时，却拒绝了它。
控制：通过设定显著性水平控制犯错概率。

第二类错误（Type II Error）：

定义：错误地接受了错误的原假设。
符号：β\betaβ（贝塔）。
意义：当备择假设为真时，却接受了原假设。
特点：在显著性检验中通常不控制。

4. 显著性水平（Significance Level）

定义：当原假设为真且以等式形式存在时，犯第一类错误的概率。

常用取值：

α=0.05\alpha = 0.05α=0.05（常用）。
α=0.01\alpha = 0.01α=0.01（严格）。
α=0.10\alpha = 0.10α=0.10（宽松）。

选择原则：

第一类错误成本高 → 选择较小的α\alphaα值。
第一类错误成本低 → 可选择较大的α\alphaα值。

重要提醒：由于只控制第一类错误，结论只能是"拒绝原假设"或"不拒绝原假设"，不能说"接受原假设"。

5. 假设检验的实施步骤

Step 1: 建立假设。

根据研究问题确定H0H_0H0和H1H_1H1。
确保两假设互斥且完整。

Step 2: 确定显著性水平。

选择适当的α\alphaα值。
考虑犯错成本和研究要求。

Step 3: 收集样本数据并计算检验统计量。

检验统计量公式（总体标准差已知）：
Z=Xˉ−μ0σ/n Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} Z=σ/n Xˉ−μ0

其中：

Xˉ\bar{X}Xˉ：样本均值。
μ0\mu_0μ0：假定的总体均值。
σ\sigmaσ：总体标准差。
nnn：样本容量。

Step 4: 做出统计决策。

使用P值法或临界值法判断是否拒绝原假设。

6. 两种检验方法详解

方法一：P值法（P-value Method）

基本概念：

P值：当原假设为真时，得到观察样本或更极端样本的概率。
意义：P值越小，拒绝原假设的证据越强。

计算方法：

单侧检验：

下侧检验：P=P(Z≤z)P = P(Z \leq z)P=P(Z≤z)。
上侧检验：P=P(Z≥z)P = P(Z \geq z)P=P(Z≥z)。

双侧检验：
P=2×P(Z≥∣z∣) P = 2 \times P(Z \geq |z|) P=2×P(Z≥∣z∣)

判断规则：

如果P值 < α\alphaα：拒绝H0H_0H0。
如果P值 ≥ α\alphaα：不拒绝H0H_0H0。

方法二：临界值法（Critical Value Method）

基本概念：

临界值：在给定显著性水平下，划分接受域和拒绝域的分界值。

临界值确定：

单侧检验：

下侧检验：−Zα-Z_{\alpha}−Zα。
上侧检验：ZαZ_{\alpha}Zα。

双侧检验：

左侧临界值：−Zα/2-Z_{\alpha/2}−Zα/2。
右侧临界值：Zα/2Z_{\alpha/2}Zα/2。

判断规则：

下侧检验：

如果Z≤−ZαZ \leq -Z_{\alpha}Z≤−Zα：拒绝H0H_0H0。
如果Z>−ZαZ > -Z_{\alpha}Z>−Zα：不拒绝H0H_0H0。

上侧检验：

如果Z≥ZαZ \geq Z_{\alpha}Z≥Zα：拒绝H0H_0H0。
如果Z<ZαZ < Z_{\alpha}Z<Zα：不拒绝H0H_0H0。

双侧检验：

如果∣Z∣≥Zα/2|Z| \geq Z_{\alpha/2}∣Z∣≥Zα/2：拒绝H0H_0H0。
如果∣Z∣<Zα/2|Z| < Z_{\alpha/2}∣Z∣<Zα/2：不拒绝H0H_0H0。

7. 实务案例分析

案例一：咖啡含量检验（下侧检验）

背景：FTC检验Hill Top咖啡是否符合标签声明的3磅含量。

假设建立：

H0:μ≥3H_0: \mu \geq 3H0:μ≥3（符合声明）。
H1:μ<3H_1: \mu < 3H1:μ<3（含量不足）。
α=0.01\alpha = 0.01α=0.01。

样本结果：

样本均值：Xˉ=2.90\bar{X} = 2.90Xˉ=2.90。
样本容量：n=40n = 40n=40。
总体标准差：σ=0.20\sigma = 0.20σ=0.20。

计算检验统计量：
Z=2.90−30.20/40=−0.100.0316≈−3.16 Z = \frac{2.90 - 3}{0.20 / \sqrt{40}} = \frac{-0.10}{0.0316} \approx -3.16 Z=0.20/40 2.90−3=0.0316−0.10≈−3.16

P值法判断：

P值 = P(Z≤−3.16)≈0.0008P(Z \leq -3.16) \approx 0.0008P(Z≤−3.16)≈0.0008。
由于0.0008 < 0.01，拒绝H0H_0H0。

临界值法判断：

临界值：−Z0.01=−2.33-Z_{0.01} = -2.33−Z0.01=−2.33。
由于-3.16 < -2.33，拒绝H0H_0H0。

结论：有足够证据表明咖啡含量不足。

案例二：高尔夫球驱动距离检验（双侧检验）

背景：Max Flight公司检验新工艺是否维持295码的标准驱动距离。

假设建立：

H0:μ=295H_0: \mu = 295H0:μ=295（符合标准）。
H1:μ≠295H_1: \mu \neq 295H1:μ=295（偏离标准）。
α=0.05\alpha = 0.05α=0.05。

样本结果：

样本均值：Xˉ=298.2\bar{X} = 298.2Xˉ=298.2。
样本容量：n=60n = 60n=60。
总体标准差：σ=15\sigma = 15σ=15。

计算检验统计量：
Z=298.2−29515/60=3.21.936≈1.65 Z = \frac{298.2 - 295}{15 / \sqrt{60}} = \frac{3.2}{1.936} \approx 1.65 Z=15/60 298.2−295=1.9363.2≈1.65

P值法判断：

P值 = 2×P(Z≥1.65)=2×(1−0.9505)≈0.0992 \times P(Z \geq 1.65) = 2 \times (1 - 0.9505) \approx 0.0992×P(Z≥1.65)=2×(1−0.9505)≈0.099。
由于0.099 > 0.05，不拒绝H0H_0H0。

临界值法判断：

临界值：±Z0.025=±1.96\pm Z_{0.025} = \pm 1.96±Z0.025=±1.96。
由于∣1.65∣<1.96|1.65| < 1.96∣1.65∣<1.96，不拒绝H0H_0H0。

结论：没有足够证据表明驱动距离偏离标准。

8. 关键要点总结

概念理解要点：
- 假设检验的本质：用样本信息对总体参数进行推断。
- 两类错误的权衡：控制第一类错误，警惕第二类错误。
- 结论表述的谨慎性：只能"拒绝"或"不拒绝"，不能"接受"。
实务操作要点：
- 假设建立的逻辑性：根据研究目的选择合适的假设形式。
- 显著性水平的选择：平衡第一类错误成本与检验灵敏度。
- 计算的准确性：检验统计量、P值、临界值的精确计算。
方法选择建议：
- P值法优势：提供更丰富的信息，易于理解证据强度。
- 临界值法优势：直观明确，便于标准化操作。
- 实际应用：两种方法结果一致，可相互验证。

9. 延伸思考

假设检验的局限性：
- 只能控制第一类错误，第二类错误难以量化。
- 样本大小对检验效力的影响。
- 实际意义与统计意义的区别。
实际应用考虑：
- 如何在实务中平衡两类错误的成本。
- 多重比较问题及其解决方案。
- 非参数检验方法的选择时机。