【AI知识点】假设检验（Hypothesis Testing）

更多AI知识点总结见我的专栏：【AI知识点】

AI论文精读、项目和一些个人思考见我另一专栏：【AI修炼之路】

有什么问题、批评和建议都非常欢迎交流，三人行必有我师焉😁

假设检验（Hypothesis Testing） 是统计推断中用来判断一个关于总体参数的假设是否成立的标准方法。它通过样本数据来做出推断，从而确定是否可以拒绝原先设定的假设。假设检验广泛应用于科学实验、社会调查、质量控制等领域，用于验证假设是否具有统计学意义。

1. 假设检验的基本概念

假设检验涉及两个相对立的假设：

零假设（ H 0 H_0 H0） ：通常是表示没有效果 、没有差异 或没有显著性的假设。零假设假设总体参数没有发生改变或实验没有影响。
备择假设（ H 1 H_1 H1 或 H a H_a Ha）：表示零假设不成立时的另一种情况，通常为我们希望证实的假设。备择假设假设总体参数发生了变化或实验具有显著影响。

2. 假设检验的步骤

a. 设定假设

零假设（ H 0 H_0 H0）：表示我们最初设定的假设。例如，如果我们想知道某种药物是否有治疗效果，零假设通常设定为"药物没有效果"。
备择假设（ H 1 H_1 H1 或 H a H_a Ha）：是与零假设相对的假设。例如，备择假设可以是"药物有效"。

b. 选择显著性水平（ α \alpha α）

显著性水平（ α \alpha α） ：表示犯第一类错误 的概率，也就是错误地拒绝了正确的零假设的风险。显著性水平常设为 0.05、0.01 或 0.10。
- 如果 α = 0.05 \alpha = 0.05 α=0.05，这意味着我们容忍有 5% 的概率犯第一类错误，即错误地认为药物有效（当实际上无效时）。

c. 选择检验统计量

根据数据的类型和样本性质，选择合适的检验统计量 。常见的检验包括 z z z 检验、 t t t 检验、卡方检验等。
- z z z 检验：当样本量较大且总体方差已知时使用。
- t t t 检验：当样本量较小且总体方差未知时使用。
- 卡方检验：用于检验频数或比例的显著性。

d. 计算检验统计量

使用样本数据计算检验统计量，根据选择的检验方法得到 z z z 值、 t t t 值或卡方值等。这个值将与临界值进行比较。

e. 计算 p p p 值

p p p 值 是指在零假设为真的情况下，观察到现有样本或更极端样本的概率。 p p p 值越小，表示观察到样本的概率越低，越有理由怀疑零假设。
- 如果 p p p 值小于显著性水平 α \alpha α，则拒绝零假设。
- 如果 p p p 值大于 α \alpha α，则不拒绝零假设。

f. 做出决策

拒绝零假设 ：如果 p p p 值 ≤ α \leq \alpha ≤α，我们拒绝零假设，并接受备择假设。这意味着数据提供了足够的证据表明药物有效。
不拒绝零假设 ：如果 p p p 值 > α \alpha α，我们不拒绝零假设。这意味着没有足够的证据表明药物有效。

3. 假设检验的错误类型

在假设检验中，可能犯两类错误：

a. 第一类错误（Type I Error）

错误地拒绝了正确的零假设。
例如，当药物实际上无效时，我们错误地认为它有效。犯第一类错误的概率等于显著性水平 α \alpha α。

b. 第二类错误（Type II Error）

没有拒绝错误的零假设。
例如，当药物实际上有效时，我们错误地认为它无效。犯第二类错误的概率通常用 β \beta β 表示， 1 − β 1 - \beta 1−β 称为检验的功效。

4. 假设检验的类型

a. 双侧检验（Two-tailed Test）

双侧检验用于检验总体参数是否与某个值不同。零假设是参数等于某个特定值，而备择假设是参数不等于这个值。
- 零假设 ： H 0 : μ = μ 0 H_0: \mu = \mu_0 H0:μ=μ0
- 备择假设 ： H 1 : μ ≠ μ 0 H_1: \mu \neq \mu_0 H1:μ=μ0
双侧检验关注的是总体参数是否存在任意方向的偏差。

b. 单侧检验（One-tailed Test）

单侧检验 用于检验总体参数是否大于或小于某个值。单侧检验更关注参数的单方向变化。
- 零假设 ： H 0 : μ ≤ μ 0 H_0: \mu \leq \mu_0 H0:μ≤μ0 或 H 0 : μ ≥ μ 0 H_0: \mu \geq \mu_0 H0:μ≥μ0
- 备择假设 ： H 1 : μ > μ 0 H_1: \mu > \mu_0 H1:μ>μ0 或 H 1 : μ < μ 0 H_1: \mu < \mu_0 H1:μ<μ0

5. 假设检验的例子

a. 药物有效性检验

假设我们希望检验一种新药是否能有效降低血压。我们有一个样本数据，测量了使用该药物后的 30 名患者的血压变化。假设该药物在无效时的平均血压变化为 0 mmHg。

零假设 H 0 H_0 H0：药物无效，即 μ = 0 \mu = 0 μ=0
备择假设 H 1 H_1 H1：药物有效，即 μ ≠ 0 \mu \neq 0 μ=0

假设我们选择显著性水平 α = 0.05 \alpha = 0.05 α=0.05，计算出 p p p 值为 0.02。由于 p p p 值小于 0.05，我们拒绝零假设，认为该药物在统计学上显著有效。

b. A/B 测试

在互联网产品开发中，A/B 测试是常见的假设检验应用。假设我们开发了两个版本的网页（A 版和 B 版），希望测试哪一个能带来更高的转化率。

零假设 H 0 H_0 H0：A 版和 B 版的转化率相同，即 p A = p B p_A = p_B pA=pB
备择假设 H 1 H_1 H1：A 版和 B 版的转化率不同，即 p A ≠ p B p_A \neq p_B pA=pB

我们可以通过对比 A 版和 B 版的样本数据，计算 p p p 值，来判断是否可以拒绝零假设。如果 p p p 值小于显著性水平 α \alpha α，我们就可以拒绝零假设，认为 A 版和 B 版的转化率有显著差异。

6. 假设检验与 p p p 值的解读

p p p 值 表示在零假设成立的条件下，观察到当前样本数据或更极端数据的概率。
- 如果 p p p 值很小，表示在零假设成立的条件下，观察到当前数据的可能性很低。因此，我们倾向于怀疑零假设，可能会拒绝它。
- 如果 p p p 值较大，表示在零假设成立的条件下，观察到当前数据的可能性较高，因此我们没有理由怀疑零假设。

7. 假设检验的实际应用

a. 质量控制

在制造业中，假设检验常用于检测产品的质量是否符合标准。例如，某条生产线生产的产品的重量是否符合规定的平均重量，可以通过假设检验进行检验。

b. 市场营销

在市场营销中，假设检验用于检测某种营销策略是否比另一种策略有效。例如，通过 A/B 测试来对比两种广告投放方案，检测哪一种方案能带来更多的客户转化。

c. 医学实验

在医学研究中，假设检验常用于评估某种药物或治疗方法的有效性。例如，通过随机对照实验（RCT）检验一种新药是否对某种疾病有显著的治疗效果。

8. 总结

假设检验是一种强大的统计工具，用于通过样本数据来推断总体参数是否符合某个假设。它帮助我们在不确定的条件下做出决策。假设检验的核心思想是设定零假设和备择假设，通过样本数据来计算检验统计量和 p p p 值，并根据显著性水平 α \alpha α 来决定是否拒绝零假设。