【数据科学】1. 假设检验

假设检验用于评估样本数据中所发现的现象是否在总体中也有意义。研究设计分为两大类：

无干预研究 (观察性研究)
- 仅仅观察现象，无操作或控制变量。
- 记录受试者信息，但不施加任何处理，研究者被动参与。
- 特点:
  - 只能建立变量之间的相关性，而不能推断因果关系。
  - 提供特定时间点的样本数据，但研究者不干预变量。
有干预研究 (实验性研究)
- 记录受试者信息，同时施加处理、控制研究条件。
- 特点:
  - 能够通过变量操控建立因果关系。
  - 通常包含强假设、样本量设计、以及依照特定协议的受控数据收集。

假设检验中，我们通常会涉及到以下三类变量：

P 值：测量观测结果的极端性。若 P 值 < α (显著性水平)，则认为数据有力地反对零假设。
- 显著性水平 α：常用 α = 0.05 或 0.01，代表错误拒绝零假设的概率（I 型错误率）。
- 若 P 值 > α，证据不足以拒绝零假设；若 P 值 < α，拒绝零假设。

单侧检验
- 用于检验一个变量是否显著大于或小于另一个变量。例如，我们想检验均值 μx 是否大于均值 μy。
- H0 : μx = μy；备择假设: μx > μy。
- P 值：生成两组样本，在零假设下差异至少为 μx - μy 的概率。
双样本检验
- 非配对的 t 检验：用于检验两个总体均值是否相等。假设两组样本独立且正态分布，方差相等。
- Mann-Whitney U 检验：非参数方法，用于不满足正态分布的情况。
  - 假设：样本独立，且 N ≥ 20。
多组差异分析
- ANOVA (方差分析) ：检验多个群体是否具有相同的均值。
  - 假设：样本独立、正态分布，方差相等。
- Kruskal-Wallis H 检验：非参数版的 ANOVA，用于数据不满足正态分布的情况。
  - 假设：样本独立。
配对检验
- 配对 t 检验：用于两组配对数据的均值差异检验。
  - 假设：样本正态分布，方差相等。
- 非参数配对检验：用于配对数据的非参数检验（例如 Likert 评分）。
  - 假设：样本配对，且 N ≥ 20。

混淆矩阵和准确率来评价分类模型。

混淆矩阵
- 精度 (Accuracy)：(TP+TN)/N
- 查准率 (Precision)：TP/(TP+FP)
- 召回率 (Recall)：TP/(TP+FN)
- F1 分数：2PR / (P+R)
数据划分
- Holdout 法：将数据随机划分为训练集和测试集，多次重复并取平均值。
- 交叉验证 (k-fold)：将数据分为 k 个子集，逐个作为测试集，其他作为训练集

关键在于 rejecting 是 wrongly rejecting，即错误拒绝！

α（显著性水平） ：指在零假设 H0H_0H0 为真的前提下，错误地拒绝零假设的概率。这是研究者事先设定的阈值，用来控制错误拒绝零假设的风险（即"犯第一类错误"的概率）。常用的α值是0.05或0.01。

示例：α = 0.05 表示在假设 H0H_0H0 为真的情况下，有5%的概率会错误地拒绝它。这是我们所能接受的最大"犯错"概率。

假设检验问题 ：
- 零假设：假设一枚硬币是公平的（即正面和反面出现的概率均为50%）。
偏离零假设的程度 ：
- 如果硬币是公平的，那么连续抛出10次正面朝上的概率是 0.510=0.00098，即约为0.1%。
- 因此，如果我们观察到连续10次正面朝上，这种情况在公平硬币的假设下几乎不可能发生（概率很小），则p值会接近0.001。
对比p值与α的大小 ：
- 如果α设为0.05，而p值为0.001，p<α，我们会拒绝零假设，因为观测数据显著偏离零假设。
- 5%的概率拒绝零假设的原因：α的定义是我们可接受的最大错误拒绝概率，即接受最多5%的概率去拒绝零假设。这意味着即使拒绝 H0，仍有可能犯错（即存在5%的可能性硬币其实是公平的，但我们却拒绝了它）。

通过这个分析，我们了解到，p值越小，数据偏离零假设的程度越大，提供的证据越强。在选择适当的显著性水平时，理解α和p值的定义和意义至关重要。