假设检验
-
- 假设检验
-
- 一、统计研究的类型
- 二、变量的类型
- 三、研究问题与假设
- [四、P 值与显著性检验](#四、P 值与显著性检验)
- 五、假设检验的类型
- 六、模型评价
- [七、解析`p <0.05` corresponds to a `5%` probability of rejecting the null hypothesis given that it is true.这句话是正确的](#七、解析
p <0.05
corresponds to a5%
probability of rejecting the null hypothesis given that it is true.这句话是正确的) -
- [1. α的定义](#1. α的定义)
- [2. p值的定义和作用](#2. p值的定义和作用)
- [举例解释 p 值与 α 的关系](#举例解释 p 值与 α 的关系)
- 小结
假设检验
一、统计研究的类型
假设检验用于评估样本数据中所发现的现象是否在总体中也有意义。研究设计分为两大类:
-
无干预研究 (观察性研究)
-
仅仅观察现象,无操作或控制变量。
-
记录受试者信息,但不施加任何处理,研究者被动参与。
-
特点:
- 只能建立变量之间的相关性,而不能推断因果关系。
- 提供特定时间点的样本数据,但研究者不干预变量。
-
-
有干预研究 (实验性研究)
-
记录受试者信息,同时施加处理、控制研究条件。
-
特点:
- 能够通过变量操控建立因果关系。
- 通常包含强假设、样本量设计、以及依照特定协议的受控数据收集。
-
二、变量的类型
假设检验中,我们通常会涉及到以下三类变量:
- 因变量 (y)
- 受研究者关注的变量,会受到自变量影响。
- 例:植物的高度或健康状况。
- 自变量 (x)
- 研究者操控的变量,用于观察其对因变量的影响。
- 实验中通常限制为一个自变量。
- 例:用于浇灌植物的液体类型。
- 控制变量
- 不改变的变量,用来保持实验条件的一致性。
- 例:植物种类、盆大小、土壤类型等。
三、研究问题与假设
-
研究问题:是否自变量对因变量有显著影响。例如,"自变量的改变是否会引起因变量的变化?"
-
零假设 (H0):假设自变量无显著影响。例如,"自变量改变不会引起因变量的变化。"
-
假设检验
- 我们通过样本数据,确定是否接受或拒绝有关总体参数的假设。
- 通常有两个对立的假设,即零假设 和备择假设。
四、P 值与显著性检验
-
P 值 :测量观测结果的极端性。若 P 值 < α (显著性水平),则认为数据有力地反对零假设。
- 显著性水平 α:常用 α = 0.05 或 0.01,代表错误拒绝零假设的概率(I 型错误率)。
- 若 P 值 > α,证据不足以拒绝零假设;若 P 值 < α,拒绝零假设。
五、假设检验的类型
-
单侧检验
- 用于检验一个变量是否显著大于或小于另一个变量。例如,我们想检验均值 μx 是否大于均值 μy。
- H0 : μx = μy;备择假设: μx > μy。
- P 值:生成两组样本,在零假设下差异至少为 μx - μy 的概率。
-
双样本检验
-
非配对的 t 检验:用于检验两个总体均值是否相等。假设两组样本独立且正态分布,方差相等。
-
Mann-Whitney U 检验:非参数方法,用于不满足正态分布的情况。
- 假设:样本独立,且 N ≥ 20。
-
-
多组差异分析
-
ANOVA (方差分析) :检验多个群体是否具有相同的均值。
- 假设:样本独立、正态分布,方差相等。
-
Kruskal-Wallis H 检验:非参数版的 ANOVA,用于数据不满足正态分布的情况。
- 假设:样本独立。
-
-
配对检验
-
配对 t 检验:用于两组配对数据的均值差异检验。
- 假设:样本正态分布,方差相等。
-
非参数配对检验:用于配对数据的非参数检验(例如 Likert 评分)。
- 假设:样本配对,且 N ≥ 20。
-
六、模型评价
混淆矩阵和准确率来评价分类模型。
- 混淆矩阵
- 精度 (Accuracy):(TP+TN)/N
- 查准率 (Precision):TP/(TP+FP)
- 召回率 (Recall):TP/(TP+FN)
- F1 分数:2PR / (P+R)
- 数据划分
- Holdout 法:将数据随机划分为训练集和测试集,多次重复并取平均值。
- 交叉验证 (k-fold):将数据分为 k 个子集,逐个作为测试集,其他作为训练集
七、解析p <0.05
corresponds to a 5%
probability of rejecting the null hypothesis given that it is true.这句话是正确的
关键在于 rejecting 是 wrongly rejecting, 即错误拒绝!
1. α的定义
-
α(显著性水平) :指在零假设 H0H_0H0 为真的前提下,错误地拒绝零假设的概率。这是研究者事先设定的阈值,用来控制错误拒绝零假设的风险(即"犯第一类错误"的概率)。常用的α值是0.05或0.01。
示例:α = 0.05 表示在假设 H0H_0H0 为真的情况下,有5%的概率会错误地拒绝它。这是我们所能接受的最大"犯错"概率。
2. p值的定义和作用
-
p值 :是在零假设 H0H_0H0 为真的前提下,当前观测数据偏离零假设的程度。具体来说,p值衡量了在零假设成立的前提下,观察到的数据或比当前结果更极端的概率。
如果:
- p<α:我们认为数据偏离零假设的程度很大,因此拒绝零假设,认为数据提供了足够的证据去反驳 H0H_0H0。
- p>α:数据没有足够的偏离程度,我们则不拒绝零假设。
- p=α:称为"临界值",接近于拒绝和不拒绝之间的界限。
举例解释 p 值与 α 的关系
- 假设检验问题 :
- 零假设:假设一枚硬币是公平的(即正面和反面出现的概率均为50%)。
- 偏离零假设的程度 :
- 如果硬币是公平的,那么连续抛出10次正面朝上的概率是 0.510=0.00098,即约为0.1%。
- 因此,如果我们观察到连续10次正面朝上,这种情况在公平硬币的假设下几乎不可能发生(概率很小),则p值会接近0.001。
- 对比p值与α的大小 :
- 如果α设为0.05,而p值为0.001,p<α,我们会拒绝零假设,因为观测数据显著偏离零假设。
- 5%的概率拒绝零假设的原因:α的定义是我们可接受的最大错误拒绝概率,即接受最多5%的概率去拒绝零假设。这意味着即使拒绝 H0,仍有可能犯错(即存在5%的可能性硬币其实是公平的,但我们却拒绝了它)。
小结
- α表示在零假设为真时,我们愿意接受的最大犯错概率。
- p值衡量在零假设成立下,观测数据偏离零假设的程度,当 p值小于α时,我们有理由拒绝零假设。
通过这个分析,我们了解到,p值越小,数据偏离零假设的程度越大,提供的证据越强。在选择适当的显著性水平时,理解α和p值的定义和意义至关重要。