【数据分析八：hypothesis testing】假设检验

本节我们讲述假设检验和抽样方法

有关假设检验的详细内容，可以参考我以往的博客

概率论与数理统计总复习_概率论与数理统计复习-CSDN博客文章浏览阅读1.5k次，点赞33次，收藏23次。中科大使用的教辅《概率论和数理统计》，带大家复习一遍概统的经典难点公式_概率论与数理统计复习https://blog.csdn.net/2301_79853895/article/details/144971069?fromshare=blogdetail&sharetype=blogdetail&sharerId=144971069&sharerefer=PC&sharesource=2301_79853895&sharefrom=from_link

一、假设检验

假设检验（ hypothesis testing）是统计推断方法

面对场景：对总体数据进行估计

假设检验与参数估计

相同：都利用样本对总体进行推断，采用的技术手段相似；

不同：推断的出发点不同，结果也不同

参数估计：用样本的统计来估计总体参数的推断方法，待估计的总体参数在估计前是未知的

假设检验：先对待估计的总体参数提出一个假设，再利用样本去检验该假设是否成立

假设：总体的参数：均值、方差、比例等

两个假设定义（反证思想）

原假设H0：想要拒绝的假设

备择假设H1：想要接收的假设

两类错误

第一类错误，弃真𝛼：H0成立时，拒绝了H0

原假设实际上真，但通过样本估计总体后，拒绝了原假设（逐尽忠良）

第二类错误，取伪𝛽：H0错误时(H1成立)，接收了H0

原假设实际上假，但通过样本估计总体后，接受了原假设（认贼作父）

假设检验中应当把哪一类错误作为首要的控制目标？即，哪一类错误所造成的后果更严重

α 错误的犯错率为置信度，降低置信度就可以降低α 错误的犯错率

β错误则是由很多客观因素造成的，难以明确表示

因此，首要降低α 错误
增大样本量可以使得两类错误同时减小

根据大数定理的知识，我们可以得到z检验：

正态分布的分布函数

举个例子

二、抽样方法

抽样是通过抽取总体中的部分个体，收集这些个体的信息，从而对总体进行推断的一种手段。

常见抽样方法：

非概率抽样

等概率抽样

不等概率抽样

非概率抽样

抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查

常见非概率抽样方法

随意抽样------随便选择抽样对象

判断抽样------由抽样人制定抽样对象

志愿抽样------以志愿者为对象抽样

滚雪球抽样------由被抽样对象推荐其他被抽样对象

等概率抽样

每一个单元的入样概率均相等；

等概率抽样的基本出发点是将总体（或层）中的每一个单元看作是平等的，不"偏向"

也不"疏远"某些特定的单元。

如果总体单元差异不大，这种方式既简单也合理

常见等概率抽样

简单随机抽样（抽签法，随机数表法）

系统抽样（抽取号码是24的倍数的观众）

分层抽样（儿童抽一部分，青年一部分，中年一部分，比例2:5:3）

整群抽样（先分为五批，再从第三批中选出五批，再从第二批......）

不等概率抽样(sampling with unequal probability)

指在抽取样本之前给总体中的每一个单元赋予一定的入样概率，从而保证大的（重要的）单元抽到的概率大，而小的（不重要的）的单元抽到的概率小。其中，每个单元被赋予的入样概率通常与某个辅助变量有关（比如单元规模等）

例子：估计合肥市商业零售总额，大型商场、中型超市和小型商店的差别非常明显，平等对待显然不合理。需要按不等概率抽样。

下一讲，我们讲述：数据挖掘定义、四类任务及其应用场景