【数据分析八:hypothesis testing】假设检验

本节我们讲述假设检验和抽样方法

有关假设检验的详细内容,可以参考我以往的博客

概率论与数理统计总复习_概率论与数理统计复习-CSDN博客文章浏览阅读1.5k次,点赞33次,收藏23次。中科大使用的教辅《概率论和数理统计》,带大家复习一遍概统的经典难点公式_概率论与数理统计复习https://blog.csdn.net/2301_79853895/article/details/144971069?fromshare=blogdetail&sharetype=blogdetail&sharerId=144971069&sharerefer=PC&sharesource=2301_79853895&sharefrom=from_link


一、假设检验

假设检验( hypothesis testing)是统计推断方法

面对场景:对总体数据进行估计

假设检验与参数估计

相同:都利用样本对总体进行推断,采用的技术手段相似;

不同:推断的出发点不同,结果也不同

参数估计:用样本的统计来估计总体参数的推断方法,待估计的总体参数在估计前是未知的

假设检验:先对待估计的总体参数提出一个假设,再利用样本去检验该假设是否成立

假设:总体的参数:均值、方差、比例等

两个假设定义(反证思想)

原假设H0:想要拒绝的假设

备择假设H1:想要接收的假设

两类错误

第一类错误,弃真𝛼:H0成立时,拒绝了H0

原假设实际上真,但通过样本估计总体后,拒绝了原假设(逐尽忠良)

第二类错误,取伪𝛽:H0错误时(H1成立),接收了H0

原假设实际上假,但通过样本估计总体后,接受了原假设(认贼作父)

假设检验中应当把哪一类错误作为首要的控制目标?即,哪一类错误所造成的后果更严重

α 错误的犯错率为置信度,降低置信度就可以降低α 错误的犯错率

β错误则是由很多客观因素造成的,难以明确表示

因此,首要降低α 错误
增大样本量可以使得两类错误同时减小

根据大数定理的知识,我们可以得到z检验 :

正态分布的分布函数

举个例子

二、抽样方法

抽样是通过抽取总体中的部分个体,收集这些个体的信息,从而对总体进行推断的一种手段。

常见抽样方法:

非概率抽样

等概率抽样

不等概率抽样

非概率抽样

抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查

常见非概率抽样方法

随意抽样------随便选择抽样对象

判断抽样------由抽样人制定抽样对象

志愿抽样------以志愿者为对象抽样

滚雪球抽样------由被抽样对象推荐其他被抽样对象

等概率抽样

每一个单元的入样概率均相等;

等概率抽样的基本出发点是将总体(或层)中的每一个单元看作是平等的,不"偏向"

也不"疏远"某些特定的单元。

如果总体单元差异不大,这种方式既简单也合理

常见等概率抽样

简单随机抽样(抽签法,随机数表法)

系统抽样(抽取号码是24的倍数的观众)

分层抽样(儿童抽一部分,青年一部分,中年一部分,比例2:5:3)

整群抽样(先分为五批,再从第三批中选出五批,再从第二批......)

不等概率抽样(sampling with unequal probability)

指在抽取样本之前给总体中的每一个单元赋予一定的入样概率,从而保证大的(重要的)单元抽到的概率大,而小的(不重要的)的单元抽到的概率小。其中,每个单元被赋予的入样概率通常与某个辅助变量有关(比如单元规模等)

例子:估计合肥市商业零售总额,大型商场、中型超市和小型商店的差别非常明显,平等对待显然不合理。需要按不等概率抽样。


下一讲,我们讲述:数据挖掘定义、四类任务及其应用场景

相关推荐
算法玩不起8 小时前
以乳腺癌诊断数据为例的医学AI分类建模方法入门
人工智能·分类·数据挖掘
vx_biyesheji00019 小时前
Python 全国城市租房洞察系统 Django框架 Requests爬虫 可视化 房子 房源 大数据 大模型 计算机毕业设计源码(建议收藏)✅
爬虫·python·机器学习·django·flask·课程设计·旅游
湘美书院--湘美谈教育10 小时前
湘美谈教育湘美书院网文研究:人工智能与微型小说选集
人工智能·深度学习·神经网络·机器学习·ai写作
zh路西法12 小时前
【宇树机器人强化学习】(七):复杂地形的生成与训练
python·深度学习·机器学习·机器人
OpenBayes贝式计算14 小时前
教程上新丨基于 GPU 部署 OpenClaw,轻松接入飞书/Discord 等社交软件
人工智能·深度学习·机器学习
李昊哲小课14 小时前
matplotlib多子图与复杂布局实战
python·数据分析·matplotlib·数据可视化
Master_oid15 小时前
机器学习35:元学习的应用
人工智能·学习·机器学习
Echo_NGC223715 小时前
【卷积神经网络 CNN】一文讲透卷积神经网络CNN的核心概念与演进历程
人工智能·深度学习·神经网络·目标检测·机器学习·自然语言处理·cnn
郑同学zxc15 小时前
机器学习19-tensorflow4.2
人工智能·机器学习
一招定胜负16 小时前
基于通义千问 API 的课堂话语智能分类分析工具实现
人工智能·分类·数据挖掘