连续型随机变量的概率分布
德国的高斯
法国的拉普拉斯
回到最开始的业务场景
通过统计描述,分析师已经了解了配件A过去的日消耗量波动情况,现希望基于历史数据设定库存控制线,要求该库存量能够保证99%的使用日不会出现库存断货情况。
该怎么办呢?
控制线设置成均数可以吗?
肯定是不可以的,因为均值只是代表一般水平,换句话说,有大概一半的数据在均数以下,有一半在以上,如果把均数设置为库存控制线,最多也就只能满足50%左右的使用日不会出现库存断货情况
如果使用百分位数呢?
计算P99位置的数值,这样理论是可以的,但是百分位数对于样本量比较大的数据集才具有意义,样本量太小,实际意义不大
举个例子:零件日消耗量分布从1-100,我们随机抽取50个样本,计算P99,要求这个值要大于99%的日消耗,假设这个样本数据的最大值是80,比这个数小的是78,最终我们计算出来的是78,显然跟100差的很远,这个数据拿到实际应用中,是不满足要求的,因为样本量少造成的误差太大的缘故。
那该怎么办?
那就用到接下来要讲的内容
从频数分布到概率分布
那我们来分析一下
直方图/频率图的性质
直条的面积实质上就是频率(或者百分比)
面积=直条高度X宽度(组距) = 频率
因此直条的面积相加等于1
当样本量越来越大,频率(面积) 趋向概率
并且组距越来越小时,直方条的顶缩成点并且各个直方条的顶连接成一条曲线,这条曲线就是 概率密度分布曲线
概率密度的概念和固体的密度基本类似
哪个地方的概率大说明密度就大
这就是正态分布
官方概念
正态分布的两个重要特征:均数μ和标准差σ
μ是分布曲线的最高峰的位置(集中趋势)
σ标准差是离散程度的度量(离散趋势)
正态分布是具有对称性的
正态分布是应用最广泛的一种分布,在我们生活中正态分布随处可见
人的智商
大部分人的智商是正常的,只有少数像爱伊斯坦老爷子这样的才会智商发飙
人的身高,这个是西方国家的
什么是标准正态分布?
不同的正态分布,其曲线下方的面积分布规律各不相同,使得在应用上很不方便,需要为每种分布单独计算曲线下面积的分布规律
为此统计学家优先计算了均数为0,标准差为1的正态分布N(0,1)曲线下面积分布规律。
其曲线下概率面积分布规律非常常用
95% 99%
双侧 1.96 2.58
单侧 1.64 2.33
95%的情况下最常用
标准正态分布的曲线下面积分布规律
只要将相应的指标转换成服从标准正态分布,就可以根据该面积分布规律计算出累积概率。
例:95%的双侧个体参考值范围
看看这张图,参考值就是应用了正态分布的知识
回到刚才的例子中
解题思路
首先确定数据是否大致服从正态分布
如果服从,直接采用正态分布公式计算参考值范围
如果不服从,那么是否可以采取某种形式进行变换成正态分布
如果还不行,只能采用百分位数,但是如果样本量小的话,数据可能不准确
举个栗子,详细看看如何根据正态分布计算区间范围
某零件的长度服从正态分布,平均长度为10mm,标准差为0.2mm,问: 从该批零件中随机抽取一件,其长度不到9.4,mm的概率是多少?
计算过程
使用Excel如何计算
=NORMDIST(9.4,10,0.2,TRUE)
函数介绍
NORMDIST(x,mean,standard_dev,cumulative)
NORMDIST 函数语法具有下列参数:
- X 必需。 需要计算其分布的数值。
- Mean 必需。 分布的算术平均值。
- standard_dev 必需。 分布的标准偏差。
- cumulative 必需。 决定函数形式的逻辑值。 如果 cumulative 为 TRUE,则 NORMDIST 返回累积分布函数;如果为 FALSE,则返回概率密度函数。
正态分布的经验法则
根据Z值,查概率
根据概率,查Z值
X 服从 N
仲尼曰:"中庸者,不偏不倚、无过不及,而平常之理,乃天命所当然,精微之极致也。" -- 朱熹《中庸单句》
伽尔顿板虚拟仿真-正态曲线的产生:http://vr.1zhidian.cn/bean/index.html