数据统计分析 — 正态分布

连续型随机变量的概率分布

德国的高斯

法国的拉普拉斯

回到最开始的业务场景

通过统计描述,分析师已经了解了配件A过去的日消耗量波动情况,现希望基于历史数据设定库存控制线,要求该库存量能够保证99%的使用日不会出现库存断货情况。

该怎么办呢?

控制线设置成均数可以吗?

肯定是不可以的,因为均值只是代表一般水平,换句话说,有大概一半的数据在均数以下,有一半在以上,如果把均数设置为库存控制线,最多也就只能满足50%左右的使用日不会出现库存断货情况

如果使用百分位数呢?

计算P99位置的数值,这样理论是可以的,但是百分位数对于样本量比较大的数据集才具有意义,样本量太小,实际意义不大

举个例子:零件日消耗量分布从1-100,我们随机抽取50个样本,计算P99,要求这个值要大于99%的日消耗,假设这个样本数据的最大值是80,比这个数小的是78,最终我们计算出来的是78,显然跟100差的很远,这个数据拿到实际应用中,是不满足要求的,因为样本量少造成的误差太大的缘故。

那该怎么办?

那就用到接下来要讲的内容

从频数分布到概率分布

那我们来分析一下

直方图/频率图的性质

直条的面积实质上就是频率(或者百分比)

面积=直条高度X宽度(组距) = 频率

因此直条的面积相加等于1

当样本量越来越大,频率(面积) 趋向概率

并且组距越来越小时,直方条的顶缩成点并且各个直方条的顶连接成一条曲线,这条曲线就是 概率密度分布曲线

概率密度的概念和固体的密度基本类似

哪个地方的概率大说明密度就大

这就是正态分布
官方概念

正态分布的两个重要特征:均数μ和标准差σ

μ是分布曲线的最高峰的位置(集中趋势)

σ标准差是离散程度的度量(离散趋势)

正态分布是具有对称性的

正态分布是应用最广泛的一种分布,在我们生活中正态分布随处可见

人的智商

大部分人的智商是正常的,只有少数像爱伊斯坦老爷子这样的才会智商发飙

人的身高,这个是西方国家的

什么是标准正态分布?

不同的正态分布,其曲线下方的面积分布规律各不相同,使得在应用上很不方便,需要为每种分布单独计算曲线下面积的分布规律

为此统计学家优先计算了均数为0,标准差为1的正态分布N(0,1)曲线下面积分布规律。

其曲线下概率面积分布规律非常常用

95% 99%

双侧 1.96 2.58

单侧 1.64 2.33

95%的情况下最常用

标准正态分布的曲线下面积分布规律

只要将相应的指标转换成服从标准正态分布,就可以根据该面积分布规律计算出累积概率。

例:95%的双侧个体参考值范围

看看这张图,参考值就是应用了正态分布的知识

回到刚才的例子中

解题思路

首先确定数据是否大致服从正态分布

如果服从,直接采用正态分布公式计算参考值范围

如果不服从,那么是否可以采取某种形式进行变换成正态分布

如果还不行,只能采用百分位数,但是如果样本量小的话,数据可能不准确

举个栗子,详细看看如何根据正态分布计算区间范围

某零件的长度服从正态分布,平均长度为10mm,标准差为0.2mm,问: 从该批零件中随机抽取一件,其长度不到9.4,mm的概率是多少?

计算过程

使用Excel如何计算

=NORMDIST(9.4,10,0.2,TRUE)

函数介绍

NORMDIST(x,mean,standard_dev,cumulative)

NORMDIST 函数语法具有下列参数:

  • X 必需。 需要计算其分布的数值。
  • Mean 必需。 分布的算术平均值。
  • standard_dev 必需。 分布的标准偏差。
  • cumulative 必需。 决定函数形式的逻辑值。 如果 cumulative 为 TRUE,则 NORMDIST 返回累积分布函数;如果为 FALSE,则返回概率密度函数。

正态分布的经验法则

根据Z值,查概率

根据概率,查Z值

X 服从 N





仲尼曰:"中庸者,不偏不倚、无过不及,而平常之理,乃天命所当然,精微之极致也。" -- 朱熹《中庸单句》


伽尔顿板虚拟仿真-正态曲线的产生:http://vr.1zhidian.cn/bean/index.html

https://zhuanlan.zhihu.com/p/123314439

相关推荐
图表制作解说(目标1000个图表)1 个月前
ECharts饼图-饼图自定义样式,附视频讲解与代码下载
前端·javascript·echarts·统计分析·数据可视化·饼图·1024程序员节·大屏可视化
图表制作解说(目标1000个图表)1 个月前
ECharts饼图-饼图标签对齐,附视频讲解与代码下载
echarts·统计分析·数据可视化·饼图·大屏可视化
图表制作解说(目标1000个图表)1 个月前
ECharts饼图-饼图纹理,附视频讲解与代码下载
echarts·统计分析·数据可视化·饼图·大屏可视化
weixin_贾1 个月前
ChatGPT与R语言融合技术在生态环境数据统计分析、绘图、模型中的实践与进阶应用
chatgpt·r语言·统计分析·水文水资源·生态环境·多元统计
Amyniez5 个月前
【R语言】地理探测器模拟及分析(Geographical detector)
经验分享·数据分析·r语言·统计分析·地理探测器·地理学·科研方法
夏日恋雨7 个月前
如何利用有限的数据发表更多的SCI论文?——利用ArcGIS探究环境和生态因子对水体、土壤和大气污染物的影响
arcgis·数据分析·统计分析·土地利用·环境科学·生态科学·arcgis制图
夏日恋雨8 个月前
最新基于R语言lavaan结构方程模型(SEM)技术
r语言·生态学·统计分析·生物学·数据分享·结构方程·混合效应
maizeman1268 个月前
excel统计分析——嵌套设计
excel·统计分析·巢式设计·嵌套设计
wang09079 个月前
ElasticSearch之聚合aggs
elasticsearch·统计分析·aggs·聚合