目录
[1. 均值(Mean)](#1. 均值(Mean))
[2. 标准差(Standard Deviation)](#2. 标准差(Standard Deviation))
[1. 成年人身高](#1. 成年人身高)
[2. 考试成绩](#2. 考试成绩)
[3. 产品制造误差](#3. 产品制造误差)
[1. 一个标准差范围](#1. 一个标准差范围)
[2. 两个标准差范围](#2. 两个标准差范围)
[3. 三个标准差范围](#3. 三个标准差范围)
一、引言:为什么总能看到"钟形曲线"?
在数据分析、统计学、机器学习甚至金融领域,我们经常会看到这样一条曲线:
▲
/ \
/ \
/ \
/ \
______/ \______
它的形状像一个钟,因此也被称为:
钟形曲线(Bell Curve)
在数学上,它有一个更正式的名字:
正态分布(Normal Distribution)
很多现实世界的数据都近似服从正态分布,例如:
成年人身高
考试成绩
测量误差
产品尺寸误差
人体体温
自然界中的许多随机现象
正态分布是概率统计中最重要的分布之一,也是机器学习的重要基础。
二、什么是正态分布
正态分布是一种连续概率分布。
它具有以下特点:
左右对称
中间最高
两边逐渐下降
尾部无限接近于0
图形如下:
*
* *
* *
* *
* *
____*___________________*____
其数学定义为:
f(x) = [1 / (σ√(2π))]
×
exp(
-(x-μ)^2
/
(2σ^2)
)
其中:
μ(mu) :均值(平均值)
σ(sigma) :标准差
σ² :方差
三、正态分布中的两个关键参数
正态分布最重要的两个参数是:
均值 μ
标准差 σ
1. 均值(Mean)
均值决定曲线的位置。
例如:
μ = 50
则曲线中心位于:
x = 50
如果均值变大:
μ = 80
整个曲线向右移动。
示意图:
μ=50
/\
μ=80
/\
均值控制:
曲线中心位置
2. 标准差(Standard Deviation)
标准差决定曲线宽窄。
例如:
σ = 1
曲线较窄:
/\
/ \
/ \
当:
σ = 5
曲线变宽:
/----------\
标准差控制:
数据离散程度
四、生活中的正态分布实例
1. 成年人身高
假设男性身高:
平均身高:
175cm
标准差:
7cm
则:
大部分人身高
集中在168~182cm之间
极高或极矮的人非常少。
2. 考试成绩
很多大型考试成绩都近似正态分布:
中等分数最多
高分和低分较少
例如:
60~80分
人数最多
而:
满分
个位数
3. 产品制造误差
例如生产螺丝:
目标长度:
10mm
实际生产:
9.99mm
10.01mm
10.02mm
误差通常呈正态分布。
五、为什么正态分布如此重要
正态分布之所以重要,是因为:
中心极限定理
指出:
大量独立随机变量相加后,其结果会趋近于正态分布。
例如:
学习能力
家庭环境
身体状态
运气因素
考试发挥
共同影响考试成绩。
最终成绩会趋向正态分布。
因此:
现实世界大量数据
天然接近正态分布
六、什么是标准正态分布
虽然正态分布很多:
N(170,10)
N(100,20)
N(50,5)
但统计学家希望:
统一研究
于是定义了:
标准正态分布
标准正态分布规定:
均值 μ = 0
标准差 σ = 1
记作:
N(0,1)
图形:
*
* *
* *
* *
___*_______________*___
中心点 = 0
七、如何把普通正态分布变成标准正态分布
使用:
Z-Score标准化
公式:
z
=
(x - μ)
/
σ
例如:
某学生成绩:
85分
班级平均分:
70分
标准差:
5分
则:
z
=
(85 - 70)
/
5
=
3
表示:
高于平均水平3个标准差
八、著名的68-95-99.7法则
对于标准正态分布:
1. 一个标准差范围
μ ± 1σ
覆盖:
68.27%
数据。
2. 两个标准差范围
μ ± 2σ
覆盖:
95.45%
数据。
3. 三个标准差范围
μ ± 3σ
覆盖:
99.73%
数据。
示意图:
μ
|---|---|---|
-3σ -2σ -1σ 0 1σ 2σ 3σ
九、使用Python生成正态分布数据
NumPy提供:
np.random.normal()
生成正态分布随机数。
示例:
python
import numpy as np
data = np.random.normal(
loc=170,
scale=7,
size=10
)
print(data)
参数说明:
loc
均值。
scale
标准差。
size
样本数量。
十、绘制正态分布图
python
import numpy as np
import matplotlib.pyplot as plt
data = np.random.normal(
0,
1,
10000
)
plt.hist(
data,
bins=50,
density=True
)
plt.show()
运行后即可看到经典钟形曲线。
十一、机器学习为什么喜欢标准化
假设有两个特征:
年龄:
20~60
工资:
3000~30000
数值差异巨大。
训练模型时:
工资会主导梯度计算
影响模型效果。
因此通常进行:
标准化
公式:
z
=
(x - μ)
/
σ
标准化后:
均值 = 0
标准差 = 1
即:
标准正态分布
十二、Scikit-Learn中的标准化
使用:
python
from sklearn.preprocessing import StandardScaler
import numpy as np
X = np.array([
[20,3000],
[30,5000],
[40,10000]
])
scaler = StandardScaler()
X_std = scaler.fit_transform(X)
print(X_std)
输出:
均值接近0
标准差接近1
十三、正态分布在机器学习中的应用
常见应用:
数据标准化
异常值检测
概率模型
贝叶斯算法
高斯混合模型(GMM)
朴素贝叶斯
隐马尔可夫模型
甚至很多损失函数也建立在正态分布假设之上。
十四、正态分布与异常值检测
根据:
3σ原则
若数据满足:
|x - μ| > 3σ
则该数据出现概率极低。
通常可视为:
异常值(Outlier)
例如:
班级平均身高:
170cm
标准差:
5cm
某学生:
195cm
则属于明显异常值。
十五、总结
正态分布是统计学和机器学习中最重要的概率分布之一。
核心特点:
左右对称
中间高
两边低
呈钟形曲线
两个关键参数:
μ:均值
σ:标准差
标准正态分布定义为:
μ = 0
σ = 1
标准化公式:
z
=
(x - μ)
/
σ
在机器学习中:
标准化
异常值检测
概率建模
贝叶斯学习
高斯模型
都离不开正态分布。
可以这样理解:
正态分布
描述了现实世界随机现象的规律
而标准正态分布
则是研究这种规律的统一坐标系
掌握正态分布之后,你将更容易理解后续的:
概率论
贝叶斯统计
机器学习
深度学习
数据分析
等核心内容。