什么是正态分布与标准正态分布?从身高统计到机器学习全面理解

目录

一、引言:为什么总能看到"钟形曲线"?

二、什么是正态分布

三、正态分布中的两个关键参数

[1. 均值(Mean)](#1. 均值(Mean))

[2. 标准差(Standard Deviation)](#2. 标准差(Standard Deviation))

四、生活中的正态分布实例

[1. 成年人身高](#1. 成年人身高)

[2. 考试成绩](#2. 考试成绩)

[3. 产品制造误差](#3. 产品制造误差)

五、为什么正态分布如此重要

六、什么是标准正态分布

七、如何把普通正态分布变成标准正态分布

八、著名的68-95-99.7法则

[1. 一个标准差范围](#1. 一个标准差范围)

[2. 两个标准差范围](#2. 两个标准差范围)

[3. 三个标准差范围](#3. 三个标准差范围)

九、使用Python生成正态分布数据

十、绘制正态分布图

十一、机器学习为什么喜欢标准化

十二、Scikit-Learn中的标准化

十三、正态分布在机器学习中的应用

十四、正态分布与异常值检测

十五、总结


一、引言:为什么总能看到"钟形曲线"?

在数据分析、统计学、机器学习甚至金融领域,我们经常会看到这样一条曲线:

复制代码
           ▲
          / \
         /   \
        /     \
       /       \
______/         \______

它的形状像一个钟,因此也被称为:

复制代码
钟形曲线(Bell Curve)

在数学上,它有一个更正式的名字:

复制代码
正态分布(Normal Distribution)

很多现实世界的数据都近似服从正态分布,例如:

复制代码
成年人身高

考试成绩

测量误差

产品尺寸误差

人体体温

自然界中的许多随机现象

正态分布是概率统计中最重要的分布之一,也是机器学习的重要基础。


二、什么是正态分布

正态分布是一种连续概率分布。

它具有以下特点:

复制代码
左右对称

中间最高

两边逐渐下降

尾部无限接近于0

图形如下:

复制代码
              *
            *   *
          *       *
        *           *
      *               *
____*___________________*____

其数学定义为:

复制代码
f(x) = [1 / (σ√(2π))]
       ×
       exp(
           -(x-μ)^2
           /
           (2σ^2)
       )

其中:

复制代码
μ(mu)     :均值(平均值)

σ(sigma)  :标准差

σ²          :方差

三、正态分布中的两个关键参数

正态分布最重要的两个参数是:

复制代码
均值 μ

标准差 σ

1. 均值(Mean)

均值决定曲线的位置。

例如:

复制代码
μ = 50

则曲线中心位于:

复制代码
x = 50

如果均值变大:

复制代码
μ = 80

整个曲线向右移动。

示意图:

复制代码
μ=50

      /\

μ=80

                /\

均值控制:

复制代码
曲线中心位置

2. 标准差(Standard Deviation)

标准差决定曲线宽窄。

例如:

复制代码
σ = 1

曲线较窄:

复制代码
      /\
     /  \
    /    \

当:

复制代码
σ = 5

曲线变宽:

复制代码
    /----------\

标准差控制:

复制代码
数据离散程度

四、生活中的正态分布实例

1. 成年人身高

假设男性身高:

复制代码
平均身高:

175cm

标准差:

复制代码
7cm

则:

复制代码
大部分人身高

集中在168~182cm之间

极高或极矮的人非常少。


2. 考试成绩

很多大型考试成绩都近似正态分布:

复制代码
中等分数最多

高分和低分较少

例如:

复制代码
60~80分

人数最多

而:

复制代码
满分

个位数

3. 产品制造误差

例如生产螺丝:

目标长度:

复制代码
10mm

实际生产:

复制代码
9.99mm

10.01mm

10.02mm

误差通常呈正态分布。


五、为什么正态分布如此重要

正态分布之所以重要,是因为:

复制代码
中心极限定理

指出:

大量独立随机变量相加后,其结果会趋近于正态分布。

例如:

复制代码
学习能力

家庭环境

身体状态

运气因素

考试发挥

共同影响考试成绩。

最终成绩会趋向正态分布。

因此:

复制代码
现实世界大量数据

天然接近正态分布

六、什么是标准正态分布

虽然正态分布很多:

复制代码
N(170,10)

N(100,20)

N(50,5)

但统计学家希望:

复制代码
统一研究

于是定义了:

复制代码
标准正态分布

标准正态分布规定:

复制代码
均值 μ = 0

标准差 σ = 1

记作:

复制代码
N(0,1)

图形:

复制代码
           *
         *   *
       *       *
     *           *
___*_______________*___

中心点 = 0

七、如何把普通正态分布变成标准正态分布

使用:

复制代码
Z-Score标准化

公式:

复制代码
z

=

(x - μ)

/

σ

例如:

某学生成绩:

复制代码
85分

班级平均分:

复制代码
70分

标准差:

复制代码
5分

则:

复制代码
z

=

(85 - 70)

/

5

=

3

表示:

复制代码
高于平均水平3个标准差

八、著名的68-95-99.7法则

对于标准正态分布:

1. 一个标准差范围

复制代码
μ ± 1σ

覆盖:

复制代码
68.27%

数据。


2. 两个标准差范围

复制代码
μ ± 2σ

覆盖:

复制代码
95.45%

数据。


3. 三个标准差范围

复制代码
μ ± 3σ

覆盖:

复制代码
99.73%

数据。

示意图:

复制代码
             μ

      |---|---|---|

    -3σ -2σ -1σ 0 1σ 2σ 3σ

九、使用Python生成正态分布数据

NumPy提供:

复制代码
np.random.normal()

生成正态分布随机数。

示例:

python 复制代码
import numpy as np

data = np.random.normal(
    loc=170,
    scale=7,
    size=10
)

print(data)

参数说明:

复制代码
loc

均值。

复制代码
scale

标准差。

复制代码
size

样本数量。


十、绘制正态分布图

python 复制代码
import numpy as np
import matplotlib.pyplot as plt

data = np.random.normal(
    0,
    1,
    10000
)

plt.hist(
    data,
    bins=50,
    density=True
)

plt.show()

运行后即可看到经典钟形曲线。


十一、机器学习为什么喜欢标准化

假设有两个特征:

复制代码
年龄:

20~60

工资:

复制代码
3000~30000

数值差异巨大。

训练模型时:

复制代码
工资会主导梯度计算

影响模型效果。

因此通常进行:

复制代码
标准化

公式:

复制代码
z

=

(x - μ)

/

σ

标准化后:

复制代码
均值 = 0

标准差 = 1

即:

复制代码
标准正态分布

十二、Scikit-Learn中的标准化

使用:

python 复制代码
from sklearn.preprocessing import StandardScaler

import numpy as np

X = np.array([
    [20,3000],
    [30,5000],
    [40,10000]
])

scaler = StandardScaler()

X_std = scaler.fit_transform(X)

print(X_std)

输出:

复制代码
均值接近0

标准差接近1

十三、正态分布在机器学习中的应用

常见应用:

复制代码
数据标准化

异常值检测

概率模型

贝叶斯算法

高斯混合模型(GMM)

朴素贝叶斯

隐马尔可夫模型

甚至很多损失函数也建立在正态分布假设之上。


十四、正态分布与异常值检测

根据:

复制代码
3σ原则

若数据满足:

复制代码
|x - μ| > 3σ

则该数据出现概率极低。

通常可视为:

复制代码
异常值(Outlier)

例如:

复制代码
班级平均身高:

170cm

标准差:

复制代码
5cm

某学生:

复制代码
195cm

则属于明显异常值。


十五、总结

正态分布是统计学和机器学习中最重要的概率分布之一。

核心特点:

复制代码
左右对称

中间高

两边低

呈钟形曲线

两个关键参数:

复制代码
μ:均值

σ:标准差

标准正态分布定义为:

复制代码
μ = 0

σ = 1

标准化公式:

复制代码
z

=

(x - μ)

/

σ

在机器学习中:

复制代码
标准化

异常值检测

概率建模

贝叶斯学习

高斯模型

都离不开正态分布。

可以这样理解:

复制代码
正态分布

描述了现实世界随机现象的规律

而标准正态分布

则是研究这种规律的统一坐标系

掌握正态分布之后,你将更容易理解后续的:

复制代码
概率论

贝叶斯统计

机器学习

深度学习

数据分析

等核心内容。

相关推荐
小糖学代码1 小时前
机器学习:2.线性回归
人工智能·机器学习·线性回归
中科岩创1 小时前
恩施某旅游景区建筑物监测体系构建与应用
人工智能·物联网·自动化
小糖学代码1 小时前
机器学习:1.机器学习基本概念
人工智能·python·机器学习
hai3152475431 小时前
# FiveOS V5.0 交付(终极合成器版 · 物理合规修正)
人工智能·stm32·单片机·嵌入式硬件·神经网络
段一凡-华北理工大学1 小时前
工业领域的Hadoop架构学习~系列文章09:HBase列式数据库
数据库·人工智能·hadoop·架构·hbase·高炉炼铁·高炉炼铁智能化
踏着七彩祥云的小丑1 小时前
AI学习——FastAPI 接口封装
人工智能·ai
杰克逊的日记1 小时前
IT领域常用的AI工具
人工智能·ai工具
棱镜研途1 小时前
学习笔记丨模式识别与机器学习5大核心赛道解析(IC-IPPR 2026)
人工智能·神经网络·算法·机器学习·模式识别·学术会议·智能计算