高斯分布(Gaussian Distribution)
高斯分布,又称正态分布,是一种最常见的概率分布形式,广泛应用于统计学、机器学习和自然科学等领域。
高斯分布的概率密度函数(PDF)
对于给定的均值 μ 和方差 ,一维高斯分布的概率密度函数为:
其中:
- x: 随机变量(输入数据点)
- μ: 均值(mean),表示高斯分布的中心
- : 方差(variance),表示数据的离散程度
- σ: 标准差(standard deviation),即
- exp: 自然指数函数(e≈2.718 的幂函数)
特点:
- 对称性:关于均值 μ\muμ 对称。
- 钟形曲线 :图形呈钟形,两端逐渐趋近于零但不会到达零。
- 68-95-99.7 法则 :
- 68% 的数据位于均值 ±1σ内
- 95% 的数据位于均值 ±2σ内
- 99.7% 的数据位于均值 ±3σ内
多维高斯分布(Multivariate Gaussian Distribution)
在高维空间中,高斯分布的概念可以推广到多维情况,其概率密度函数为:
其中:
- x: d-维向量,表示输入数据点
- μ: d-维向量,表示均值向量(中心位置)
- Σ: 的协方差矩阵,描述了数据的分布形态
- ∣Σ∣: 协方差矩阵的行列式
- : 协方差矩阵的逆
- : x 与均值之差的转置
高斯分布的图示
-
一维高斯分布
- 形状为单峰的钟形曲线。
-
二维高斯分布
- 在二维空间中,高斯分布呈现椭圆等高线的形状。椭圆的方向和形状由协方差矩阵 Σ 决定。
-
多维高斯分布
- 在高维空间中,分布会呈现类似于高维椭圆的形状。
高斯分布的意义
- 自然现象的拟合:许多自然现象(如身高、体重、考试成绩)服从正态分布。
- 机器学习:在聚类算法(如高斯混合模型,GMM)和降维方法(如主成分分析,PCA)中常用。
- 统计推断:正态分布在最大似然估计、贝叶斯推断中有着重要的应用。
- 误差分析:根据中心极限定理,独立随机变量的和近似服从正态分布。
Python实现高斯分布
下面是用 scipy
和 matplotlib
库生成和绘制高斯分布的示例代码:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
# 生成一维高斯分布的数据
mu, sigma = 0, 1 # 均值和标准差
x = np.linspace(-5, 5, 1000) # 数据点
y = norm.pdf(x, mu, sigma) # 计算概率密度
# 绘制一维高斯分布
plt.plot(x, y, label=f'N(μ={mu}, σ={sigma})')
plt.title("1D Gaussian Distribution")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.grid()
plt.show()