多维高斯分布

高斯分布（Gaussian Distribution）

高斯分布，又称正态分布，是一种最常见的概率分布形式，广泛应用于统计学、机器学习和自然科学等领域。

高斯分布的概率密度函数（PDF）

对于给定的均值 μ 和方差，一维高斯分布的概率密度函数为：

其中：

x: 随机变量（输入数据点）
μ: 均值（mean），表示高斯分布的中心
: 方差（variance），表示数据的离散程度
σ: 标准差（standard deviation），即
exp: 自然指数函数（e≈2.718 的幂函数）

特点：

对称性：关于均值 μ\muμ 对称。
钟形曲线 ：图形呈钟形，两端逐渐趋近于零但不会到达零。
68-95-99.7 法则 ：
- 68% 的数据位于均值 ±1σ内
- 95% 的数据位于均值 ±2σ内
- 99.7% 的数据位于均值 ±3σ内

多维高斯分布（Multivariate Gaussian Distribution）

在高维空间中，高斯分布的概念可以推广到多维情况，其概率密度函数为：

其中：

x: d-维向量，表示输入数据点
μ: d-维向量，表示均值向量（中心位置）
Σ: 的协方差矩阵，描述了数据的分布形态
∣Σ∣: 协方差矩阵的行列式
: 协方差矩阵的逆
: x 与均值之差的转置

高斯分布的图示

一维高斯分布
- 形状为单峰的钟形曲线。
二维高斯分布
- 在二维空间中，高斯分布呈现椭圆等高线的形状。椭圆的方向和形状由协方差矩阵 Σ 决定。
多维高斯分布
- 在高维空间中，分布会呈现类似于高维椭圆的形状。

高斯分布的意义

自然现象的拟合：许多自然现象（如身高、体重、考试成绩）服从正态分布。
机器学习：在聚类算法（如高斯混合模型，GMM）和降维方法（如主成分分析，PCA）中常用。
统计推断：正态分布在最大似然估计、贝叶斯推断中有着重要的应用。
误差分析：根据中心极限定理，独立随机变量的和近似服从正态分布。

Python实现高斯分布

下面是用 scipy 和 matplotlib 库生成和绘制高斯分布的示例代码：

复制代码

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# 生成一维高斯分布的数据
mu, sigma = 0, 1  # 均值和标准差
x = np.linspace(-5, 5, 1000)  # 数据点
y = norm.pdf(x, mu, sigma)  # 计算概率密度

# 绘制一维高斯分布
plt.plot(x, y, label=f'N(μ={mu}, σ={sigma})')
plt.title("1D Gaussian Distribution")
plt.xlabel("x")
plt.ylabel("Probability Density")
plt.legend()
plt.grid()
plt.show()