【人工智能数学基础】多元高斯分布

文章目录

- 一、什么是多元高斯分布？
- - [1.1 核心定义：](#1.1 核心定义：)
  - [1.2 简单来说：](#1.2 简单来说：)
- 二、与普通高斯分布的关键不同（对比总结）
- 三、深入解析多元高斯分布
- - [3.1 概率密度函数](#3.1 概率密度函数)
  - [3.2 核心参数：均值向量和协方差矩阵](#3.2 核心参数：均值向量和协方差矩阵)
- 四、可视化理解：协方差矩阵如何影响形状
- 五、多元高斯分布的重要性质与应用
- - [5.1 重要性质](#5.1 重要性质)
  - [5.2 主要应用](#5.2 主要应用)
- 总结

一、什么是多元高斯分布？

1.1 核心定义：

多元高斯分布（Multivariate Gaussian Distribution）是一元高斯分布在多维空间的自然推广 。它描述的不是一个单一的随机变量，而是一组随机变量（一个随机向量）的联合分布，并且这组变量的任何线性组合都服从一元高斯分布。

1.2 简单来说：

普通高斯分布：描述一个随机变量（如身高）的分布。
多元高斯分布：同时描述多个相关联的随机变量（如身高、体重、年龄）的分布，并完整地刻画了这些变量之间的相关性。

二、与普通高斯分布的关键不同（对比总结）

方面	普通高斯分布（一元）	多元高斯分布
描述对象	一个随机变量（标量）	多个随机变量组成的向量
参数	2个：均值(μ)和方差(σ²)	两个集合：均值向量(μ )和协方差矩阵(Σ)
均值	一个数值 μ，表示分布的中心位置	一个向量 μ，表示在多维空间中分布的中心点
方差/协方差	一个数值 σ²，表示一维上的离散度	一个矩阵 Σ ，对角线是每个变量的方差，非对角线是变量间的协方差
分布形状	钟形曲线（一维）	钟形曲面（二维）、超椭球体（高维）
核心描述能力	数据的离散程度	数据的离散程度和变量间的相关性

三、深入解析多元高斯分布

3.1 概率密度函数

一元高斯分布 PDF:
f ( x ) = 1 σ 2 π exp ⁡ ( − 1 2 ( x − μ σ ) 2 ) f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right) f(x)=σ2π 1exp(−21(σx−μ)2)
多元高斯分布 PDF (对于 k 维随机向量 X):
f ( x ) = 1 ( 2 π ) k / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) f(\mathbf{x}) = \frac{1}{(2\pi)^{k/2} |\mathbf{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu})\right) f(x)=(2π)k/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))

公式解读：

x \mathbf{x} x：是一个 k 维向量，表示一个多变量数据点，例如 x = [ x 身高 , x 体重 ] T \mathbf{x} = [x_{\text{身高}}, x_{\text{体重}}]^T x=[x身高,x体重]T。
μ \mathbf{\mu} μ：是一个 k 维的均值向量 。 μ = [ μ 1 , μ 2 , . . . , μ k ] T \mathbf{\mu} = [\mu_1, \mu_2, ..., \mu_k]^T μ=[μ1,μ2,...,μk]T。它的每个元素是对应变量的均值。
Σ \mathbf{\Sigma} Σ：是一个 k×k 的协方差矩阵。这是整个分布的核心。
∣ Σ ∣ |\mathbf{\Sigma}| ∣Σ∣：是协方差矩阵的行列式，衡量了分布的整体"体积"或分散程度。
Σ − 1 \mathbf{\Sigma}^{-1} Σ−1：是协方差矩阵的逆矩阵。
( x − μ ) T Σ − 1 ( x − μ ) (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu}) (x−μ)TΣ−1(x−μ)：这个二次型项被称为马哈拉诺比斯距离 ，是衡量点 x \mathbf{x} x 到中心 μ \mathbf{\mu} μ 的"相关距离"，它考虑了变量间的相关性，比欧氏距离更合理。

3.2 核心参数：均值向量和协方差矩阵

假设我们有一个二维随机向量 X = [ X 1 , X 2 ] T \mathbf{X} = [X_1, X_2]^T X=[X1,X2]T，例如 X 1 X_1 X1是身高， X 2 X_2 X2 是体重。

均值向量 μ \mathbf{\mu} μ ：
μ = [ μ 1 μ 2 ] = [ E [ X 1 ] E [ X 2 ] ] \mathbf{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix} = \begin{bmatrix} E[X_1] \\ E[X_2] \end{bmatrix} μ=[μ1μ2]=[E[X1]E[X2]]
它定义了二维空间中的一个点，是这个钟形曲面的峰值所在。
协方差矩阵 ( \mathbf{\Sigma} ) ：
Σ = [ Var ( X 1 ) Cov ( X 1 , X 2 ) Cov ( X 2 , X 1 ) Var ( X 2 ) ] = [ σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 ] \mathbf{\Sigma} = \begin{bmatrix} \text{Var}(X_1) & \text{Cov}(X_1, X_2) \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) \end{bmatrix} = \begin{bmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{bmatrix} Σ=[Var(X1)Cov(X2,X1)Cov(X1,X2)Var(X2)]=[σ12ρσ1σ2ρσ1σ2σ22]
这里：
- σ 1 2 , σ 2 2 \sigma_1^2, \sigma_2^2 σ12,σ22（对角线）：分别是身高和体重的方差，决定了各自轴向上的"胖瘦"。
- ρ σ 1 σ 2 \rho\sigma_1\sigma_2 ρσ1σ2（非对角线）：是身高和体重的协方差 ，决定了分布的形状和方向。 ρ \rho ρ 是相关系数。

四、可视化理解：协方差矩阵如何影响形状

我们以二维为例，假设均值向量为零向量 μ = [ 0 , 0 ] T \mathbf{\mu} = [0, 0]^T μ=[0,0]T，来看不同协方差矩阵下的分布形态：

Σ = [ 1 0 0 1 ] \mathbf{\Sigma} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} Σ=[1001]
- 解读：方差都为1，协方差为0。
- 形状：一个标准的圆形钟形曲面。两个变量不相关，且离散程度相同。
Σ = [ 3 0 0 1 ] \mathbf{\Sigma} = \begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix} Σ=[3001]
- 解读：X1的方差(3)大于X2的方差(1)，协方差为0。
- 形状：一个椭圆形钟形曲面，在X1轴方向上更"扁"，在X2轴方向上更"瘦"。变量不相关。
Σ = [ 2 1.5 1.5 2 ] \mathbf{\Sigma} = \begin{bmatrix} 2 & 1.5 \\ 1.5 & 2 \end{bmatrix} Σ=[21.51.52]
- 解读：方差相同(2)，协方差为正(1.5)。
- 形状：一个倾斜的椭圆形曲面，沿"左上-右下"方向拉伸。表示当X1增加时，X2也倾向于增加（正相关）。
Σ = [ 2 − 1.5 − 1.5 2 ] \mathbf{\Sigma} = \begin{bmatrix} 2 & -1.5 \\ -1.5 & 2 \end{bmatrix} Σ=[2−1.5−1.52]
- 解读：方差相同(2)，协方差为负(-1.5)。
- 形状：一个倾斜的椭圆形曲面，但沿"右上-左下"方向拉伸。表示当X1增加时，X2倾向于减少（负相关）。

五、多元高斯分布的重要性质与应用

5.1 重要性质

边际分布：多元高斯分布的任意一个子集（例如，只看身高）的分布本身也是一个高斯分布。
条件分布：在给定其他变量值的情况下（例如，已知体重=70kg），某个变量（如身高）的分布也是一个高斯分布。
线性变换：多元高斯随机向量经过线性变换后，仍然是一个多元高斯分布。

5.2 主要应用

多元统计分析：如主成分分析（PCA）、线性判别分析（LDA）等算法都基于多元高斯分布的假设。
机器学习 ：
- 高斯混合模型：用于复杂的聚类任务。
- 异常检测：如果一个数据点在多元高斯分布下的概率极低，则可被判定为异常点。
- 生成模型：可以从学到的多元高斯分布中生成新的、类似的数据样本。
金融工程：用于对多种资产收益率的联合分布进行建模，从而进行资产配置和风险管理。
地理统计：用于模拟在空间上相关的数据，如矿藏分布、污染浓度等。

总结

普通高斯分布是理解随机性的基石，它用均值和方差描述了一个变量的不确定性和离散度。

多元高斯分布 则是处理相关数据的强大工具，它通过均值向量 和协方差矩阵 ，不仅描述了每个变量自身的特性，更重要的是精确地捕捉了变量之间的线性相关关系。它将相关性作为分布的内在属性，使得我们能以一个统一、优雅的框架来理解和建模多维数据。