【人工智能数学基础】多元高斯分布

文章目录

一、什么是多元高斯分布?

1.1 核心定义:

多元高斯分布(Multivariate Gaussian Distribution)是一元高斯分布在多维空间的自然推广 。它描述的不是一个单一的随机变量,而是一组随机变量(一个随机向量)的联合分布,并且这组变量的任何线性组合都服从一元高斯分布。

1.2 简单来说:

  • 普通高斯分布:描述一个随机变量(如身高)的分布。
  • 多元高斯分布:同时描述多个相关联的随机变量(如身高、体重、年龄)的分布,并完整地刻画了这些变量之间的相关性。

二、与普通高斯分布的关键不同(对比总结)

方面 普通高斯分布(一元) 多元高斯分布
描述对象 一个随机变量(标量) 多个随机变量组成的向量
参数 2个:均值(μ)和方差(σ²) 两个集合 :均值向量(μ )和协方差矩阵(Σ)
均值 一个数值 μ,表示分布的中心位置 一个向量 μ,表示在多维空间中分布的中心点
方差/协方差 一个数值 σ²,表示一维上的离散度 一个矩阵 Σ ,对角线是每个变量的方差 ,非对角线是变量间的协方差
分布形状 钟形曲线(一维) 钟形曲面 (二维)、超椭球体(高维)
核心描述能力 数据的离散程度 数据的离散程度变量间的相关性

三、深入解析多元高斯分布

3.1 概率密度函数

一元高斯分布 PDF:
f ( x ) = 1 σ 2 π exp ⁡ ( − 1 2 ( x − μ σ ) 2 ) f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right) f(x)=σ2π 1exp(−21(σx−μ)2)
多元高斯分布 PDF (对于 k 维随机向量 X):
f ( x ) = 1 ( 2 π ) k / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) f(\mathbf{x}) = \frac{1}{(2\pi)^{k/2} |\mathbf{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu})\right) f(x)=(2π)k/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))

公式解读:

  • x \mathbf{x} x:是一个 k 维向量,表示一个多变量数据点,例如 x = x 身高 , x 体重 T \mathbf{x} = x_{\\text{身高}}, x_{\\text{体重}}^T x=x身高,x体重T。
  • μ \mathbf{\mu} μ:是一个 k 维的均值向量 。 μ = μ 1 , μ 2 , . . . , μ k T \mathbf{\mu} = \\mu_1, \\mu_2, ..., \\mu_k^T μ=μ1,μ2,...,μkT。它的每个元素是对应变量的均值。
  • Σ \mathbf{\Sigma} Σ:是一个 k×k 的协方差矩阵。这是整个分布的核心。
  • ∣ Σ ∣ |\mathbf{\Sigma}| ∣Σ∣:是协方差矩阵的行列式,衡量了分布的整体"体积"或分散程度。
  • Σ − 1 \mathbf{\Sigma}^{-1} Σ−1:是协方差矩阵的逆矩阵。
  • ( x − μ ) T Σ − 1 ( x − μ ) (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu}) (x−μ)TΣ−1(x−μ):这个二次型项被称为马哈拉诺比斯距离 ,是衡量点 x \mathbf{x} x 到中心 μ \mathbf{\mu} μ 的"相关距离",它考虑了变量间的相关性,比欧氏距离更合理。

3.2 核心参数:均值向量和协方差矩阵

假设我们有一个二维随机向量 X = X 1 , X 2 T \mathbf{X} = X_1, X_2^T X=X1,X2T,例如 X 1 X_1 X1是身高, X 2 X_2 X2 是体重。

  • 均值向量 μ \mathbf{\mu} μ
    μ = μ 1 μ 2 = E \[ X 1 E X 2 ] \mathbf{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix} = \begin{bmatrix} EX_1 \\ EX_2 \end{bmatrix} μ=μ1μ2=E\[X1EX2]
    它定义了二维空间中的一个点,是这个钟形曲面的峰值所在。
  • 协方差矩阵 ( \mathbf{\Sigma} )
    Σ = Var ( X 1 ) Cov ( X 1 , X 2 ) Cov ( X 2 , X 1 ) Var ( X 2 ) = σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 \mathbf{\Sigma} = \begin{bmatrix} \text{Var}(X_1) & \text{Cov}(X_1, X_2) \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) \end{bmatrix} = \begin{bmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{bmatrix} Σ=Var(X1)Cov(X2,X1)Cov(X1,X2)Var(X2)=σ12ρσ1σ2ρσ1σ2σ22
    这里:
    • σ 1 2 , σ 2 2 \sigma_1^2, \sigma_2^2 σ12,σ22(对角线):分别是身高和体重的方差,决定了各自轴向上的"胖瘦"。
    • ρ σ 1 σ 2 \rho\sigma_1\sigma_2 ρσ1σ2(非对角线):是身高和体重的协方差 ,决定了分布的形状和方向。 ρ \rho ρ 是相关系数。

四、可视化理解:协方差矩阵如何影响形状

我们以二维为例,假设均值向量为零向量 μ = 0 , 0 T \mathbf{\mu} = 0, 0^T μ=0,0T,来看不同协方差矩阵下的分布形态:

  1. Σ = 1 0 0 1 \mathbf{\Sigma} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} Σ=1001
    • 解读:方差都为1,协方差为0。
    • 形状:一个标准的圆形钟形曲面。两个变量不相关,且离散程度相同。
  2. Σ = 3 0 0 1 \mathbf{\Sigma} = \begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix} Σ=3001
    • 解读:X1的方差(3)大于X2的方差(1),协方差为0。
    • 形状:一个椭圆形钟形曲面,在X1轴方向上更"扁",在X2轴方向上更"瘦"。变量不相关。
  3. Σ = 2 1.5 1.5 2 \mathbf{\Sigma} = \begin{bmatrix} 2 & 1.5 \\ 1.5 & 2 \end{bmatrix} Σ=21.51.52
    • 解读:方差相同(2),协方差为正(1.5)。
    • 形状:一个倾斜的椭圆形曲面,沿"左上-右下"方向拉伸。表示当X1增加时,X2也倾向于增加(正相关)。
  4. Σ = 2 − 1.5 − 1.5 2 \mathbf{\Sigma} = \begin{bmatrix} 2 & -1.5 \\ -1.5 & 2 \end{bmatrix} Σ=2−1.5−1.52
    • 解读:方差相同(2),协方差为负(-1.5)。
    • 形状:一个倾斜的椭圆形曲面,但沿"右上-左下"方向拉伸。表示当X1增加时,X2倾向于减少(负相关)。

五、多元高斯分布的重要性质与应用

5.1 重要性质

  • 边际分布:多元高斯分布的任意一个子集(例如,只看身高)的分布本身也是一个高斯分布。
  • 条件分布:在给定其他变量值的情况下(例如,已知体重=70kg),某个变量(如身高)的分布也是一个高斯分布。
  • 线性变换:多元高斯随机向量经过线性变换后,仍然是一个多元高斯分布。

5.2 主要应用

  • 多元统计分析:如主成分分析(PCA)、线性判别分析(LDA)等算法都基于多元高斯分布的假设。
  • 机器学习
    • 高斯混合模型:用于复杂的聚类任务。
    • 异常检测:如果一个数据点在多元高斯分布下的概率极低,则可被判定为异常点。
    • 生成模型:可以从学到的多元高斯分布中生成新的、类似的数据样本。
  • 金融工程:用于对多种资产收益率的联合分布进行建模,从而进行资产配置和风险管理。
  • 地理统计:用于模拟在空间上相关的数据,如矿藏分布、污染浓度等。

总结

普通高斯分布是理解随机性的基石,它用均值和方差描述了一个变量的不确定性和离散度。

多元高斯分布 则是处理相关数据的强大工具,它通过均值向量协方差矩阵 ,不仅描述了每个变量自身的特性,更重要的是精确地捕捉了变量之间的线性相关关系。它将相关性作为分布的内在属性,使得我们能以一个统一、优雅的框架来理解和建模多维数据。

相关推荐
SAP上海工博云署几秒前
2026年中小企业SAP服务商选型技术解析
大数据·运维·数据库·人工智能·信息可视化·运维开发·信息与通信
涛声依旧-底层原理研究所几秒前
Node.js在高并发低延迟场景中的优势
java·人工智能·python·node.js
weixin_468466852 分钟前
图像分类技术落地应用与实战指南
人工智能·深度学习·ai·分类·数据挖掘·图像分类·模型部署
MediaTea3 分钟前
人工智能通识课:深度学习
人工智能·深度学习
长风2303 分钟前
Day10:直面深水区——总结系统痛点与底层架构重塑
人工智能·安全
2601_949936964 分钟前
2026电商运营个人能力提升计划进阶指南
大数据·人工智能
Surpass-HC6 分钟前
添加CLAUDE.md规则
人工智能
scx_link9 分钟前
两个独立事件的联合概率
概率论
Slow菜鸟9 分钟前
AI 代码知识图谱 教程(一)| Codegraph(纯代码)
人工智能·知识图谱
薛定猫AI9 分钟前
【深度解析】Claude Opus 4.8:高推理强度、Agentic Coding 与长任务工作流实战
人工智能