【人工智能数学基础】多元高斯分布

文章目录

一、什么是多元高斯分布?

1.1 核心定义:

多元高斯分布(Multivariate Gaussian Distribution)是一元高斯分布在多维空间的自然推广 。它描述的不是一个单一的随机变量,而是一组随机变量(一个随机向量)的联合分布,并且这组变量的任何线性组合都服从一元高斯分布。

1.2 简单来说:

  • 普通高斯分布:描述一个随机变量(如身高)的分布。
  • 多元高斯分布:同时描述多个相关联的随机变量(如身高、体重、年龄)的分布,并完整地刻画了这些变量之间的相关性。

二、与普通高斯分布的关键不同(对比总结)

方面 普通高斯分布(一元) 多元高斯分布
描述对象 一个随机变量(标量) 多个随机变量组成的向量
参数 2个:均值(μ)和方差(σ²) 两个集合 :均值向量(μ )和协方差矩阵(Σ)
均值 一个数值 μ,表示分布的中心位置 一个向量 μ,表示在多维空间中分布的中心点
方差/协方差 一个数值 σ²,表示一维上的离散度 一个矩阵 Σ ,对角线是每个变量的方差 ,非对角线是变量间的协方差
分布形状 钟形曲线(一维) 钟形曲面 (二维)、超椭球体(高维)
核心描述能力 数据的离散程度 数据的离散程度变量间的相关性

三、深入解析多元高斯分布

3.1 概率密度函数

一元高斯分布 PDF:
f ( x ) = 1 σ 2 π exp ⁡ ( − 1 2 ( x − μ σ ) 2 ) f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right) f(x)=σ2π 1exp(−21(σx−μ)2)
多元高斯分布 PDF (对于 k 维随机向量 X):
f ( x ) = 1 ( 2 π ) k / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) f(\mathbf{x}) = \frac{1}{(2\pi)^{k/2} |\mathbf{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu})\right) f(x)=(2π)k/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))

公式解读:

  • x \mathbf{x} x:是一个 k 维向量,表示一个多变量数据点,例如 x = [ x 身高 , x 体重 ] T \mathbf{x} = [x_{\text{身高}}, x_{\text{体重}}]^T x=[x身高,x体重]T。
  • μ \mathbf{\mu} μ:是一个 k 维的均值向量 。 μ = [ μ 1 , μ 2 , . . . , μ k ] T \mathbf{\mu} = [\mu_1, \mu_2, ..., \mu_k]^T μ=[μ1,μ2,...,μk]T。它的每个元素是对应变量的均值。
  • Σ \mathbf{\Sigma} Σ:是一个 k×k 的协方差矩阵。这是整个分布的核心。
  • ∣ Σ ∣ |\mathbf{\Sigma}| ∣Σ∣:是协方差矩阵的行列式,衡量了分布的整体"体积"或分散程度。
  • Σ − 1 \mathbf{\Sigma}^{-1} Σ−1:是协方差矩阵的逆矩阵。
  • ( x − μ ) T Σ − 1 ( x − μ ) (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu}) (x−μ)TΣ−1(x−μ):这个二次型项被称为马哈拉诺比斯距离 ,是衡量点 x \mathbf{x} x 到中心 μ \mathbf{\mu} μ 的"相关距离",它考虑了变量间的相关性,比欧氏距离更合理。

3.2 核心参数:均值向量和协方差矩阵

假设我们有一个二维随机向量 X = [ X 1 , X 2 ] T \mathbf{X} = [X_1, X_2]^T X=[X1,X2]T,例如 X 1 X_1 X1是身高, X 2 X_2 X2 是体重。

  • 均值向量 μ \mathbf{\mu} μ
    μ = [ μ 1 μ 2 ] = [ E [ X 1 ] E [ X 2 ] ] \mathbf{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix} = \begin{bmatrix} E[X_1] \\ E[X_2] \end{bmatrix} μ=[μ1μ2]=[E[X1]E[X2]]
    它定义了二维空间中的一个点,是这个钟形曲面的峰值所在。
  • 协方差矩阵 ( \mathbf{\Sigma} )
    Σ = [ Var ( X 1 ) Cov ( X 1 , X 2 ) Cov ( X 2 , X 1 ) Var ( X 2 ) ] = [ σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 ] \mathbf{\Sigma} = \begin{bmatrix} \text{Var}(X_1) & \text{Cov}(X_1, X_2) \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) \end{bmatrix} = \begin{bmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{bmatrix} Σ=[Var(X1)Cov(X2,X1)Cov(X1,X2)Var(X2)]=[σ12ρσ1σ2ρσ1σ2σ22]
    这里:
    • σ 1 2 , σ 2 2 \sigma_1^2, \sigma_2^2 σ12,σ22(对角线):分别是身高和体重的方差,决定了各自轴向上的"胖瘦"。
    • ρ σ 1 σ 2 \rho\sigma_1\sigma_2 ρσ1σ2(非对角线):是身高和体重的协方差 ,决定了分布的形状和方向。 ρ \rho ρ 是相关系数。

四、可视化理解:协方差矩阵如何影响形状

我们以二维为例,假设均值向量为零向量 μ = [ 0 , 0 ] T \mathbf{\mu} = [0, 0]^T μ=[0,0]T,来看不同协方差矩阵下的分布形态:

  1. Σ = [ 1 0 0 1 ] \mathbf{\Sigma} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} Σ=[1001]
    • 解读:方差都为1,协方差为0。
    • 形状:一个标准的圆形钟形曲面。两个变量不相关,且离散程度相同。
  2. Σ = [ 3 0 0 1 ] \mathbf{\Sigma} = \begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix} Σ=[3001]
    • 解读:X1的方差(3)大于X2的方差(1),协方差为0。
    • 形状:一个椭圆形钟形曲面,在X1轴方向上更"扁",在X2轴方向上更"瘦"。变量不相关。
  3. Σ = [ 2 1.5 1.5 2 ] \mathbf{\Sigma} = \begin{bmatrix} 2 & 1.5 \\ 1.5 & 2 \end{bmatrix} Σ=[21.51.52]
    • 解读:方差相同(2),协方差为正(1.5)。
    • 形状:一个倾斜的椭圆形曲面,沿"左上-右下"方向拉伸。表示当X1增加时,X2也倾向于增加(正相关)。
  4. Σ = [ 2 − 1.5 − 1.5 2 ] \mathbf{\Sigma} = \begin{bmatrix} 2 & -1.5 \\ -1.5 & 2 \end{bmatrix} Σ=[2−1.5−1.52]
    • 解读:方差相同(2),协方差为负(-1.5)。
    • 形状:一个倾斜的椭圆形曲面,但沿"右上-左下"方向拉伸。表示当X1增加时,X2倾向于减少(负相关)。

五、多元高斯分布的重要性质与应用

5.1 重要性质

  • 边际分布:多元高斯分布的任意一个子集(例如,只看身高)的分布本身也是一个高斯分布。
  • 条件分布:在给定其他变量值的情况下(例如,已知体重=70kg),某个变量(如身高)的分布也是一个高斯分布。
  • 线性变换:多元高斯随机向量经过线性变换后,仍然是一个多元高斯分布。

5.2 主要应用

  • 多元统计分析:如主成分分析(PCA)、线性判别分析(LDA)等算法都基于多元高斯分布的假设。
  • 机器学习
    • 高斯混合模型:用于复杂的聚类任务。
    • 异常检测:如果一个数据点在多元高斯分布下的概率极低,则可被判定为异常点。
    • 生成模型:可以从学到的多元高斯分布中生成新的、类似的数据样本。
  • 金融工程:用于对多种资产收益率的联合分布进行建模,从而进行资产配置和风险管理。
  • 地理统计:用于模拟在空间上相关的数据,如矿藏分布、污染浓度等。

总结

普通高斯分布是理解随机性的基石,它用均值和方差描述了一个变量的不确定性和离散度。

多元高斯分布 则是处理相关数据的强大工具,它通过均值向量协方差矩阵 ,不仅描述了每个变量自身的特性,更重要的是精确地捕捉了变量之间的线性相关关系。它将相关性作为分布的内在属性,使得我们能以一个统一、优雅的框架来理解和建模多维数据。

相关推荐
Mintopia30 分钟前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮1 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬1 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia2 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区2 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两5 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪5 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232555 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源
王鑫星5 小时前
SWE-bench 首次突破 80%:Claude Opus 4.5 发布,Anthropic 的野心不止于写代码
人工智能