【人工智能数学基础】多元高斯分布

文章目录

一、什么是多元高斯分布?

1.1 核心定义:

多元高斯分布(Multivariate Gaussian Distribution)是一元高斯分布在多维空间的自然推广 。它描述的不是一个单一的随机变量,而是一组随机变量(一个随机向量)的联合分布,并且这组变量的任何线性组合都服从一元高斯分布。

1.2 简单来说:

  • 普通高斯分布:描述一个随机变量(如身高)的分布。
  • 多元高斯分布:同时描述多个相关联的随机变量(如身高、体重、年龄)的分布,并完整地刻画了这些变量之间的相关性。

二、与普通高斯分布的关键不同(对比总结)

方面 普通高斯分布(一元) 多元高斯分布
描述对象 一个随机变量(标量) 多个随机变量组成的向量
参数 2个:均值(μ)和方差(σ²) 两个集合 :均值向量(μ )和协方差矩阵(Σ)
均值 一个数值 μ,表示分布的中心位置 一个向量 μ,表示在多维空间中分布的中心点
方差/协方差 一个数值 σ²,表示一维上的离散度 一个矩阵 Σ ,对角线是每个变量的方差 ,非对角线是变量间的协方差
分布形状 钟形曲线(一维) 钟形曲面 (二维)、超椭球体(高维)
核心描述能力 数据的离散程度 数据的离散程度变量间的相关性

三、深入解析多元高斯分布

3.1 概率密度函数

一元高斯分布 PDF:
f ( x ) = 1 σ 2 π exp ⁡ ( − 1 2 ( x − μ σ ) 2 ) f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right) f(x)=σ2π 1exp(−21(σx−μ)2)
多元高斯分布 PDF (对于 k 维随机向量 X):
f ( x ) = 1 ( 2 π ) k / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) f(\mathbf{x}) = \frac{1}{(2\pi)^{k/2} |\mathbf{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu})\right) f(x)=(2π)k/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))

公式解读:

  • x \mathbf{x} x:是一个 k 维向量,表示一个多变量数据点,例如 x = [ x 身高 , x 体重 ] T \mathbf{x} = [x_{\text{身高}}, x_{\text{体重}}]^T x=[x身高,x体重]T。
  • μ \mathbf{\mu} μ:是一个 k 维的均值向量 。 μ = [ μ 1 , μ 2 , . . . , μ k ] T \mathbf{\mu} = [\mu_1, \mu_2, ..., \mu_k]^T μ=[μ1,μ2,...,μk]T。它的每个元素是对应变量的均值。
  • Σ \mathbf{\Sigma} Σ:是一个 k×k 的协方差矩阵。这是整个分布的核心。
  • ∣ Σ ∣ |\mathbf{\Sigma}| ∣Σ∣:是协方差矩阵的行列式,衡量了分布的整体"体积"或分散程度。
  • Σ − 1 \mathbf{\Sigma}^{-1} Σ−1:是协方差矩阵的逆矩阵。
  • ( x − μ ) T Σ − 1 ( x − μ ) (\mathbf{x} - \mathbf{\mu})^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \mathbf{\mu}) (x−μ)TΣ−1(x−μ):这个二次型项被称为马哈拉诺比斯距离 ,是衡量点 x \mathbf{x} x 到中心 μ \mathbf{\mu} μ 的"相关距离",它考虑了变量间的相关性,比欧氏距离更合理。

3.2 核心参数:均值向量和协方差矩阵

假设我们有一个二维随机向量 X = [ X 1 , X 2 ] T \mathbf{X} = [X_1, X_2]^T X=[X1,X2]T,例如 X 1 X_1 X1是身高, X 2 X_2 X2 是体重。

  • 均值向量 μ \mathbf{\mu} μ
    μ = [ μ 1 μ 2 ] = [ E [ X 1 ] E [ X 2 ] ] \mathbf{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix} = \begin{bmatrix} E[X_1] \\ E[X_2] \end{bmatrix} μ=[μ1μ2]=[E[X1]E[X2]]
    它定义了二维空间中的一个点,是这个钟形曲面的峰值所在。
  • 协方差矩阵 ( \mathbf{\Sigma} )
    Σ = [ Var ( X 1 ) Cov ( X 1 , X 2 ) Cov ( X 2 , X 1 ) Var ( X 2 ) ] = [ σ 1 2 ρ σ 1 σ 2 ρ σ 1 σ 2 σ 2 2 ] \mathbf{\Sigma} = \begin{bmatrix} \text{Var}(X_1) & \text{Cov}(X_1, X_2) \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) \end{bmatrix} = \begin{bmatrix} \sigma_1^2 & \rho\sigma_1\sigma_2 \\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{bmatrix} Σ=[Var(X1)Cov(X2,X1)Cov(X1,X2)Var(X2)]=[σ12ρσ1σ2ρσ1σ2σ22]
    这里:
    • σ 1 2 , σ 2 2 \sigma_1^2, \sigma_2^2 σ12,σ22(对角线):分别是身高和体重的方差,决定了各自轴向上的"胖瘦"。
    • ρ σ 1 σ 2 \rho\sigma_1\sigma_2 ρσ1σ2(非对角线):是身高和体重的协方差 ,决定了分布的形状和方向。 ρ \rho ρ 是相关系数。

四、可视化理解:协方差矩阵如何影响形状

我们以二维为例,假设均值向量为零向量 μ = [ 0 , 0 ] T \mathbf{\mu} = [0, 0]^T μ=[0,0]T,来看不同协方差矩阵下的分布形态:

  1. Σ = [ 1 0 0 1 ] \mathbf{\Sigma} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} Σ=[1001]
    • 解读:方差都为1,协方差为0。
    • 形状:一个标准的圆形钟形曲面。两个变量不相关,且离散程度相同。
  2. Σ = [ 3 0 0 1 ] \mathbf{\Sigma} = \begin{bmatrix} 3 & 0 \\ 0 & 1 \end{bmatrix} Σ=[3001]
    • 解读:X1的方差(3)大于X2的方差(1),协方差为0。
    • 形状:一个椭圆形钟形曲面,在X1轴方向上更"扁",在X2轴方向上更"瘦"。变量不相关。
  3. Σ = [ 2 1.5 1.5 2 ] \mathbf{\Sigma} = \begin{bmatrix} 2 & 1.5 \\ 1.5 & 2 \end{bmatrix} Σ=[21.51.52]
    • 解读:方差相同(2),协方差为正(1.5)。
    • 形状:一个倾斜的椭圆形曲面,沿"左上-右下"方向拉伸。表示当X1增加时,X2也倾向于增加(正相关)。
  4. Σ = [ 2 − 1.5 − 1.5 2 ] \mathbf{\Sigma} = \begin{bmatrix} 2 & -1.5 \\ -1.5 & 2 \end{bmatrix} Σ=[2−1.5−1.52]
    • 解读:方差相同(2),协方差为负(-1.5)。
    • 形状:一个倾斜的椭圆形曲面,但沿"右上-左下"方向拉伸。表示当X1增加时,X2倾向于减少(负相关)。

五、多元高斯分布的重要性质与应用

5.1 重要性质

  • 边际分布:多元高斯分布的任意一个子集(例如,只看身高)的分布本身也是一个高斯分布。
  • 条件分布:在给定其他变量值的情况下(例如,已知体重=70kg),某个变量(如身高)的分布也是一个高斯分布。
  • 线性变换:多元高斯随机向量经过线性变换后,仍然是一个多元高斯分布。

5.2 主要应用

  • 多元统计分析:如主成分分析(PCA)、线性判别分析(LDA)等算法都基于多元高斯分布的假设。
  • 机器学习
    • 高斯混合模型:用于复杂的聚类任务。
    • 异常检测:如果一个数据点在多元高斯分布下的概率极低,则可被判定为异常点。
    • 生成模型:可以从学到的多元高斯分布中生成新的、类似的数据样本。
  • 金融工程:用于对多种资产收益率的联合分布进行建模,从而进行资产配置和风险管理。
  • 地理统计:用于模拟在空间上相关的数据,如矿藏分布、污染浓度等。

总结

普通高斯分布是理解随机性的基石,它用均值和方差描述了一个变量的不确定性和离散度。

多元高斯分布 则是处理相关数据的强大工具,它通过均值向量协方差矩阵 ,不仅描述了每个变量自身的特性,更重要的是精确地捕捉了变量之间的线性相关关系。它将相关性作为分布的内在属性,使得我们能以一个统一、优雅的框架来理解和建模多维数据。

相关推荐
Ro Jace7 小时前
机器学习、深度学习、信号处理领域常用符号速查表
深度学习·机器学习·信号处理
渔舟渡简7 小时前
机器学习-回归分析概述
人工智能·机器学习
王哈哈^_^7 小时前
【数据集】【YOLO】目标检测游泳数据集 4481 张,溺水数据集,YOLO河道、海滩游泳识别算法实战训练教程。
人工智能·算法·yolo·目标检测·计算机视觉·分类·视觉检测
桂花饼7 小时前
Sora 2:从视频生成到世界模拟,OpenAI的“终极游戏”
人工智能·aigc·openai·sora 2
wwlsm_zql8 小时前
荣耀YOYO智能体:自动执行与任务规划,开启智能生活新篇章
人工智能·生活
科学计算技术爱好者8 小时前
未来已来:AI 如何在 3 年内重塑工作、教育与生活
人工智能·ai
这张生成的图像能检测吗8 小时前
(论文速读)EgoLife:走向自我中心的生活助手
人工智能·计算机视觉·生活·视觉语言模型
Godspeed Zhao8 小时前
自动驾驶中的传感器技术24.2——Camera(17)
人工智能·机器学习·自动驾驶
pen-ai9 小时前
【数据工程】19. 从 DataOps 到可扩展机器学习:让数据与模型协同进化
人工智能·机器学习