机器学习概率论与统计学--(7)概率论:多维随机变量

现实中的随机现象往往涉及多个变量,例如身高与体重、温度与湿度、考试成绩与学习时间。多维随机变量就是用来同时描述这些变量的数学工具。本讲将系统介绍多维随机变量的核心概念:联合分布边缘分布条件分布 ,以及刻画变量之间关系的协方差相关系数协方差矩阵


1. 多维随机变量概述

设 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn 是定义在同一个样本空间上的随机变量,称向量 X = ( X 1 , X 2 , ... , X n ) \mathbf{X} = (X_1, X_2, \dots, X_n) X=(X1,X2,...,Xn) 为 n n n 维随机变量(或随机向量)。我们主要关注二维情形,因为高维可以类推。

对于二维随机变量 ( X , Y ) (X,Y) (X,Y),我们关心它们的联合行为、各自的分布以及给定一个变量时另一个变量的分布。


2. 联合分布、边缘分布与条件分布

2.1 离散情形

2.1.1 联合概率质量函数(联合 PMF)

设 ( X , Y ) (X,Y) (X,Y) 为二维离散随机变量,可能取值为 ( x i , y j ) (x_i, y_j) (xi,yj),则联合PMF 定义为:
p ( x , y ) = P ( X = x , Y = y ) p(x,y) = P(X = x, Y = y) p(x,y)=P(X=x,Y=y)

满足 p ( x , y ) ≥ 0 p(x,y) \ge 0 p(x,y)≥0,且 ∑ x ∑ y p ( x , y ) = 1 \sum_{x}\sum_{y} p(x,y) = 1 ∑x∑yp(x,y)=1。

2.1.2 边缘概率质量函数

边缘分布是忽略另一变量后单个变量的分布:
p X ( x ) = P ( X = x ) = ∑ y p ( x , y ) , p Y ( y ) = P ( Y = y ) = ∑ x p ( x , y ) p_X(x) = P(X = x) = \sum_{y} p(x,y), \quad p_Y(y) = P(Y = y) = \sum_{x} p(x,y) pX(x)=P(X=x)=y∑p(x,y),pY(y)=P(Y=y)=x∑p(x,y)

2.1.3 条件概率质量函数

给定 Y = y Y = y Y=y 时, X X X 的条件分布为:
p X ∣ Y ( x ∣ y ) = p ( x , y ) p Y ( y ) , 当 p Y ( y ) > 0 p_{X|Y}(x|y) = \frac{p(x,y)}{p_Y(y)}, \quad \text{当 } p_Y(y) > 0 pX∣Y(x∣y)=pY(y)p(x,y),当 pY(y)>0

同理, p Y ∣ X ( y ∣ x ) = p ( x , y ) p X ( x ) p_{Y|X}(y|x) = \frac{p(x,y)}{p_X(x)} pY∣X(y∣x)=pX(x)p(x,y)。

例1(掷两颗骰子) :掷两颗公平骰子,设 X X X 为第一颗点数, Y Y Y 为第二颗点数。联合 PMF 为 p ( x , y ) = 1 36 p(x,y) = \frac{1}{36} p(x,y)=361, x , y = 1 , ... , 6 x,y=1,\dots,6 x,y=1,...,6。

  • 边缘分布: p X ( x ) = ∑ y = 1 6 1 36 = 1 6 p_X(x) = \sum_{y=1}^6 \frac{1}{36} = \frac{1}{6} pX(x)=∑y=16361=61,均匀分布。
  • 条件分布:给定 Y = 3 Y=3 Y=3, p X ∣ Y ( x ∣ 3 ) = 1 / 36 1 / 6 = 1 6 p_{X|Y}(x|3) = \frac{1/36}{1/6} = \frac{1}{6} pX∣Y(x∣3)=1/61/36=61,仍然是均匀分布,说明独立。

例2(抽牌) :从一副标准扑克牌中抽两张(不放回)。设 X = 1 X=1 X=1 表示第一张是红心,否则 0; Y = 1 Y=1 Y=1 表示第二张是红心,否则 0。我们可以计算联合 PMF:

  • p ( 1 , 1 ) = 13 52 ⋅ 12 51 = 156 2652 p(1,1) = \frac{13}{52} \cdot \frac{12}{51} = \frac{156}{2652} p(1,1)=5213⋅5112=2652156
  • p ( 1 , 0 ) = 13 52 ⋅ 39 51 = 507 2652 p(1,0) = \frac{13}{52} \cdot \frac{39}{51} = \frac{507}{2652} p(1,0)=5213⋅5139=2652507
  • p ( 0 , 1 ) = 39 52 ⋅ 13 51 = 507 2652 p(0,1) = \frac{39}{52} \cdot \frac{13}{51} = \frac{507}{2652} p(0,1)=5239⋅5113=2652507
  • p ( 0 , 0 ) = 39 52 ⋅ 38 51 = 1482 2652 p(0,0) = \frac{39}{52} \cdot \frac{38}{51} = \frac{1482}{2652} p(0,0)=5239⋅5138=26521482

边缘分布: p X ( 1 ) = p ( 1 , 1 ) + p ( 1 , 0 ) = 156 + 507 2652 = 663 2652 = 1 4 p_X(1) = p(1,1)+p(1,0) = \frac{156+507}{2652} = \frac{663}{2652} = \frac{1}{4} pX(1)=p(1,1)+p(1,0)=2652156+507=2652663=41,同样 p Y ( 1 ) = 1 4 p_Y(1) = \frac{1}{4} pY(1)=41。

条件分布:给定第一张是红心( X = 1 X=1 X=1),第二张是红心的概率 p Y ∣ X ( 1 ∣ 1 ) = p ( 1 , 1 ) p X ( 1 ) = 156 / 2652 1 / 4 = 156 663 = 12 51 ≈ 0.2353 p_{Y|X}(1|1) = \frac{p(1,1)}{p_X(1)} = \frac{156/2652}{1/4} = \frac{156}{663} = \frac{12}{51} \approx 0.2353 pY∣X(1∣1)=pX(1)p(1,1)=1/4156/2652=663156=5112≈0.2353,这与边缘概率 1 / 4 = 0.25 1/4=0.25 1/4=0.25 不同,说明不独立。


2.2 连续情形

2.2.1 联合概率密度函数(联合 PDF)

对于二维连续随机变量 ( X , Y ) (X,Y) (X,Y),若存在非负函数 f ( x , y ) f(x,y) f(x,y) 使得对任意平面区域 A A A,
P ( ( X , Y ) ∈ A ) = ∬ A f ( x , y )   d x   d y P((X,Y) \in A) = \iint_A f(x,y) \, dx\,dy P((X,Y)∈A)=∬Af(x,y)dxdy

则称 f ( x , y ) f(x,y) f(x,y) 为联合PDF 。它满足:
f ( x , y ) ≥ 0 , ∬ R 2 f ( x , y )   d x   d y = 1 f(x,y) \ge 0, \quad \iint_{\mathbb{R}^2} f(x,y) \, dx\,dy = 1 f(x,y)≥0,∬R2f(x,y)dxdy=1

2.2.2 边缘概率密度函数

边缘 PDF 通过对联合 PDF 积分得到:
f X ( x ) = ∫ − ∞ ∞ f ( x , y )   d y , f Y ( y ) = ∫ − ∞ ∞ f ( x , y )   d x f_X(x) = \int_{-\infty}^{\infty} f(x,y) \, dy, \quad f_Y(y) = \int_{-\infty}^{\infty} f(x,y) \, dx fX(x)=∫−∞∞f(x,y)dy,fY(y)=∫−∞∞f(x,y)dx

2.2.3 条件概率密度函数

给定 Y = y Y = y Y=y 时, X X X 的条件 PDF 为:
f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) , 当 f Y ( y ) > 0 f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}, \quad \text{当 } f_Y(y) > 0 fX∣Y(x∣y)=fY(y)f(x,y),当 fY(y)>0

注意:在连续情形中, P ( Y = y ) = 0 P(Y=y)=0 P(Y=y)=0,但条件 PDF 仍可通过极限定义,并用于计算条件概率。

例3(二元均匀分布) :设 ( X , Y ) (X,Y) (X,Y) 在单位圆盘 x 2 + y 2 ≤ 1 x^2+y^2 \le 1 x2+y2≤1 上均匀分布,则联合 PDF 为:
f ( x , y ) = 1 π , x 2 + y 2 ≤ 1 f(x,y) = \frac{1}{\pi}, \quad x^2+y^2 \le 1 f(x,y)=π1,x2+y2≤1

边缘 PDF: f X ( x ) = ∫ − 1 − x 2 1 − x 2 1 π   d y = 2 1 − x 2 π , − 1 ≤ x ≤ 1 f_X(x) = \int_{-\sqrt{1-x^2}}^{\sqrt{1-x^2}} \frac{1}{\pi} \, dy = \frac{2\sqrt{1-x^2}}{\pi}, \quad -1 \le x \le 1 fX(x)=∫−1−x2 1−x2 π1dy=π21−x2 ,−1≤x≤1。这不是均匀分布,而是半圆形分布。

条件 PDF:给定 X = x X=x X=x, Y Y Y 在区间 [ − 1 − x 2 , 1 − x 2 ] [-\sqrt{1-x^2}, \sqrt{1-x^2}] [−1−x2 ,1−x2 ] 上均匀分布: f Y ∣ X ( y ∣ x ) = 1 2 1 − x 2 f_{Y|X}(y|x) = \frac{1}{2\sqrt{1-x^2}} fY∣X(y∣x)=21−x2 1。

例4(二元正态分布) :这是最重要的二维连续分布。其联合 PDF 为:
f ( x , y ) = 1 2 π σ X σ Y 1 − ρ 2 exp ⁡ { − 1 2 ( 1 − ρ 2 ) [ ( x − μ X ) 2 σ X 2 − 2 ρ ( x − μ X ) ( y − μ Y ) σ X σ Y + ( y − μ Y ) 2 σ Y 2 ] } . f(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left\{ -\frac{1}{2(1-\rho^2)} \left[ \frac{(x-\mu_X)^2}{\sigma_X^2} - \frac{2\rho(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y} + \frac{(y-\mu_Y)^2}{\sigma_Y^2} \right] \right\}. f(x,y)=2πσXσY1−ρ2 1exp{−2(1−ρ2)1[σX2(x−μX)2−σXσY2ρ(x−μX)(y−μY)+σY2(y−μY)2]}.

其中 ρ \rho ρ 是相关系数(后述)。边缘分布: X ∼ N ( μ X , σ X 2 ) X \sim N(\mu_X, \sigma_X^2) X∼N(μX,σX2), Y ∼ N ( μ Y , σ Y 2 ) Y \sim N(\mu_Y, \sigma_Y^2) Y∼N(μY,σY2)。条件分布: X ∣ Y = y X|Y=y X∣Y=y 也是正态分布,均值为 μ X + ρ σ X σ Y ( y − μ Y ) \mu_X + \rho\frac{\sigma_X}{\sigma_Y}(y-\mu_Y) μX+ρσYσX(y−μY),方差为 σ X 2 ( 1 − ρ 2 ) \sigma_X^2(1-\rho^2) σX2(1−ρ2)。


3. 协方差与相关系数

3.1 协方差的定义与推导

协方差衡量两个随机变量之间的线性相关程度 。设 X , Y X, Y X,Y 的期望分别为 μ X , μ Y \mu_X, \mu_Y μX,μY,则协方差定义为:
Cov ⁡ ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] \operatorname{Cov}(X,Y) = E[(X - \mu_X)(Y - \mu_Y)] Cov(X,Y)=E[(X−μX)(Y−μY)]

展开得:
Cov ⁡ ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] \operatorname{Cov}(X,Y) = E[XY] - E[X]E[Y] Cov(X,Y)=E[XY]−E[X]E[Y]

性质(可由定义直接推导):

  1. Cov ⁡ ( X , X ) = Var ⁡ ( X ) \operatorname{Cov}(X,X) = \operatorname{Var}(X) Cov(X,X)=Var(X)。
  2. 对称性: Cov ⁡ ( X , Y ) = Cov ⁡ ( Y , X ) \operatorname{Cov}(X,Y) = \operatorname{Cov}(Y,X) Cov(X,Y)=Cov(Y,X)。
  3. 线性性: Cov ⁡ ( a X + b , c Y + d ) = a c Cov ⁡ ( X , Y ) \operatorname{Cov}(aX+b, cY+d) = ac \operatorname{Cov}(X,Y) Cov(aX+b,cY+d)=acCov(X,Y)。
  4. 若 X X X 与 Y Y Y 独立,则 Cov ⁡ ( X , Y ) = 0 \operatorname{Cov}(X,Y)=0 Cov(X,Y)=0。但逆命题不成立:协方差为零只说明不存在线性关系,仍可能存在非线性关系。
  5. 方差和公式: Var ⁡ ( X + Y ) = Var ⁡ ( X ) + Var ⁡ ( Y ) + 2 Cov ⁡ ( X , Y ) \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X,Y) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)。

3.2 相关系数的定义与性质

相关系数将协方差标准化,使其取值在 [ − 1 , 1 ] [-1, 1] [−1,1] 之间:
ρ X , Y = Cov ⁡ ( X , Y ) σ X σ Y . \rho_{X,Y} = \frac{\operatorname{Cov}(X,Y)}{\sigma_X \sigma_Y}. ρX,Y=σXσYCov(X,Y).

性质

  • − 1 ≤ ρ ≤ 1 -1 \le \rho \le 1 −1≤ρ≤1。
  • ∣ ρ ∣ = 1 |\rho| = 1 ∣ρ∣=1 当且仅当 Y = a X + b Y = aX + b Y=aX+b 几乎必然成立(完全线性相关),且 ρ = 1 \rho=1 ρ=1 表示正相关, ρ = − 1 \rho=-1 ρ=−1 表示负相关。
  • ρ = 0 \rho = 0 ρ=0 表示不存在线性相关,但可能非线性相关。
  • ρ \rho ρ 无量纲,不受线性变换影响(除了符号)。

3.3 衡量线性关系的意义

协方差和相关系数只能捕捉线性 关系。例如,若 Y = X 2 Y = X^2 Y=X2 且 X X X 对称分布,则 Cov ⁡ ( X , Y ) = 0 \operatorname{Cov}(X,Y)=0 Cov(X,Y)=0,但两者显然存在强非线性关系。因此,使用时需结合散点图等可视化手段。

例5(线性相关) :设 X ∼ N ( 0 , 1 ) X \sim N(0,1) X∼N(0,1), Y = 2 X + ε Y = 2X + \varepsilon Y=2X+ε,其中 ε ∼ N ( 0 , 1 ) \varepsilon \sim N(0,1) ε∼N(0,1) 独立于 X X X。则:
Cov ⁡ ( X , Y ) = Cov ⁡ ( X , 2 X ) + Cov ⁡ ( X , ε ) = 2 ⋅ 1 + 0 = 2. \operatorname{Cov}(X,Y) = \operatorname{Cov}(X,2X) + \operatorname{Cov}(X,\varepsilon) = 2 \cdot 1 + 0 = 2. Cov(X,Y)=Cov(X,2X)+Cov(X,ε)=2⋅1+0=2.
σ X = 1 \sigma_X = 1 σX=1, σ Y = 4 + 1 = 5 \sigma_Y = \sqrt{4+1} = \sqrt{5} σY=4+1 =5 ,所以 ρ = 2 / 5 ≈ 0.894 \rho = 2/\sqrt{5} \approx 0.894 ρ=2/5 ≈0.894,强正相关。

例6(零相关但非线性) :设 X ∼ U ( − 1 , 1 ) X \sim U(-1,1) X∼U(−1,1), Y = X 2 Y = X^2 Y=X2。则:
E [ X ] = 0 , E [ Y ] = E [ X 2 ] = 1 3 , E [ X Y ] = E [ X 3 ] = 0 , E[X]=0,\quad E[Y]=E[X^2]=\frac{1}{3},\quad E[XY]=E[X^3]=0, E[X]=0,E[Y]=E[X2]=31,E[XY]=E[X3]=0,

故 Cov ⁡ ( X , Y ) = 0 − 0 ⋅ 1 3 = 0 \operatorname{Cov}(X,Y)=0-0\cdot\frac{1}{3}=0 Cov(X,Y)=0−0⋅31=0,但显然 Y Y Y 与 X X X 有抛物线关系。


4. 协方差矩阵

4.1 定义

对于 n n n 维随机向量 X = ( X 1 , X 2 , ... , X n ) T \mathbf{X} = (X_1, X_2, \dots, X_n)^T X=(X1,X2,...,Xn)T,其协方差矩阵是一个 n × n n \times n n×n 对称矩阵,记为 Σ \Sigma Σ,其元素为:
Σ i j = Cov ⁡ ( X i , X j ) , i , j = 1 , ... , n . \Sigma_{ij} = \operatorname{Cov}(X_i, X_j), \quad i,j=1,\dots,n. Σij=Cov(Xi,Xj),i,j=1,...,n.

即对角线是各分量的方差,非对角线是协方差。

4.2 矩阵形式

设 μ = E [ X ] \boldsymbol{\mu} = E[\mathbf{X}] μ=E[X],则协方差矩阵可表示为:
Σ = E [ ( X − μ ) ( X − μ ) T ] . \Sigma = E[(\mathbf{X} - \boldsymbol{\mu})(\mathbf{X} - \boldsymbol{\mu})^T]. Σ=E[(X−μ)(X−μ)T].

4.3 性质

  1. 对称性与半正定性 : Σ \Sigma Σ 是实对称矩阵,且对任意非零向量 a \mathbf{a} a,有 a T Σ a = Var ⁡ ( a T X ) ≥ 0 \mathbf{a}^T \Sigma \mathbf{a} = \operatorname{Var}(\mathbf{a}^T \mathbf{X}) \ge 0 aTΣa=Var(aTX)≥0,故 Σ \Sigma Σ 半正定。
  2. 线性变换 :设 Y = A X + b \mathbf{Y} = A\mathbf{X} + \mathbf{b} Y=AX+b,其中 A A A 是 m × n m \times n m×n 常数矩阵,则 Cov ⁡ ( Y ) = A Σ A T \operatorname{Cov}(\mathbf{Y}) = A \Sigma A^T Cov(Y)=AΣAT。
  3. 对角化 :由于半正定, Σ \Sigma Σ 可分解为 Σ = P D P T \Sigma = PDP^T Σ=PDPT,其中 P 正交, D D D 对角阵,对应于主成分分析(PCA)中的主成分方向。

4.4 应用举例

例7(多元正态分布) : n n n 维正态分布完全由均值向量 μ \boldsymbol{\mu} μ 和协方差矩阵 Σ \Sigma Σ 确定,记为 N ( μ , Σ ) N(\boldsymbol{\mu}, \Sigma) N(μ,Σ)。其联合 PDF 为:
f ( x ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) . f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right). f(x)=(2π)n/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ)).

协方差矩阵决定了分布的形状和相关性。

例8(金融资产组合) :设资产收益率向量 R \mathbf{R} R,协方差矩阵 Σ \Sigma Σ 反映资产之间的风险关联。投资组合权重 w \mathbf{w} w 的方差为 w T Σ w \mathbf{w}^T \Sigma \mathbf{w} wTΣw,这是现代投资组合理论的核心。

例9(主成分分析):在机器学习中,对数据协方差矩阵进行特征分解,得到的主成分方向是方差最大的方向,用于降维。


5. 总结

概念 定义 作用
联合分布 p ( x , y ) p(x,y) p(x,y) 或 f ( x , y ) f(x,y) f(x,y) 描述两变量同时取值规律
边缘分布 p X ( x ) = ∑ y p ( x , y ) p_X(x)=\sum_y p(x,y) pX(x)=∑yp(x,y) 或 f X ( x ) = ∫ f ( x , y ) d y f_X(x)=\int f(x,y)dy fX(x)=∫f(x,y)dy 忽略另一变量的单个分布
条件分布 $p_{X Y}(x
协方差 Cov ⁡ ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] \operatorname{Cov}(X,Y)=E[XY]-E[X]E[Y] Cov(X,Y)=E[XY]−E[X]E[Y] 衡量线性相关方向和强度(有量纲)
相关系数 ρ = Cov ⁡ ( X , Y ) σ X σ Y \rho=\frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y} ρ=σXσYCov(X,Y) 标准化线性相关度,范围[-1,1]
协方差矩阵 Σ i j = Cov ⁡ ( X i , X j ) \Sigma_{ij}=\operatorname{Cov}(X_i,X_j) Σij=Cov(Xi,Xj) 多维变量全部方差-协方差信息

多维随机变量是统计学、机器学习、金融工程等领域的核心工具。掌握联合、边缘、条件分布能够让我们灵活处理复杂问题,而协方差与相关系数则是理解变量关系的基础。协方差矩阵更是在主成分分析、线性判别分析、多元回归等算法中扮演关键角色。

上一章 机器学习概率论与统计学--(6)概率论:连续分布

相关推荐
m0_564914922 小时前
极简大模型microGPT代码教学互动网页
人工智能·机器学习
编程小风筝2 小时前
机器学习的半监督学习可以实现什么功能?
人工智能·学习·机器学习
枫叶林FYL11 小时前
【自然语言处理 NLP】第二章 经典NLP算法与特征工程(Classical NLP Algorithms)
人工智能·深度学习·机器学习
WeeJot嵌入式13 小时前
Meta LSP无数据训练深度解析:语言自我对弈的数学原理与实现
人工智能·机器学习·里氏替换原则
枫叶林FYL14 小时前
【自然语言处理 NLP】数学与计算基础(Mathematical & Computational 完整源码实现
人工智能·深度学习·机器学习
放下华子我只抽RuiKe514 小时前
深度学习全景指南:硬核实战版
人工智能·深度学习·神经网络·算法·机器学习·自然语言处理·数据挖掘
zhojiew15 小时前
在RAG系统中对FAISS,HNSW,BM25向量检索引擎选型的问题
人工智能·机器学习·faiss
OpenBayes贝式计算15 小时前
教程上新|低门槛部署英伟达最新 Physical AI 模型,覆盖人形机器人/人体运动生成/扩散模型微调等
人工智能·深度学习·机器学习