机器学习概率论与统计学--(7)概率论：多维随机变量

现实中的随机现象往往涉及多个变量，例如身高与体重、温度与湿度、考试成绩与学习时间。多维随机变量就是用来同时描述这些变量的数学工具。本讲将系统介绍多维随机变量的核心概念：联合分布 、边缘分布 、条件分布 ，以及刻画变量之间关系的协方差 、相关系数 和协方差矩阵。

1. 多维随机变量概述

设 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn 是定义在同一个样本空间上的随机变量，称向量 X = ( X 1 , X 2 , ... , X n ) \mathbf{X} = (X_1, X_2, \dots, X_n) X=(X1,X2,...,Xn) 为 n n n 维随机变量（或随机向量）。我们主要关注二维情形，因为高维可以类推。

对于二维随机变量 ( X , Y ) (X,Y) (X,Y)，我们关心它们的联合行为、各自的分布以及给定一个变量时另一个变量的分布。

2. 联合分布、边缘分布与条件分布

2.1 离散情形

2.1.1 联合概率质量函数（联合 PMF）

设 ( X , Y ) (X,Y) (X,Y) 为二维离散随机变量，可能取值为 ( x i , y j ) (x_i, y_j) (xi,yj)，则联合PMF 定义为：
p ( x , y ) = P ( X = x , Y = y ) p(x,y) = P(X = x, Y = y) p(x,y)=P(X=x,Y=y)

满足 p ( x , y ) ≥ 0 p(x,y) \ge 0 p(x,y)≥0，且 ∑ x ∑ y p ( x , y ) = 1 \sum_{x}\sum_{y} p(x,y) = 1 ∑x∑yp(x,y)=1。

2.1.2 边缘概率质量函数

边缘分布是忽略另一变量后单个变量的分布：
p X ( x ) = P ( X = x ) = ∑ y p ( x , y ) , p Y ( y ) = P ( Y = y ) = ∑ x p ( x , y ) p_X(x) = P(X = x) = \sum_{y} p(x,y), \quad p_Y(y) = P(Y = y) = \sum_{x} p(x,y) pX(x)=P(X=x)=y∑p(x,y),pY(y)=P(Y=y)=x∑p(x,y)

2.1.3 条件概率质量函数

给定 Y = y Y = y Y=y 时， X X X 的条件分布为：
p X ∣ Y ( x ∣ y ) = p ( x , y ) p Y ( y ) , 当 p Y ( y ) > 0 p_{X|Y}(x|y) = \frac{p(x,y)}{p_Y(y)}, \quad \text{当 } p_Y(y) > 0 pX∣Y(x∣y)=pY(y)p(x,y),当 pY(y)>0

同理， p Y ∣ X ( y ∣ x ) = p ( x , y ) p X ( x ) p_{Y|X}(y|x) = \frac{p(x,y)}{p_X(x)} pY∣X(y∣x)=pX(x)p(x,y)。

例1（掷两颗骰子） ：掷两颗公平骰子，设 X X X 为第一颗点数， Y Y Y 为第二颗点数。联合 PMF 为 p ( x , y ) = 1 36 p(x,y) = \frac{1}{36} p(x,y)=361， x , y = 1 , ... , 6 x,y=1,\dots,6 x,y=1,...,6。

边缘分布： p X ( x ) = ∑ y = 1 6 1 36 = 1 6 p_X(x) = \sum_{y=1}^6 \frac{1}{36} = \frac{1}{6} pX(x)=∑y=16361=61，均匀分布。
条件分布：给定 Y = 3 Y=3 Y=3， p X ∣ Y ( x ∣ 3 ) = 1 / 36 1 / 6 = 1 6 p_{X|Y}(x|3) = \frac{1/36}{1/6} = \frac{1}{6} pX∣Y(x∣3)=1/61/36=61，仍然是均匀分布，说明独立。

例2（抽牌） ：从一副标准扑克牌中抽两张（不放回）。设 X = 1 X=1 X=1 表示第一张是红心，否则 0； Y = 1 Y=1 Y=1 表示第二张是红心，否则 0。我们可以计算联合 PMF：

p ( 1 , 1 ) = 13 52 ⋅ 12 51 = 156 2652 p(1,1) = \frac{13}{52} \cdot \frac{12}{51} = \frac{156}{2652} p(1,1)=5213⋅5112=2652156
p ( 1 , 0 ) = 13 52 ⋅ 39 51 = 507 2652 p(1,0) = \frac{13}{52} \cdot \frac{39}{51} = \frac{507}{2652} p(1,0)=5213⋅5139=2652507
p ( 0 , 1 ) = 39 52 ⋅ 13 51 = 507 2652 p(0,1) = \frac{39}{52} \cdot \frac{13}{51} = \frac{507}{2652} p(0,1)=5239⋅5113=2652507
p ( 0 , 0 ) = 39 52 ⋅ 38 51 = 1482 2652 p(0,0) = \frac{39}{52} \cdot \frac{38}{51} = \frac{1482}{2652} p(0,0)=5239⋅5138=26521482

边缘分布： p X ( 1 ) = p ( 1 , 1 ) + p ( 1 , 0 ) = 156 + 507 2652 = 663 2652 = 1 4 p_X(1) = p(1,1)+p(1,0) = \frac{156+507}{2652} = \frac{663}{2652} = \frac{1}{4} pX(1)=p(1,1)+p(1,0)=2652156+507=2652663=41，同样 p Y ( 1 ) = 1 4 p_Y(1) = \frac{1}{4} pY(1)=41。

条件分布：给定第一张是红心（ X = 1 X=1 X=1），第二张是红心的概率 p Y ∣ X ( 1 ∣ 1 ) = p ( 1 , 1 ) p X ( 1 ) = 156 / 2652 1 / 4 = 156 663 = 12 51 ≈ 0.2353 p_{Y|X}(1|1) = \frac{p(1,1)}{p_X(1)} = \frac{156/2652}{1/4} = \frac{156}{663} = \frac{12}{51} \approx 0.2353 pY∣X(1∣1)=pX(1)p(1,1)=1/4156/2652=663156=5112≈0.2353，这与边缘概率 1 / 4 = 0.25 1/4=0.25 1/4=0.25 不同，说明不独立。

2.2 连续情形

2.2.1 联合概率密度函数（联合 PDF）

对于二维连续随机变量 ( X , Y ) (X,Y) (X,Y)，若存在非负函数 f ( x , y ) f(x,y) f(x,y) 使得对任意平面区域 A A A，
P ( ( X , Y ) ∈ A ) = ∬ A f ( x , y ) d x d y P((X,Y) \in A) = \iint_A f(x,y) \, dx\,dy P((X,Y)∈A)=∬Af(x,y)dxdy

则称 f ( x , y ) f(x,y) f(x,y) 为联合PDF 。它满足：
f ( x , y ) ≥ 0 , ∬ R 2 f ( x , y ) d x d y = 1 f(x,y) \ge 0, \quad \iint_{\mathbb{R}^2} f(x,y) \, dx\,dy = 1 f(x,y)≥0,∬R2f(x,y)dxdy=1

2.2.2 边缘概率密度函数

边缘 PDF 通过对联合 PDF 积分得到：
f X ( x ) = ∫ − ∞ ∞ f ( x , y ) d y , f Y ( y ) = ∫ − ∞ ∞ f ( x , y ) d x f_X(x) = \int_{-\infty}^{\infty} f(x,y) \, dy, \quad f_Y(y) = \int_{-\infty}^{\infty} f(x,y) \, dx fX(x)=∫−∞∞f(x,y)dy,fY(y)=∫−∞∞f(x,y)dx

2.2.3 条件概率密度函数

给定 Y = y Y = y Y=y 时， X X X 的条件 PDF 为：
f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) , 当 f Y ( y ) > 0 f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}, \quad \text{当 } f_Y(y) > 0 fX∣Y(x∣y)=fY(y)f(x,y),当 fY(y)>0

注意：在连续情形中， P ( Y = y ) = 0 P(Y=y)=0 P(Y=y)=0，但条件 PDF 仍可通过极限定义，并用于计算条件概率。

例3（二元均匀分布） ：设 ( X , Y ) (X,Y) (X,Y) 在单位圆盘 x 2 + y 2 ≤ 1 x^2+y^2 \le 1 x2+y2≤1 上均匀分布，则联合 PDF 为：
f ( x , y ) = 1 π , x 2 + y 2 ≤ 1 f(x,y) = \frac{1}{\pi}, \quad x^2+y^2 \le 1 f(x,y)=π1,x2+y2≤1

边缘 PDF： f X ( x ) = ∫ − 1 − x 2 1 − x 2 1 π d y = 2 1 − x 2 π , − 1 ≤ x ≤ 1 f_X(x) = \int_{-\sqrt{1-x^2}}^{\sqrt{1-x^2}} \frac{1}{\pi} \, dy = \frac{2\sqrt{1-x^2}}{\pi}, \quad -1 \le x \le 1 fX(x)=∫−1−x2 1−x2 π1dy=π21−x2 ,−1≤x≤1。这不是均匀分布，而是半圆形分布。

条件 PDF：给定 X = x X=x X=x， Y Y Y 在区间 $- 1 - x 2 , 1 - x 2$ $-\\sqrt{1-x\^2}, \\sqrt{1-x\^2}$ $-1-x2 ,1-x2$ 上均匀分布： f Y ∣ X ( y ∣ x ) = 1 2 1 − x 2 f_{Y|X}(y|x) = \frac{1}{2\sqrt{1-x^2}} fY∣X(y∣x)=21−x2 1。

例4（二元正态分布） ：这是最重要的二维连续分布。其联合 PDF 为：
f ( x , y ) = 1 2 π σ X σ Y 1 − ρ 2 exp ⁡ { − 1 2 ( 1 − ρ 2 ) $( x - μ X ) 2 σ X 2 - 2 ρ ( x - μ X ) ( y - μ Y ) σ X σ Y + ( y - μ Y ) 2 σ Y 2$ } . f(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left\{ -\frac{1}{2(1-\rho^2)} \left $\\frac{(x-\\mu_X)\^2}{\\sigma_X\^2} - \\frac{2\\rho(x-\\mu_X)(y-\\mu_Y)}{\\sigma_X\\sigma_Y} + \\frac{(y-\\mu_Y)\^2}{\\sigma_Y\^2} \\right$ \right\}. f(x,y)=2πσXσY1−ρ2 1exp{−2(1−ρ2)1 $σX2(x-μX)2-σXσY2ρ(x-μX)(y-μY)+σY2(y-μY)2$ }.

其中 ρ \rho ρ 是相关系数（后述）。边缘分布： X ∼ N ( μ X , σ X 2 ) X \sim N(\mu_X, \sigma_X^2) X∼N(μX,σX2)， Y ∼ N ( μ Y , σ Y 2 ) Y \sim N(\mu_Y, \sigma_Y^2) Y∼N(μY,σY2)。条件分布： X ∣ Y = y X|Y=y X∣Y=y 也是正态分布，均值为 μ X + ρ σ X σ Y ( y − μ Y ) \mu_X + \rho\frac{\sigma_X}{\sigma_Y}(y-\mu_Y) μX+ρσYσX(y−μY)，方差为 σ X 2 ( 1 − ρ 2 ) \sigma_X^2(1-\rho^2) σX2(1−ρ2)。

3. 协方差与相关系数

3.1 协方差的定义与推导

协方差衡量两个随机变量之间的线性相关程度 。设 X , Y X, Y X,Y 的期望分别为 μ X , μ Y \mu_X, \mu_Y μX,μY，则协方差定义为：
Cov ⁡ ( X , Y ) = E $( X - μ X ) ( Y - μ Y )$ \operatorname{Cov}(X,Y) = E $(X - \\mu_X)(Y - \\mu_Y)$ Cov(X,Y)=E $(X-μX)(Y-μY)$

展开得：
Cov ⁡ ( X , Y ) = E $X Y$ − E $X$ E $Y$ \operatorname{Cov}(X,Y) = E $XY$ - E $X$ E $Y$ Cov(X,Y)=E $XY$ −E $X$ E $Y$

性质（可由定义直接推导）：

Cov ⁡ ( X , X ) = Var ⁡ ( X ) \operatorname{Cov}(X,X) = \operatorname{Var}(X) Cov(X,X)=Var(X)。
对称性： Cov ⁡ ( X , Y ) = Cov ⁡ ( Y , X ) \operatorname{Cov}(X,Y) = \operatorname{Cov}(Y,X) Cov(X,Y)=Cov(Y,X)。
线性性： Cov ⁡ ( a X + b , c Y + d ) = a c Cov ⁡ ( X , Y ) \operatorname{Cov}(aX+b, cY+d) = ac \operatorname{Cov}(X,Y) Cov(aX+b,cY+d)=acCov(X,Y)。
若 X X X 与 Y Y Y 独立，则 Cov ⁡ ( X , Y ) = 0 \operatorname{Cov}(X,Y)=0 Cov(X,Y)=0。但逆命题不成立：协方差为零只说明不存在线性关系，仍可能存在非线性关系。
方差和公式： Var ⁡ ( X + Y ) = Var ⁡ ( X ) + Var ⁡ ( Y ) + 2 Cov ⁡ ( X , Y ) \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X,Y) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)。

3.2 相关系数的定义与性质

相关系数将协方差标准化，使其取值在 $- 1 , 1$ $-1, 1$ $-1,1$ 之间：
ρ X , Y = Cov ⁡ ( X , Y ) σ X σ Y . \rho_{X,Y} = \frac{\operatorname{Cov}(X,Y)}{\sigma_X \sigma_Y}. ρX,Y=σXσYCov(X,Y).

性质：

− 1 ≤ ρ ≤ 1 -1 \le \rho \le 1 −1≤ρ≤1。
∣ ρ ∣ = 1 |\rho| = 1 ∣ρ∣=1 当且仅当 Y = a X + b Y = aX + b Y=aX+b 几乎必然成立（完全线性相关），且 ρ = 1 \rho=1 ρ=1 表示正相关， ρ = − 1 \rho=-1 ρ=−1 表示负相关。
ρ = 0 \rho = 0 ρ=0 表示不存在线性相关，但可能非线性相关。
ρ \rho ρ 无量纲，不受线性变换影响（除了符号）。

3.3 衡量线性关系的意义

协方差和相关系数只能捕捉线性关系。例如，若 Y = X 2 Y = X^2 Y=X2 且 X X X 对称分布，则 Cov ⁡ ( X , Y ) = 0 \operatorname{Cov}(X,Y)=0 Cov(X,Y)=0，但两者显然存在强非线性关系。因此，使用时需结合散点图等可视化手段。

例5（线性相关） ：设 X ∼ N ( 0 , 1 ) X \sim N(0,1) X∼N(0,1)， Y = 2 X + ε Y = 2X + \varepsilon Y=2X+ε，其中 ε ∼ N ( 0 , 1 ) \varepsilon \sim N(0,1) ε∼N(0,1) 独立于 X X X。则：
Cov ⁡ ( X , Y ) = Cov ⁡ ( X , 2 X ) + Cov ⁡ ( X , ε ) = 2 ⋅ 1 + 0 = 2. \operatorname{Cov}(X,Y) = \operatorname{Cov}(X,2X) + \operatorname{Cov}(X,\varepsilon) = 2 \cdot 1 + 0 = 2. Cov(X,Y)=Cov(X,2X)+Cov(X,ε)=2⋅1+0=2.
σ X = 1 \sigma_X = 1 σX=1， σ Y = 4 + 1 = 5 \sigma_Y = \sqrt{4+1} = \sqrt{5} σY=4+1 =5 ，所以 ρ = 2 / 5 ≈ 0.894 \rho = 2/\sqrt{5} \approx 0.894 ρ=2/5 ≈0.894，强正相关。

例6（零相关但非线性） ：设 X ∼ U ( − 1 , 1 ) X \sim U(-1,1) X∼U(−1,1)， Y = X 2 Y = X^2 Y=X2。则：
E $X$ = 0 , E $Y$ = E $X 2$ = 1 3 , E $X Y$ = E $X 3$ = 0 , E $X$ =0,\quad E $Y$ =E $X\^2$ =\frac{1}{3},\quad E $XY$ =E $X\^3$ =0, E $X$ =0,E $Y$ =E $X2$ =31,E $XY$ =E $X3$ =0,

故 Cov ⁡ ( X , Y ) = 0 − 0 ⋅ 1 3 = 0 \operatorname{Cov}(X,Y)=0-0\cdot\frac{1}{3}=0 Cov(X,Y)=0−0⋅31=0，但显然 Y Y Y 与 X X X 有抛物线关系。

4. 协方差矩阵

4.1 定义

对于 n n n 维随机向量 X = ( X 1 , X 2 , ... , X n ) T \mathbf{X} = (X_1, X_2, \dots, X_n)^T X=(X1,X2,...,Xn)T，其协方差矩阵是一个 n × n n \times n n×n 对称矩阵，记为 Σ \Sigma Σ，其元素为：
Σ i j = Cov ⁡ ( X i , X j ) , i , j = 1 , ... , n . \Sigma_{ij} = \operatorname{Cov}(X_i, X_j), \quad i,j=1,\dots,n. Σij=Cov(Xi,Xj),i,j=1,...,n.

即对角线是各分量的方差，非对角线是协方差。

4.2 矩阵形式

设 μ = E $X$ \boldsymbol{\mu} = E $\\mathbf{X}$ μ=E $X$ ，则协方差矩阵可表示为：
Σ = E $( X - μ ) ( X - μ ) T$ . \Sigma = E $(\\mathbf{X} - \\boldsymbol{\\mu})(\\mathbf{X} - \\boldsymbol{\\mu})\^T$ . Σ=E $(X-μ)(X-μ)T$ .

4.3 性质

对称性与半正定性 ： Σ \Sigma Σ 是实对称矩阵，且对任意非零向量 a \mathbf{a} a，有 a T Σ a = Var ⁡ ( a T X ) ≥ 0 \mathbf{a}^T \Sigma \mathbf{a} = \operatorname{Var}(\mathbf{a}^T \mathbf{X}) \ge 0 aTΣa=Var(aTX)≥0，故 Σ \Sigma Σ 半正定。
线性变换 ：设 Y = A X + b \mathbf{Y} = A\mathbf{X} + \mathbf{b} Y=AX+b，其中 A A A 是 m × n m \times n m×n 常数矩阵，则 Cov ⁡ ( Y ) = A Σ A T \operatorname{Cov}(\mathbf{Y}) = A \Sigma A^T Cov(Y)=AΣAT。
对角化 ：由于半正定， Σ \Sigma Σ 可分解为 Σ = P D P T \Sigma = PDP^T Σ=PDPT，其中 $P$ 正交， D D D 对角阵，对应于主成分分析（PCA）中的主成分方向。

4.4 应用举例

例7（多元正态分布） ： n n n 维正态分布完全由均值向量 μ \boldsymbol{\mu} μ 和协方差矩阵 Σ \Sigma Σ 确定，记为 N ( μ , Σ ) N(\boldsymbol{\mu}, \Sigma) N(μ,Σ)。其联合 PDF 为：
f ( x ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) . f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right). f(x)=(2π)n/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ)).

协方差矩阵决定了分布的形状和相关性。

例8（金融资产组合） ：设资产收益率向量 R \mathbf{R} R，协方差矩阵 Σ \Sigma Σ 反映资产之间的风险关联。投资组合权重 w \mathbf{w} w 的方差为 w T Σ w \mathbf{w}^T \Sigma \mathbf{w} wTΣw，这是现代投资组合理论的核心。

例9（主成分分析）：在机器学习中，对数据协方差矩阵进行特征分解，得到的主成分方向是方差最大的方向，用于降维。

5. 总结

概念	定义	作用
联合分布	p ( x , y ) p(x,y) p(x,y) 或 f ( x , y ) f(x,y) f(x,y)	描述两变量同时取值规律
边缘分布	p X ( x ) = ∑ y p ( x , y ) p_X(x)=\sum_y p(x,y) pX(x)=∑yp(x,y) 或 f X ( x ) = ∫ f ( x , y ) d y f_X(x)=\int f(x,y)dy fX(x)=∫f(x,y)dy	忽略另一变量的单个分布
条件分布	$p_{X	Y}(x
协方差	Cov ⁡ ( X , Y ) = E $X Y$ − E $X$ E $Y$ \operatorname{Cov}(X,Y)=E $XY$ -E $X$ E $Y$ Cov(X,Y)=E $XY$ −E $X$ E $Y$	衡量线性相关方向和强度（有量纲）
相关系数	ρ = Cov ⁡ ( X , Y ) σ X σ Y \rho=\frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y} ρ=σXσYCov(X,Y)	标准化线性相关度，范围 $-1,1$
协方差矩阵	Σ i j = Cov ⁡ ( X i , X j ) \Sigma_{ij}=\operatorname{Cov}(X_i,X_j) Σij=Cov(Xi,Xj)	多维变量全部方差-协方差信息

多维随机变量是统计学、机器学习、金融工程等领域的核心工具。掌握联合、边缘、条件分布能够让我们灵活处理复杂问题，而协方差与相关系数则是理解变量关系的基础。协方差矩阵更是在主成分分析、线性判别分析、多元回归等算法中扮演关键角色。

上一章 机器学习概率论与统计学--(6)概率论：连续分布