多元随机变量协方差矩阵

主要记录多元随机变量数字特征相关内容。

关键词:多元统计分析

一元随机变量

总体

随机变量Y

总体均值
μ = E ( Y ) = ∫ y f ( y )   d y \mu = E(Y) = \int y f(y) \, dy μ=E(Y)=∫yf(y)dy
总体方差
σ 2 = V a r ( Y ) = E ( Y − μ ) 2 \sigma^2 = Var(Y) = E(Y - \mu)^2 σ2=Var(Y)=E(Y−μ)2

样本

随机样本 { y 1 , . . . , y n } \{y_1, ..., y_n\} {y1,...,yn}

样本均值
y ˉ = 1 n ∑ i = 1 n n y i \bar{y}=\frac{1}{n}\sum_{i=1^n}^ny_i yˉ=n1∑i=1nnyi
样本方差
s 2 = 1 n − 1 ∑ i = 1 n n ( y i − y ˉ ) 2 s^2=\frac{1}{n-1}\sum_{i=1^n}^n(y_i - \bar{y})^2 s2=n−11∑i=1nn(yi−yˉ)2

二元随机变量

总体

随机变量(X, Y)

总体协方差
σ X Y = c o v ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] = E ( X Y ) − μ X μ Y \sigma_{XY}=cov(X, Y)=E[(X - \mu_X)(Y - \mu_Y)] = E(XY)-\mu_X\mu_Y σXY=cov(X,Y)=E[(X−μX)(Y−μY)]=E(XY)−μXμY

总体相关系数
ρ X Y = c o r r ( X , Y ) = σ X Y / ( σ X σ Y ) \rho_{XY}=corr(X, Y) = \sigma_{XY} / (\sigma_{X}\sigma_{Y}) ρXY=corr(X,Y)=σXY/(σXσY)

说明:

可以理解变量中的 X为身高、Y为体重

根据西瓦兹不等式可得, σ X Y ≤ σ X σ Y \sigma_{XY} \leq \sigma_{X}\sigma_{Y} σXY≤σXσY

总体相关系数取值范围 [ − 1 , 1 ] [-1, 1] [−1,1]

样本

二元随机样本 { ( x 1 , y 1 ) , . . . , ( x n , y n ) } \{(x_1, y_1), ..., (x_n, y_n)\} {(x1,y1),...,(xn,yn)}

样本协方差
s x y = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) s_{xy}=\frac{1}{n-1} \sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y}) sxy=n−11i=1∑n(xi−xˉ)(yi−yˉ)

样本相关系数
r x y = s x y / ( s x s y ) r_{xy} = s_{xy} / (s_xs_y) rxy=sxy/(sxsy)

样本相关取值范围 [ − 1 , 1 ] [-1, 1] [−1,1]

性质 σ X Y = 0 ⇔ X 和 Y 是不相关 / 线性独立的 \sigma_{XY}=0 \Leftrightarrow X和Y 是不相关/线性独立的 σXY=0⇔X和Y是不相关/线性独立的

线性独立不等于独立

特例:如果X和Y服从二元正态分布,那么我们有
σ X Y = 0 ⇔ X 和 Y 是独立的 \sigma_{XY}=0 \Leftrightarrow X和Y 是独立的 σXY=0⇔X和Y是独立的

多元数据特征

现有 n n n 个样本点,每个样本点包含 p p p 个变量的观测,则数据集可以表示为 n × p n \times p n×p 矩阵
Y = ( y 11 . . . y 1 j . . . y 1 p . . . . . . . . . . . . . . . y i 1 . . . y i j . . . y i p . . . . . . . . . . . . . . . y n 1 . . . y n j . . . y n p ) = ( y 1 ⊤ . . . y 2 ⊤ . . . y n ⊤ ) Y = \begin{pmatrix} y_{11} & ... & y_{1j} & ... & y_{1p} \\ ... & ... & ... & ... & ... \\ y_{i1} & ... & y_{ij} & ... & y_{ip} \\ ... & ... & ... & ... & ... \\ y_{n1} & ... & y_{nj} & ... & y_{np} \\ \end{pmatrix} = \begin{pmatrix} y_1^\top \\ ... \\ y_2^\top \\ ... \\ y_n^\top \end{pmatrix} Y= y11...yi1...yn1...............y1j...yij...ynj...............y1p...yip...ynp = y1⊤...y2⊤...yn⊤

其中 y i = ( y i 1 , . . . , y i p ) ⊤ y_i = (y_{i1}, ..., y_{ip})^\top yi=(yi1,...,yip)⊤ 由 Y 的第 i i i 行构成,表示第 i i i个样本

对于总体
y = ( Y 1 , . . . , Y p ) ⊤ \bm{y}=(Y_1, ..., Y_p)^\top y=(Y1,...,Yp)⊤

这里的 y \bm{y} y 是随机向量

期望(即均值向量):
E ( y ) = ( E ( Y 1 ) , . . . , E ( Y p ) ) ⊤ = ( μ 1 , . . . , μ p ) ⊤ = μ E(\bm{y})=(E(Y_1), ..., E(Y_p))^\top=(\mu_1, ..., \mu_p)^\top=\bm{\mu} E(y)=(E(Y1),...,E(Yp))⊤=(μ1,...,μp)⊤=μ

对于样本
{ y 1 , y 2 , . . . , y n } \{ \bm{y_1}, \bm{y_2}, ..., \bm{y_n} \} {y1,y2,...,yn}

均值向量:
y ˉ = 1 n ∑ i = 1 n y i = ( y 1 ˉ , . . . , y p ˉ ) ⊤ \bar{\bm{y}} = \frac{1}{n}\sum_{i=1}^n \bm{y_i}=(\bar{y_1}, ..., \bar{y_p})^\top yˉ=n1i=1∑nyi=(y1ˉ,...,ypˉ)⊤

其中 y j ˉ = 1 n ∑ i = 1 n y i j , E ( y ˉ ) = μ \bar{y_j}=\frac{1}{n}\sum_{i=1}^n y_{ij}, E(\bar{\bm{y}})=\bm{\mu} yjˉ=n1∑i=1nyij,E(yˉ)=μ

协方差矩阵(Covariance matrix)

对总体

随机向量 y = ( Y 1 , . . . , Y p ) ⊤ , p × p \bm{y}=(Y_1, ..., Y_p)^\top, p \times p y=(Y1,...,Yp)⊤,p×p总体协方差矩阵定义为:
Σ = C o v ( y ) = E [ ( y − μ ) ( y − μ ) ⊤ ] = ( σ 11 σ 12 . . . σ 1 p σ 21 σ 22 . . . σ 2 p . . . . . . . . . . . . σ p 1 σ p 2 . . . σ p p ) \begin{aligned} \boldsymbol{\Sigma} &= Cov(\bm{y}) \\ &= E[(\bm{y}-\bm{\mu})(\bm{y}-\bm{\mu})^\top] \\ &=\begin{pmatrix} \sigma_{11} & \sigma_{12} & ... & \sigma_{1p} \\ \sigma_{21} & \sigma_{22} & ... & \sigma_{2p} \\ ... & ... & ... & ... \\ \sigma_{p1} & \sigma_{p2} & ... & \sigma_{pp} \\ \end{pmatrix} \end{aligned} Σ=Cov(y)=E[(y−μ)(y−μ)⊤]= σ11σ21...σp1σ12σ22...σp2............σ1pσ2p...σpp

其中,
σ j k \sigma_{jk} σjk为 Y j Y_j Yj和 Y k Y_{k} Yk之间的协方差, σ j j = σ j 2 \sigma_{jj}=\sigma_{j}^2 σjj=σj2 为 Y j Y_j Yj的方差。

对样本

随机样本 { y 1 , . . . , y n } , p × p \{ \bm{y_1}, ..., \bm{y_n} \}, p \times p {y1,...,yn},p×p 样本协方差矩阵定义为:
S = 1 n − 1 ∑ i = 1 n ( y i − y ˉ ) ( y i − y ˉ ) ⊤ = ( s 11 s 12 . . . s 1 p s 21 s 22 . . . s 2 p . . . . . . . . . . . . s p 1 s p 2 . . . s p p ) \begin{aligned} \bm{S} &= \frac{1}{n-1}\sum_{i=1}^n (\bm{y_i}-\bar{\bm{y}}) (\bm{y_i}-\bar{\bm{y}})^\top \\ &= \begin{pmatrix} s_{11} & s_{12} & ... & s_{1p} \\ s_{21} & s_{22} & ... & s_{2p} \\ ... & ... & ... & ... \\ s_{p1} & s_{p2} & ... & s_{pp} \\ \end{pmatrix} \end{aligned} S=n−11i=1∑n(yi−yˉ)(yi−yˉ)⊤= s11s21...sp1s12s22...sp2............s1ps2p...spp

其中,
s j k = 1 n − 1 ∑ i = 1 n ( y i j − y j ˉ ) ( y k j − y k ˉ ) s_{jk}=\frac{1}{n-1}\sum_{i=1}^n(y_{ij}-\bar{y_j})(y_{kj}-\bar{y_k}) sjk=n−11∑i=1n(yij−yjˉ)(ykj−ykˉ)
s j j = s j 2 = 1 n − 1 ∑ i = 1 n ( y i j − y j ˉ ) 2 s_{jj}=s_{j}^2=\frac{1}{n-1}\sum_{i=1}^n(y_{ij}- \bar{y_j})^2 sjj=sj2=n−11∑i=1n(yij−yjˉ)2

性质1 Σ \boldsymbol{\Sigma} Σ和 S \bm{S} S是对称的
性质2 S \bm{S} S是 Σ \boldsymbol{\Sigma} Σ的无偏估计,也即 E ( S ) = Σ E(\bm{S})=\boldsymbol{\Sigma} E(S)=Σ
性质3 y ˉ \bar{\bm{y}} yˉ 的协方差矩阵是 C o v ( y ˉ ) = Σ n Cov(\bar{\bm{y}})=\frac{\boldsymbol{\Sigma}}{n} Cov(yˉ)=nΣ

性质3,对应一维情况是相似的,即样本均值的方差 C o v ( x ˉ ) = σ 2 / n . Cov(\bar{x})=\sigma^2/n. Cov(xˉ)=σ2/n.

相关系数矩阵

总体相关系数矩阵
P = ( ρ j k ) = ( 1 ρ 12 . . . ρ 1 p ρ 21 1 . . . ρ 2 p . . . . . . . . . . . . ρ p 1 ρ p 2 . . . 1 ) \bm{P}= (\rho_{jk}) = \begin{pmatrix} 1 & \rho_{12} & ... & \rho_{1p} \\ \rho_{21} & 1 & ... & \rho_{2p} \\ ... & ... & ... & ... \\ \rho_{p1} & \rho_{p2} & ... & 1 \end{pmatrix} P=(ρjk)= 1ρ21...ρp1ρ121...ρp2............ρ1pρ2p...1

其中 ρ j k = σ j k / ( σ j σ k ) \rho_{jk}=\sigma_{jk} / (\sigma_j \sigma_k) ρjk=σjk/(σjσk) 为 Y j Y_{j} Yj与 Y k Y_{k} Yk之间的总体相关系数

样本相关系数矩阵

对随机样本 { y 1 , . . . , y n } \{\bm{y_1}, ..., \bm{y_n}\} {y1,...,yn}来说,
R = ( r j k ) = ( 1 r 12 . . . r 1 p r 21 1 . . . r 2 p . . . . . . . . . . . . r p 1 r p 2 . . . 1 ) \bm{R}= (r_{jk}) = \begin{pmatrix} 1 & r_{12} & ... & r_{1p} \\ r_{21} & 1 & ... & r_{2p} \\ ... & ... & ... & ... \\ r_{p1} & r_{p2} & ... & 1 \end{pmatrix} R=(rjk)= 1r21...rp1r121...rp2............r1pr2p...1

其中 r j k = s j k / s j j s k k = s j k / ( s j s k ) r_{jk}=s_{jk} / \sqrt{s_{jj}s_{kk}}=s_{jk} / (s_js_k) rjk=sjk/sjjskk =sjk/(sjsk) 为第 j j j 和第 k k k 个变量之间的样本相关系数

协方差矩阵的用途

1.刻画数据整体离散型

如果 ∣ S ∣ |S| ∣S∣很小,有可能是数据波动比较小,也有可能是存在共线性现象。故 ∣ S ∣ |S| ∣S∣称为广义方差

t r ( S ) tr(S) tr(S)刻画了各变量波动程度的总和,但忽略了变量间的相关性,故成为总方差

2.定义统计距离

一元情况

欧式距离: ∣ y 1 − y 2 ∣ |y_1 - y_2| ∣y1−y2∣

标准化后的距离: ∣ y 1 − y 2 ∣ / s y |y_1 - y_2| / s_y ∣y1−y2∣/sy

多元情况

在多元情况中,对于两个 p p p维向量
y 1 = ( y 1 1 , . . . , y 1 p ) ⊤ \bm{y_1}=(y_11, ..., y_1p)^\top y1=(y11,...,y1p)⊤
y 2 = ( y 2 1 , . . . , y 2 p ) ⊤ \bm{y_2}=(y_21, ..., y_2p)^\top y2=(y21,...,y2p)⊤

欧式距离定义为:
∣ ∣ y 1 − y 2 ∣ ∣ = ( y 1 − y 2 ) ⊤ ( y 1 − y 2 ) = ∑ j = i p ( y 1 j − y 2 j ) 2 ||\bm{y_1}-\bm{y_2}|| = \sqrt{(\bm{y_1}-\bm{y_2})^\top(\bm{y_1}-\bm{y_2})}=\sqrt{\sum_{j=i}^p(y_{1j}-y_{2j})^2} ∣∣y1−y2∣∣=(y1−y2)⊤(y1−y2) =j=i∑p(y1j−y2j)2

欧式距离只考虑了分量各自的距离,没有考虑到不同变量变化的尺度不同,以及变量之间的相关性。

统计距离/马氏距离

类似于一元情况 ∣ y 1 − y 2 ∣ / s y |y_1 - y_2|/s_y ∣y1−y2∣/sy,我们定义 y 1 \bm{y_1} y1和 y 2 \bm{y_2} y2之间的统计距离/马氏距离:
d = ( y 1 − y 2 ) ⊤   S − 1 ( y 1 − y 2 ) d = \sqrt{(\bm{y_1-\bm{y_2}})^\top \, \bm{S}^{-1}(\bm{y_1-\bm{y_2}})} d=(y1−y2)⊤S−1(y1−y2)

统计距离而言,方差更大的变量贡献更小的权重,两个高度相关的变量的贡献小于两个相关性较低的变量。

欧氏距离vs统计距离

统计距离其实是两个经过"标准化"的向量 S − 1 / 2 y 1 \bm{S}^{-1/2} \bm{y_1} S−1/2y1 和 S − 1 / 2 y 2 \bm{S}^{-1/2} \bm{y_2} S−1/2y2 之间的欧式距离:

∣ ∣ S − 1 / 2 y 1 − S − 1 / 2 y 2 ∣ ∣ = ( y 1 − y 2 ) ⊤   S − 1 ( y 1 − y 2 ) ||\bm{S}^{-1/2}\bm{y_1} - \bm{S}^{-1/2}\bm{y_2}|| = \sqrt{(\bm{y_1-\bm{y_2}})^\top \, \bm{S}^{-1}(\bm{y_1-\bm{y_2}})} ∣∣S−1/2y1−S−1/2y2∣∣=(y1−y2)⊤S−1(y1−y2)

为什么是 S − 1 / 2 y 1 \bm{S}^{-1/2}\bm{y_1} S−1/2y1 的形式?我们可以计算得到其协方差实际就是一个单位矩阵 I \bm{I} I

C o v ( S − 1 / 2 y 1 ) = I p Cov(\bm{S^{-1/2}y_1}) = \bm{I}_p Cov(S−1/2y1)=Ip

由此可得,经过标准化后的 S − 1 / 2 y 1 \bm{S^{-1/2}y_1} S−1/2y1 各变量之间的相关系数为0,不同变量之间协方差为0,变量自身的方差也标准化为了1。

随机变量的线性组合

y = ( Y 1 , . . . , Y p ) ⊤ \bm{y}=(Y_1, ..., Y_p)^\top y=(Y1,...,Yp)⊤ 的均值 μ \mu μ,协方差矩阵为 Σ \boldsymbol{\Sigma} Σ

定义线性组合:
Z = a ⊤ y = ∑ j = 1 p a j Y j Z=\bm{a}^\top\bm{y}=\sum_{j=1}^pa_jY_j Z=a⊤y=j=1∑pajYj

其中 a = ( a 1 , . . . , a p ) ⊤ \bm{a}=(a_1, ..., a_p)^\top a=(a1,...,ap)⊤是系数向量。

则对随机变量 Z Z Z 我们有:
E ( Z ) = E ( a ⊤ y ) = a ⊤ μ E(Z)=E(\bm{a}^\top\bm{y})=\bm{a^\top \mu} E(Z)=E(a⊤y)=a⊤μ
v a r ( Z ) = v a r ( a ⊤ y ) = a ⊤ Σ   a var(Z)=var(\bm{a}^\top\bm{y})=\bm{a^\top \boldsymbol{\Sigma} \, a} var(Z)=var(a⊤y)=a⊤Σa

如果我们有另一个线性组合:
W = b ⊤ y = ∑ j = 1 p b j Y j W=\bm{b}^\top\bm{y}=\sum_{j=1}^pb_jY_j W=b⊤y=j=1∑pbjYj

则可以计算 Z Z Z和 W W W之间的线性关系:
σ Z W = c o v ( Z , W ) = E ( a ⊤   y − a ⊤ μ ) ( b ⊤   y − b ⊤ μ ) = a ⊤ Σ   b \begin{aligned} \sigma_{ZW} &=cov(Z, W) \\ &=E(\bm{a^\top\,y-a^\top\mu})(\bm{b^\top\,y-b^\top\mu}) \\ &=\bm{a^\top\boldsymbol{\Sigma}} \, \bm{b} \end{aligned} σZW=cov(Z,W)=E(a⊤y−a⊤μ)(b⊤y−b⊤μ)=a⊤Σb

ρ Z W = c o r r ( Z , W ) = a ⊤ Σ   b ( a ⊤ Σ   a ) ( b ⊤ Σ   b ) \rho_{ZW}=corr(Z, W)=\frac{\bm{a^\top\boldsymbol{\Sigma}} \, \bm{b}}{\sqrt{(\bm{a^\top\boldsymbol{\Sigma}} \, \bm{a})(\bm{b^\top\boldsymbol{\Sigma}} \, \bm{b})}} ρZW=corr(Z,W)=(a⊤Σa)(b⊤Σb) a⊤Σb

如果是多个线性组合呢?

考虑 q q q个 Y 1 , . . . , Y p Y_1,..., Y_p Y1,...,Yp的线性组合,记作 z = A y \bm{z}=\bm{Ay} z=Ay, A = ( a i j ) q × p \bm{A}=(a_{ij})_{q \times p} A=(aij)q×p,则我们有:

μ z = E ( A y ) = A μ , \mu_{\bm{z}}=E(\bm{Ay})=\bm{A\mu}, μz=E(Ay)=Aμ,
Σ z = C o v ( z ) = A Σ A ⊤ \boldsymbol{\Sigma}_{\bm{z}}=Cov(\bm{z})=\bm{A\boldsymbol{\Sigma}A^\top} Σz=Cov(z)=AΣA⊤

更一般的,对 w = A y + b \bm{w=Ay + b} w=Ay+b, 其中 b b b为常向量,有
μ w = E ( A y + b ) = A μ + b , \mu_{\bm{w}}=E(\bm{Ay + b}) = \bm{A\mu + b}, μw=E(Ay+b)=Aμ+b,
Σ w = C o v ( w ) = A Σ A ⊤ \boldsymbol{\Sigma}_{\bm{w}}=Cov(\bm{w})=\bm{A\boldsymbol{\Sigma}A^\top} Σw=Cov(w)=AΣA⊤

(待更新)

相关推荐
极小狐1 小时前
极狐Gitlab 如何创建并使用子群组?
数据库·人工智能·git·机器学习·gitlab
god_Zeo7 小时前
从头训练小模型: 4 lora 微调
人工智能·机器学习
星川皆无恙8 小时前
大数据产品销售数据分析:基于Python机器学习产品销售数据爬虫可视化分析预测系统设计与实现
大数据·运维·爬虫·python·机器学习·数据分析·系统架构
%d%d28 小时前
RuntimeError: CUDA error: __global__ function call is not configured
人工智能·深度学习·机器学习
阿维的博客日记8 小时前
ϵ-prediction和z0-prediction是什么意思
人工智能·深度学习·机器学习
豆沙沙包?9 小时前
2025年- H17-Lc125-73.矩阵置零(矩阵)---java版
java·线性代数·矩阵
TO ENFJ10 小时前
day 10 机器学习建模与评估
人工智能·机器学习
卧式纯绿10 小时前
卷积神经网络基础(五)
人工智能·深度学习·神经网络·目标检测·机器学习·计算机视觉·cnn
IT古董10 小时前
【漫话机器学习系列】243.数值下溢(Underflow)
人工智能·机器学习
奋斗者1号10 小时前
《机器学习中的过拟合与模型复杂性:理解与应对策略》
人工智能·机器学习