神经网络|(十五)概率论基础知识-协方差标准化和皮尔逊相关系数

【1】引言

前序学习进程中,已经回顾了协方差协方差与方差之间关系相关的基本概念。

对于两个随机变量 X X X和 Y Y Y,协方差为 C o v ( X , Y ) Cov(X,Y) Cov(X,Y),有:
C o v ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] Cov(X,Y)=E[(X-E(X))(Y-E(Y))] Cov(X,Y)=E[(X−E(X))(Y−E(Y))]

单个变量的方差为 V a r ( X ) Var(X) Var(X):
V a r ( X ) = E [ ( X − E ( X ) ) 2 ] = E [ X 2 − 2 X E ( X ) + E ( X ) 2 ] = E ( X 2 ) − 2 E ( X ) E ( E ( X ) ) + E ( E ( X ) 2 ) = E ( X 2 ) − E ( X ) 2 Var(X)=E[(X-E(X))^2]=E[X^2-2XE(X)+E(X)^2]=\\ E(X^2)-2E(X)E(E(X))+E(E(X)^2)=\\ E(X^2)-E(X)^2 Var(X)=E[(X−E(X))2]=E[X2−2XE(X)+E(X)2]=E(X2)−2E(X)E(E(X))+E(E(X)2)=E(X2)−E(X)2

从公式推导上看,协方差等于方差是完全可能的:当计算变量自己和自己的协方差时,协方差就是方差。

C o v ( X , X ) = E [ ( X − E ( X ) ) ( X − E ( X ) ) ] = E ( X 2 ) − E ( X ) 2 = V a r ( X ) Cov(X,X)=E[(X-E(X))(X-E(X))]=E(X^2)-E(X)^2=Var(X) Cov(X,X)=E[(X−E(X))(X−E(X))]=E(X2)−E(X)2=Var(X)

方差其实是协方差的一个特例,协方差计算所有变量之间的相互线性关系,但方差计算的是变量自己和自己的线性关系。

【2】协方差标准化

谦虚学习进程中,也曾经回顾变量去中心和标准化的基本概念,其实协方差的计算也很有必要进行标准化操作。

一旦变量是一些物理量,不同的量纲带来的协方差计算值完全不同,这种没有界限的取值会影响判断结果,因此对协方差进行个标准化操作就至关重要。

协方差标准化后的参数名称为"皮尔逊相关系数 ρ X , Y \rho_{X,Y} ρX,Y":
ρ X , Y = C o v ( X , Y ) V a r ( X ) ⋅ V a r ( Y ) \rho_{X,Y}=\frac{Cov(X,Y)}{\sqrt{Var(X)}\cdot \sqrt{Var(Y)}} ρX,Y=Var(X) ⋅Var(Y) Cov(X,Y)

ρ X , Y \rho_{X,Y} ρX,Y的取值范围是[-1,1],除了量纲影响,其绝对值越接近 1,线性相关越强。

很显然,

当 ρ X , Y > 0 \rho_{X,Y}>0 ρX,Y>0,变量 X , Y X,Y X,Y同步偏离均值,为线性正相关关系;

当 ρ X , Y = 0 \rho_{X,Y}=0 ρX,Y=0,变量 X , Y X,Y X,Y中至少有一个量停驻在均值处,为线性无关关系;

当 ρ X , Y < 0 \rho_{X,Y}<0 ρX,Y<0,变量 X , Y X,Y X,Y反向偏离均值,为线性负相关关系。

【3】总结

学习了协方差标准化获得皮尔逊相关系数 ρ X , Y \rho_{X,Y} ρX,Y的基础概念。