【1】引言
前序学习进程中,已经对概率论的基础知识做了学习,比如贝特斯公式、朴素贝叶斯算法拉普拉斯平滑计算条件概率等。
在此基础上,我们又对scikit-learn的使用进行了初步探索。
随着学习的深入,对样本数据的处理越来越重要,之前已经学习了变量去中心化和标准化,现在我们要追溯一个未来将长期使用的参数:协方差。
【2】协方差定义
协方差可以描述两个随机变量之间的线性相关程度,可以衡量两个变量如何"共同变化"。
对于两个随机变量 X X X和 Y Y Y,记录协方差为 C o v ( X , Y ) Cov(X,Y) Cov(X,Y),有:
C o v ( X , Y ) = E [ X − E ( X ) ( Y − E ( Y ) ) ] Cov(X,Y)=E[X-E(X)(Y-E(Y))] Cov(X,Y)=E[X−E(X)(Y−E(Y))]
机器学习往往只能面向样本,此时需要校正上述公式:假设样本为 [ ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) ] [(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})] [(x1,y1),(x2,y2),...,(xn,yn)],则对应的样本均值有
x ˉ = 1 n ∑ i = 1 n x i \bar x=\frac{1}{n}\sum_{i=1}^{n}x_{i} xˉ=n1i=1∑nxi
y ˉ = 1 n ∑ i = 1 n y i \bar y=\frac{1}{n}\sum_{i=1}^{n}y_{i} yˉ=n1i=1∑nyi
此时的样本协方差计算式为:
c o v ( x , y ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) cov(x,y)=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar x)(y_{i}-\bar y) cov(x,y)=n−11i=1∑n(xi−xˉ)(yi−yˉ)
【3】协方差含义
若 C o v ( X , Y ) > 0 Cov(X,Y)>0 Cov(X,Y)>0: X X X和 Y Y Y正相关;
若 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0: X X X和 Y Y Y线性不相关;
若 C o v ( X , Y ) > 0 Cov(X,Y)>0 Cov(X,Y)>0: X X X和 Y Y Y负相关;
【4】协方差的性质
对称性: C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X) Cov(X,Y)=Cov(Y,X)
与方差的关系:变量自身的协方差等于方差, C o v ( X , X ) = V a r ( x ) Cov(X,X)=Var(x) Cov(X,X)=Var(x)
线性性质:
C o v ( a X + b , c Y + d ) = a c ⋅ C o v ( X , Y ) Cov(aX+b,cY+d)=ac\cdot Cov(X,Y) Cov(aX+b,cY+d)=ac⋅Cov(X,Y)
C o v ( X + Y , Z ) = C o v ( X , Z ) + C o v ( Y , Z ) Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z) Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)
【5】总结
学习了协方差的基础知识。