概率论：期望、方差、协方差及相关系数

一、期望：重心

（1）一维随机变量的期望及其物理含义

（2）二维随机变量的期望及其物理含义

（3）期望的性质

在学习概率论的时候，发现方差、期望、协方差等概念可以非常直观地联系物理含义理解，于是本篇文章我们不谈复杂的数学推导，从物理角度直观的理解并记忆上述概念。

一、期望：重心

（1）一维随机变量的期望及其物理含义

所以以后我们在理解一维随机变量的期望的时候，请自信的说出：哦，不就是重心吗？轻轻松松！

（2）二维随机变量的期望及其物理含义

二维随机变量有X、Y两个方向上的随机变量，仍然可以从重心的角度理解：单独求出E(X)和E(Y)，他们分别是x、y方向上的重心。即把二维随机变量当做一个平面薄面，现在薄面的总质量是1，问你这个薄面的重心在哪？

只需要将X方向和Y方向的重心分别提取出来即可组成一个坐标点（E(X)，E(Y)），这个就称为二维随机变量的重心。

（3）期望的性质

虽然分别把X、Y方向的重心提出来可以得到整个平面的重心，是期望的常规用法。

但是有时我们会求解E(X·Y)这样的期望，这个在物理上并没有什么直观的含义，仅仅在数学中存在。不过它还会和后续的协方差产生重要的关联，这里我们了解一下他的独立时候的性质即可。

二、方差：转动惯量

方差是用来翻译一个随机变量的各个分布点，偏离重心的程度。比如一维随机变量中，不同情况的重心分布居然是一样的：一个杆子的重量基本在重心附近；另一个杆子的重量却在杆子的两侧边缘处，由于期望是平均的定义，他们平均后重心回归到杆子的中央区域了。

这种情况下人们无法直观的从期望看到分布点的离散、集中情况，于是诞生了方差。同时我们仍然有一个物理现象去解释方差---转动惯量。

（1）转动惯量是啥？（物理基础）

我们先了解一下啥是转动惯量（学过大学物理的可以直接跳过）：

（2）基于转动惯量理解一维随机变量的方差

从转动惯量的例子中我们可以看出：一个杆子的转动惯量（方差）越大，那么他就越难转起来。

所以以后有人问你什么是方差：你可以很自然的回答：就类似转动惯量，方差越大，重量分布越离散、越偏外侧，使得这个杆子越难转起来。方差越小，重量分布越偏向重心，杆子越容易转起来。

（3）方差真正的数学含义

方差本身是用来刻画一堆数据点偏离理想点（重心）的程度，最开始人们想到直接用距离（即相减再求绝对值）来表示，但是这个无法惩罚边缘数据，即不管你有多么离散，人们都无法敏感的察觉到你的数据点偏离太多工程要求了，从而造成设备的损坏。

而且由于绝对值的存在，使得函数不得不进行分段讨论，无法方便的求导、积分运算，在数学上天然不喜欢绝对值的形式。

于是人们想到用平方来表示偏离程度，一方面他起到偏离程度的估算，另一方面他能惩罚离谱的边缘数据点**（即上述例子中的转动惯量就是对于转动难易程度的惩罚）**，让人们快速察觉到有问题。最重要的是x²可以很方便的求导、积分运算，所以以后人们在描述一堆数据点的离散程度时，都会选择用方差。

（4）方差的计算公式

以后在计算方差的时候，直接使用口诀：平方的期望-期望的平方即可。

（5）方差的性质

三、协方差与线性相关系数

（1）协方差的演化路径

此时随机变量变成了X、Y两个，人们早期只是想用一个式子联合的评判两个随机变量的方差，一般想法可以分为方差和、方差积。后续他们分别分化为了两条路径，方差和一直被广泛使用，而方差积则被协方差上位替代了。

（2）协方差的诞生与计算公式

现在我们有两种选择去判断两个随机变量的联合偏离程度，但是我不再满足于此，而是想要进一步判断两个随机变量的正负相关性呢？

可以很明显的看出来：正相关性是在1、3象限分布的；而负相关性则是在2、4象限分布的。而什么能表示这俩呢？乘法！

不过我们之前用于表示联合的偏差时有两条路径：方差和与方差积。此时为了迎合相关性，我们会选用方差积。最后由于方差积都是正数，为了还原到相关性本身的正负性，我们对其进行"开方"（实则就是用两个随机变量的偏差距离直接相乘）。

这个计算式可以联系到"和的方差"性质：D(X+Y)=D(X)+D(Y)+2Cov(X,Y)

（3）线性相关系数ρ

由于不同度量下的协方差数值差异很大，比如重心在(1,1)处，而你的数据点在（3,3），则计算出来的协方差为2*2=4。而另外一种场景的重心在（1000,1000），而数据点在（1100，1100），它的协方差就是100*100=10000。明显后者的协方差比前者大，但是实际工程中后者却更加接近重心，即不同单位度量体系下，需要进行归一化处理，去评判他们的偏差系数百分比。

考虑到之前用方差积时候，如何能让其归一化成1呢？是不是除以它本身即可。

但是由于方差积始终是正数的乘积，所以分子分母不会有任何区别，归一化永远只能是1。而将这种思路用于协方差中则刚刚好：分子有正有负，会抵消一部分使之≤1，而分母则是两个标准差的积。最终的相关系数ρ始终处于 $-1,1$ 之间。

这个相关系数是皮尔逊最早发明的，他仅仅是想得到一个归一化的判定方式，让不同度量体系下的偏差都能很直观的看出来。但是后来人们对其进一步分析发现，越接近于1、-1的相关系数ρ，离散点就越接近于一条直线（Y=K·X，这里的斜率K可以自由变化）

所以后续也把这个相关系数ρ称为线性相关系数。注意只能评判线性的相关性，曲线的则失效！

（4）协方差的性质

这里的特性都是十分容易推导的，大家也不一定非要记忆，看到的时候自己会推导即可。