基础知识-因果分析-dayfour-随机变量的数字特征

随机变量的概率分布（离散随机变量是概率分布值，连续随机变量是概率密度函数）对随机变量进行了完整描述，但在实际工作中，难以确定随机变量的概率分布，同时，对于一些实际问题，并不需要掌握随机变量的概率分布，只要知道与随机变量概率分布相关的一些特征就够了，因此，我们在损失一些数据信息的情况下，用与随机变量的概率分布有关的一些特征对该变量的取值情况进行描述，这些特征称为随机变量的数字特征。比如，在测量电源电压时，电源电压是一个随机变量，我们通常用电源电压的均值来表示电源电压的大小。在研究设备的使用寿命时，使用寿命是一个随机变量，我们对使用寿命主要关注其平均使用寿命以及各个使用寿命对平均值的偏离程度。这些都是采用随机变量的特征对随机变量的分布情况进行简化描述。本节我们将以离散随机变量为例，对随机变量的数字特征进行介绍.

1.期望值随机变量的期望值（也称为均值）为该变量各个可能的取值乘以其相应的概率，再将得到的乘积加和。随机变量X的期望值E(X)的计算公式为

例2.7 某机器生产一种产品，其中一等品的利润是5元，二等品的利润是4元，次品则亏损2元，已知这台机器生产出一等品、二等品和次品的概率分别是0.6、0.3和0.1，求这台机器生产的每件产品的平均利润。

解：以每件产品的利润作为随机变量X，可有该随机变量的概率分布如表2.6所示，相应地E(X)=(-2)×0.1+4×0.3+5×0.6=4（元）

2.随机变量函数的期望随机变量X的函数g(x)的期望值E[g(X)]为随机变量X各个取值对应的函数值乘以随机变量对应取值的概率，再对其加和，计算公式为：

例2.8 在例2.7的基础上，若操作该机器的工人按照所生产出来产品的利润计算计件工资，工人所得计件工资为产品利润的60%减去1.5元，工人在每件产品上获得的平均计件工资是多少？解：

解：以每件产品的利润作为随机变量X，该随机变量的概率分布如表2.6所示。工人在每件产品上获得的计件工资为利润X的函数为：g(X)=60%X-1.5

故工人在每件产品上获得的平均计件工资为：E[g(X)]=[(-2)×60%-1.5]×0.1+[4×60%-1.5]×0.3+[5×60%-1.5]×0.5=0.75（元）

3.条件期望

随机变量Y在X=x条件下的条件期望为变量Y的每个可能的取值y乘以条件概率P(Y=y|X=x)，再将这些乘积加和，计算公式为：

期望的性质如下。

● 设C是常数，则有E(C)=C。

● 设X是随机变量，C是常数，则有E(CX)=CE(X)。

● 设X和Y是两个随机变量，则有E(X+Y)=E(X)+E(Y)。

● 设X和Y是两个相互独立的随机变量，则有E(XY)=E(X)E(Y)。

● 在估计值与实际值的差值的平方和最小的评价标准下，变量X的期望是最优估计值。

4.方差和标准差期望值刻画了随机变量取值大小的"平均数"，为了刻画随机变量取值相对于其"平均数"的分散程度，我们引入随机变量的方差或标准差来对变量的取值相对于其均值的分散程度进行度量。如果随机变量的取值大多聚集在均值的附近，则其方差较小；如果随机变量的取值分散在一个较大的范围，则其方差较大。随机变量X的方差的数学定义为：变量X与其均值之差的平方的期望。具体计算公式为：

随机变量X的标准差δx为其方差Var(X)的平方根。随机变量的标准差与随机变量具有相同的量纲，而方差则不是。

随机变量的方差满足：Var(X)=E(X^2)-[E(X)]^2

例2.9 计算例2.7中机器生产的每件产品利润的方差。解：根据产品利润概率分布表及其均值μ=4元，可得产品利润的方差：Var(X)=(-2-4)^2×0.1+(4-4)^2×0.3+(5-4)^2×0.6=4.2而对应的标准差为：

在统计学中，标准差描述了随机变量取值分布的集中程度，若随机变量服从正态分布，则随机变量大约三分之二的取值落入均值正负1个标准差的区间，约95%的取值落入均值正负2个标准差的区间。

5.协方差和相关系

数期望和方差对随机变量的取值大小和取值的离散程度进行了刻画，这里我们引入协方差和相关系数对两个随机变量间的关系进行度量。若两个随机变量X和Y的期望值E{[X-E(X)][Y-E(Y)]}存在，则称：

为随机变量X和Y的协方差。协方差对两个变量的共变性进行度量，也就是对两个变量变化的相关性进行度量。

方差可以视为协方差的特例Var(X)=cov(X,X)。

协方差满足下列性质。

● 对称性：cov(X,Y)=cov(Y,X)。

● 齐次性：cov(aX,bY)=ab cov(X,Y)，a、b是常数。

● 可加性：cov(X1+X2,Y)=cov(X1,Y)+cov(X2,Y)。

● cov(X,c)=0,c是常数。

● cov(X,Y)=E(XY)-E(X)E(Y)。

将协方差用两个变量的标准差进行标准化，则有相关系数：

相关系数是无量纲的，取值范围为-1~+1，可以视为将变量X和Y分别用其标准差归一化后的变量的协方差。相关系数体现了变量X和Y的线性相关程度（用直线对其进行拟合后的斜率）。若相关系数ρxy等于±1，称变量X与变量Y正（负）相关，则依据变量X可用线性表达式预测变量Y，若ρxy等于0，称变量X与变量Y不相关（这里的不相关是指不存在线性关系，但可能存在其他函数关系），则根据变量X用线性表达式预测变量Y等价于随机选择变量Y。

若随机变量X与Y相互独立，则cov(X,Y)和ρxy均为0，X与Y不相关；但反之则不成立。ρxy描述了两个变量之间的线性相关性，若两个变量线性不相关，则不存在线性关系，但可能存在其他复杂的非线性关系，这时两个变量的关系一般通过条件概率P(Y=y|X=x)的形式予以描述。