随机变量数字特征

主要介绍一维随机变量期望和方差、二维随机变量期望和方差、以及协方差相关公式,及推导。

一维随机变量

以一个抛硬币的场景作为例子,如下:

抛掷两枚均匀硬币,如果两枚都是正面向上,则赢得2元,否则就输掉1元。某人进行了 100次,结果如下表,求赢钱的平均值和方差

HH HT TH TT
30 20 30 20

又有,分布律:
其中随机变量对应示例中的赢钱金额

随机变量 X X X 2 -1
频率 f f f 0.3 0.7
概率 p p p 0.25 0.75
1. 期望与方差

平均值记为 x ˉ \bar{x} xˉ
x ˉ = 1 n ∑ i = 1 n x i = ∑ i = 1 n x i ∗ f i = 2 ∗ 0.3 + ( − 1 ) ∗ 0.7 = − 0.1 \begin{aligned} \bar{x}&= \frac{1}{n}\sum_{i=1}^nx_i = \sum_{i=1}^nx_i*f_i \\ &= 2*0.3+(-1)*0.7 \\ &= -0.1 \end{aligned} xˉ=n1i=1∑nxi=i=1∑nxi∗fi=2∗0.3+(−1)∗0.7=−0.1

随机变量(赢钱金额)的数学期望为:
E ( x ) = ∑ i = 1 n x i ∗ p i = 2 ∗ 0.25 + ( − 1 ) ∗ 0.75 = − 0.25 \begin{aligned} E(x) &= \sum_{i=1}^nx_i*p_i \\ &= 2*0.25 + (-1)*0.75=-0.25 \end{aligned} E(x)=i=1∑nxi∗pi=2∗0.25+(−1)∗0.75=−0.25

平均值:通过频率 f f f 计算出来的均值。

数学期望:通过概率 p p p 计算出来的均值。

对于均值, 方差为
s 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2 s2=n1i=1∑n(xi−xˉ)2

计算结果 s 2 = ( 2 + 0.1 ) 2 ∗ 0.3 + ( − 1 + 0.1 ) 2 ∗ 0.7 = 1.89 s^2=(2+0.1)^2*0.3 + (-1+0.1)^2*0.7=1.89 s2=(2+0.1)2∗0.3+(−1+0.1)2∗0.7=1.89

对于期望, 方差可以理解为上述中的均值改为期望,频率改为概率。(实际样本方差求平均时,分母是 n-1)

由此基础,我们引出方差的公式

D ( X ) = E ( X − E ( X ) ) 2 D(X) = E(X - E(X))^2 D(X)=E(X−E(X))2

数学期望和方差(标准差)分别反映了随机变量分布的中心位置与集散程度。

2. 期望与方差性质

常数 c 的期望和方差:
E ( c ) = ∑ i = 1 n c ∗ p i = c ∑ i = 1 n p i = c E(c) = \sum_{i=1}^n c*p_i=c\sum_{i=1}^np_i=c E(c)=∑i=1nc∗pi=c∑i=1npi=c
D ( c ) = E ( c − E ( c ) ) 2 = E ( c − c ) 2 = 0 D(c)=E(c - E(c))^2 = E(c - c)^2=0 D(c)=E(c−E(c))2=E(c−c)2=0

常数与随机变量的乘积:
E ( c X ) = ∑ i = 1 n c ∗ x i ∗ p i = c E ( X ) E(cX)=\sum_{i=1}^nc*x_i*p_i=cE(X) E(cX)=∑i=1nc∗xi∗pi=cE(X)
D ( c X ) = E ( c X − E ( c X ) ) 2 = c 2 E ( X − E ( X ) ) 2 = c 2 D ( X ) D(cX)=E(cX - E(cX))^2=c^2E(X-E(X))^2=c^2D(X) D(cX)=E(cX−E(cX))2=c2E(X−E(X))2=c2D(X)

随机变量和:
E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
D ( X + Y ) = D ( X ) + D ( Y ) \color{red}{D(X+Y)=D(X)+D(Y)} D(X+Y)=D(X)+D(Y)

X、Y相互独立时, 红色亮显公式D(X+Y) 才成立。

方差的计算公式:
D ( X ) = E ( X − E ( X ) ) 2 = E [ X 2 − 2 X E ( X ) + ( E ( X ) ) 2 ] = E ( X 2 ) − E ( 2 X E ( X ) ) + E [ ( E ( X ) ) 2 ] = E ( X 2 ) − 2 ( E ( X ) ) 2 + ( E ( X ) ) 2 = E ( X 2 ) − ( E ( X ) ) 2 \begin{aligned} D(X) &=E(X-E(X))^2 \\ &= E[X^2 - 2XE(X) + (E(X))^2] \\ &=E(X^2) - E(2XE(X)) + E[(E(X))^2] \\ &= E(X^2) - 2(E(X))^2 + (E(X))^2 \\ &= E(X^2) - (E(X))^2 \end{aligned} D(X)=E(X−E(X))2=E[X2−2XE(X)+(E(X))2]=E(X2)−E(2XE(X))+E[(E(X))2]=E(X2)−2(E(X))2+(E(X))2=E(X2)−(E(X))2

二维随机变量

1. 期望

二维离散型随机变量 (X, Y) 的分布律:
P { X = x i , Y = y j } = p i j i , j = 1 , 2 , . . . P\{X=x_i, Y=y_j\}=p_{ij} \quad i,j=1,2,... P{X=xi,Y=yj}=piji,j=1,2,...

二维连续型随机变量 (X, Y) 的概率密度函数 f ( x , y ) f(x, y) f(x,y)

假设二维随机变量的函数为 g ( X , Y ) g(X, Y) g(X,Y),则:
离散场景
E ( g ( X , Y ) ) = ∑ i = 0 n ∑ j = 0 n g ( x i , y j ) p i j E(g(X, Y))= {\color{blue}{\sum_{i=0}^n \sum_{j=0}^n}}{\color{purple}{g(x_i, y_j)}}{\color{green}{p_{ij}}} E(g(X,Y))=i=0∑nj=0∑ng(xi,yj)pij

连续场景
E ( g ( X , Y ) ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞   g ( x , y )   f ( x , y )   d x   d y E(g(X, Y)) ={\color{blue}{\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}}} \, {\color{purple}{g(x, y)}} \, {\color{green}{f(x, y) \, dx \, dy}} E(g(X,Y))=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy

无论离散还是连续,都可以理解为三方部分:求和、函数值、概率,的乘积。

2. 期望的性质

例如: g ( X , Y ) = X + Y g(X, Y) = X + Y g(X,Y)=X+Y

1) 和的期望等于期望的和
E ( X + Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ ( x + y ) f ( x , y ) d x d y = ∫ − ∞ + ∞ x ( ∫ − ∞ + ∞ f ( x , y ) d y ) d x + ∫ − ∞ + ∞ y ( ∫ − ∞ + ∞ f ( x , y ) d x ) d y = ∫ − ∞ + ∞ x f X d x + ∫ − ∞ + ∞ y f Y d y = E ( X ) + E ( Y ) \begin{aligned} E(X + Y) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} (x+y)f(x, y)dxdy \\ &=\int_{-\infty}^{+\infty}x(\int_{-\infty}^{+\infty}f(x, y)dy)dx + \int_{-\infty}^{+\infty}y(\int_{-\infty}^{+\infty}f(x, y)dx)dy \\ &=\int_{-\infty}^{+\infty}xf_Xdx + \int_{-\infty}^{+\infty}yf_Ydy \\ &=E(X) + E(Y) \end{aligned} E(X+Y)=∫−∞+∞∫−∞+∞(x+y)f(x,y)dxdy=∫−∞+∞x(∫−∞+∞f(x,y)dy)dx+∫−∞+∞y(∫−∞+∞f(x,y)dx)dy=∫−∞+∞xfXdx+∫−∞+∞yfYdy=E(X)+E(Y)

推广:
E ( ∑ k = 1 n X k ) = ∑ k = 1 n E ( X k ) E(\sum_{k=1}^nX_k) = \sum_{k=1}^nE(X_k) E(∑k=1nXk)=∑k=1nE(Xk)

2) 若随机变量X、Y相互独立,则 E(XY) = E(X)E(Y)
E ( X Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ x y f ( x , y ) d x d y = ∫ − ∞ + ∞ ∫ − ∞ + ∞ x y f X ( x ) f Y ( y ) d x d y = ∫ − ∞ + ∞ x f X ( x ) d x ⋅ ∫ − ∞ + ∞ y f Y ( y ) d y = E ( X ) ⋅ E ( Y ) \begin{aligned} E(XY) &=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} xy{\color{red}{f(x,y)}}dxdy \\ &=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} xy{\color{red}{f_X(x)f_Y(y)}}dxdy \\ &=\int_{-\infty}^{+\infty}xf_X(x)dx \cdot \int_{-\infty}^{+\infty}yf_Y(y)dy \\ &= E(X) \cdot E(Y) \end{aligned} E(XY)=∫−∞+∞∫−∞+∞xyf(x,y)dxdy=∫−∞+∞∫−∞+∞xyfX(x)fY(y)dxdy=∫−∞+∞xfX(x)dx⋅∫−∞+∞yfY(y)dy=E(X)⋅E(Y)

其中绿色部分是有变量 X、Y相互独立得出

3. 协方差

例如: g ( X , Y ) = X + Y g(X, Y) = X + Y g(X,Y)=X+Y

D ( X + Y ) = E ( X + Y ) 2 − ( E ( X + Y ) ) 2 = E ( X + Y ) 2 − ( E ( X ) + E ( Y ) ) 2 = E ( X 2 ) + E ( Y 2 ) + 2 E ( X Y ) − ( E ( X ) ) 2 − ( E ( Y ) ) 2 − 2 E ( X ) E ( Y ) = D ( X ) + D ( Y ) + 2 ( E ( X Y ) − E ( X ) E ( Y ) ) \begin{aligned} D(X+Y) &= E(X+Y)^2 - (E(X+Y))^2 \\ &= E(X+Y)^2 - (E(X) + E(Y))^2 \\ &=E(X^2) + E(Y^2) + 2E(XY) - (E(X))^2 - (E(Y))^2 - 2 E(X)E(Y) \\ &=D(X) + D(Y) + 2({\color{blue}{E(XY) - E(X)E(Y)}}) \end{aligned} D(X+Y)=E(X+Y)2−(E(X+Y))2=E(X+Y)2−(E(X)+E(Y))2=E(X2)+E(Y2)+2E(XY)−(E(X))2−(E(Y))2−2E(X)E(Y)=D(X)+D(Y)+2(E(XY)−E(X)E(Y))

定义上述式子中蓝色部分为协方差,即
C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X, Y) = E(XY) - E(X)E(Y) Cov(X,Y)=E(XY)−E(X)E(Y)

等价表达式:
C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X, Y) = E\{[X - E(X)][Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}

4. 协方差性质

性质1 若随机变量X、Y相互独立,则 C o v ( X , Y ) = 0 Cov(X, Y) = 0 Cov(X,Y)=0,反之不然
性质2 D ( X + Y ) = D ( X ) + D ( Y ) + 2 C o v ( X , Y ) D(X+Y) = D(X) + D(Y) + 2Cov(X, Y) D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
性质3 C o v ( X , X ) = D ( X ) Cov(X, X)=D(X) Cov(X,X)=D(X)
性质4 C o v ( a X , b X ) = a b C o v ( X , Y ) Cov(aX, bX)=abCov(X, Y) Cov(aX,bX)=abCov(X,Y)
性质5 C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1 + X_2, Y)=Cov(X_1, Y) + Cov(X_2, Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

5. 标准化

随机变量 X,Y 标准化:
X ∗ = X − E ( X ) D ( X ) = X − μ 1 σ 1 X^* = \frac{X-E(X)}{\sqrt{D(X)}}=\frac{X-\mu_1}{\sigma_1} X∗=D(X) X−E(X)=σ1X−μ1
Y ∗ = Y − E ( Y ) D ( Y ) = Y − μ 2 σ 2 Y^* = \frac{Y-E(Y)}{\sqrt{D(Y)}}=\frac{Y-\mu_2}{\sigma_2} Y∗=D(Y) Y−E(Y)=σ2Y−μ2

可以推出:
E ( X ∗ ) = E ( X − μ 1 σ 1 ) = 1 σ 1 ( E ( X ) − μ 1 ) = 0 E(X^*) = E(\frac{X-\mu_1}{\sigma_1})=\frac{1}{\sigma_1}(E(X)-\mu_1)=0 E(X∗)=E(σ1X−μ1)=σ11(E(X)−μ1)=0

D ( X ∗ ) = D ( X − μ 1 σ 1 ) = 1 σ 1 2 D ( X ) = 1 D(X^*) = D(\frac{X-\mu_1}{\sigma_1})=\frac{1}{\sigma_1^2}D(X)=1 D(X∗)=D(σ1X−μ1)=σ121D(X)=1

可以推出:任意随机变量经过标准化后其期望为0,方差为1

随机变量 X,Y 的相关系数:
C o v ( X ∗ , Y ∗ ) = C o v ( X − μ 1 σ 1 , Y − μ 2 σ 2 ) = 1 σ 1 σ 2 ⋅ C o v ( X , Y ) = C o v ( X , Y ) D ( X ) ⋅ D ( Y ) \begin{aligned} Cov(X^*, Y^*) &=Cov(\frac{X-\mu_1}{\sigma_1}, \frac{Y-\mu_2}{\sigma_2}) \\ &= \frac{1}{\sigma_1\sigma_2} \cdot Cov(X, Y) \\ &= {\color{blue}{\frac{Cov(X, Y)}{\sqrt{D(X)} \cdot \sqrt{D(Y)}}}} \end{aligned} Cov(X∗,Y∗)=Cov(σ1X−μ1,σ2Y−μ2)=σ1σ21⋅Cov(X,Y)=D(X) ⋅D(Y) Cov(X,Y)

上述式子中的蓝色部分定义为相关系数,即
ρ x y = C o v ( X , Y ) D ( X ) ⋅ D ( Y ) \rho_{xy}=\frac{Cov(X, Y)}{\sqrt{D(X)} \cdot \sqrt{D(Y)}} ρxy=D(X) ⋅D(Y) Cov(X,Y)

其中,相关系数恒在 -1 到 1 之间。

矩估计

样本矩(频率分布) 总体矩(概率分布)
k阶矩 α k = 1 n ∑ i = 1 n x i k \alpha_k=\frac{1}{n}\sum_{i=1}^nx_i^k αk=n1∑i=1nxik E ( X k ) = A k E(X^k)=A_k E(Xk)=Ak
样本均值 x ˉ = α 1 \bar{x}=\alpha_1 xˉ=α1 E ( X ) = A 1 E(X)=A_1 E(X)=A1
样本方差 s 2 = 1 n − 1 ( ∑ i = 1 n x i 2 − n x ˉ 2 ) = n n − 1 ( α 2 − α 1 2 ) s^2=\frac{1}{n-1}(\sum_{i=1}^nx_i^2 - n\bar{x}^2) =\frac{n}{n-1}(\alpha_2 - \alpha_1^2) s2=n−11(∑i=1nxi2−nxˉ2)=n−1n(α2−α12) D ( X ) = E ( X 2 ) − ( E ( X ) ) 2 = A 2 − A 1 2 D(X)=E(X^2)-(E(X))^2=A_2 - A_1^2 D(X)=E(X2)−(E(X))2=A2−A12

补充:
一维随机样本方差公式
s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 s^2 = \frac{\sum_{i=1}^n(x_i - \bar{x})^2}{n-1} s2=n−1∑i=1n(xi−xˉ)2
二维随机样本协方差公式
C o v x y = ∑ i = 1 n ( x i − μ x ) ( y i − μ y ) n − 1 Cov_{xy}=\frac{\sum_{i=1}^n(x_i-\mu_x)(y_i-\mu_y)}{n-1} Covxy=n−1∑i=1n(xi−μx)(yi−μy)

协方差反映的是两个维度之间的相关性

二维以上计算协方差用的是协方差矩阵,反映的是各个维度之间的关系

问题1:为什么样本方差公式中分母是 n-1

场景:求 α \alpha α取到何值时, f ( α ) = ∑ i = 1 n ( X i − α ) f(\alpha)=\sum_{i=1}^n(X_i - \alpha) f(α)=∑i=1n(Xi−α)取到极小值?

原式子:
f ( α ) = ( x 1 − α ) 2 + ( x 2 − α ) 2 + . . . + ( x n − α ) 2 f(\alpha)=(x_1-\alpha)^2 + (x_2-\alpha)^2 + ... +(x_n-\alpha)^2 f(α)=(x1−α)2+(x2−α)2+...+(xn−α)2

求一阶导数,让其等于0
f ′ ( α ) = − ( 2 ( x 1 − α ) + 2 ( x 2 − α ) + . . . + 2 ( x n − α ) ) = 0 f'(\alpha)=-(2(x_1-\alpha)+2(x_2-\alpha)+...+2(x_n-\alpha))=0 f′(α)=−(2(x1−α)+2(x2−α)+...+2(xn−α))=0


2 ( x 1 − α ) + 2 ( x 2 − α ) + . . . + 2 ( x n − α ) = 0 \begin{aligned} 2(x_1-\alpha)+2(x_2-\alpha)+...+2(x_n-\alpha) = 0 \end{aligned} 2(x1−α)+2(x2−α)+...+2(xn−α)=0
( x 1 + x 2 + . . . + x n ) − n α = 0 \begin{aligned} (x_1+x_2+...+x_n) - n\alpha= 0 \end{aligned} (x1+x2+...+xn)−nα=0
α = x 1 + x 2 + . . . + x n n = x ˉ \begin{aligned} \alpha = \frac{x_1+x_2+...+x_n}{n} = \bar{x} \end{aligned} α=nx1+x2+...+xn=xˉ

这样我们就有结论:
∑ i = 1 n ( X i − μ ) 2 ≥ ∑ i = 1 n ( X i − X ˉ ) 2 \sum_{i=1}^n(X_i- \mu)^2 \geq \sum_{i=1}^n(X_i-\bar{X})^2 i=1∑n(Xi−μ)2≥i=1∑n(Xi−Xˉ)2

其中 μ \mu μ 是总体的均值即期望, X ˉ \bar{X} Xˉ是样本的均值。

如果样本方差分母仍然保持 n,那有上面的不等式,可知样本方差就不能很好的估计总体方差了

所以,为了更准确估计总体,需要调小样本方差公式的分母,让其小于n,但需要小多少?

从自由度角度理解为什么样本方差分母是 n-1

样本方差分母应是其对应的自由度

自由度,是计算某一统计量,取值不受限的变量个数。

简单理解,就是能贡献信息的变量个数

求样本均值时,用到了 X ˉ = x 1 + x 2 + . . . + x n n \bar{X}=\frac{x_1+x_2+...+x_n}{n} Xˉ=nx1+x2+...+xn,由于公式分子中引入了 X ˉ \bar{X} Xˉ 也就相当于增加了一个约束条件,在约束条件下,有效变量个数是 n-1。

因为第n个变量,可以有约束条件计算出来,即 x n = n X ˉ − ( x 1 + x 2 + . . . + x n − 1 ) x_n=n\bar{X}-(x_1+x_2+...+x_{n-1}) xn=nXˉ−(x1+x2+...+xn−1)

公式推导

什么是无偏估计量?当我们用样本统计量来估计总体参数时,如果估计量的数学期望等于被估计参数的真实值 ,我们称该估计量为被估计参数的无偏估计

样本统计量 s 2 s^2 s2,总体参数 σ 2 \sigma^2 σ2。无偏估计即为:
E ( S 2 ) = σ 2 E(S^2)=\sigma^2 E(S2)=σ2

证明上述等式:
E ( s 2 ) = E ( 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( x i − μ + μ − x ˉ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( ( x i − μ ) + ( μ − x ˉ ) ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( ( x i − μ ) 2 + 2 ( x i − μ ) ( μ − x ˉ ) + ( μ − x ˉ ) 2 ) ) = E ( 1 n − 1 ∑ i = 1 n ( x i − μ ) 2 ) + E ( 1 n − 1 ∑ i = 1 n 2 ( x i − μ ) ( μ − x ˉ ) ) + E ( 1 n − 1 ∑ i = 1 n ( μ − x ˉ ) 2 ) \begin{aligned} E(s^2)&=E\left(\frac{1}{n-1}\sum_{i=1}^n(x_i - \bar{x})^2\right)\\ &=E\left(\frac{1}{n-1}\sum_{i=1}^n(x_i - \mu + \mu - \bar{x})^2 \right)\\ &=E\left(\frac{1}{n-1}\sum_{i=1}^n((x_i - \mu) + (\mu - \bar{x}))^2\right) \\ &=E\left(\frac{1}{n-1}\sum_{i=1}^n((x_i - \mu)^2 + 2(x_i-\mu)(\mu - \bar{x}) + (\mu-\bar{x})^2)\right) \\ &=E\left(\frac{1}{n-1}\sum_{i=1}^n(x_i-\mu)^2\right) + E\left(\frac{1}{n-1}\sum_{i=1}^n2(x_i-\mu)(\mu-\bar{x})\right) + E\left(\frac{1}{n-1}\sum_{i=1}^n(\mu-\bar{x})^2\right) \end{aligned} E(s2)=E(n−11i=1∑n(xi−xˉ)2)=E(n−11i=1∑n(xi−μ+μ−xˉ)2)=E(n−11i=1∑n((xi−μ)+(μ−xˉ))2)=E(n−11i=1∑n((xi−μ)2+2(xi−μ)(μ−xˉ)+(μ−xˉ)2))=E(n−11i=1∑n(xi−μ)2)+E(n−11i=1∑n2(xi−μ)(μ−xˉ))+E(n−11i=1∑n(μ−xˉ)2)

第一部分:
E ( 1 n − 1 ∑ i = 1 n ( x i − μ ) 2 ) = 1 n − 1 ∑ i = 1 n E ( x i − μ ) 2 = 1 n − 1 ∑ i = 1 n σ 2 = n n − 1 σ 2 \begin{aligned} E\left(\frac{1}{n-1}\sum_{i=1}^n(x_i-\mu)^2\right) &= \frac{1}{n-1}\sum_{i=1}^n{\color{red}{E(x_i - \mu)^2}} \\ &= \frac{1}{n-1}\sum_{i=1}^n{\color{red}{\sigma^2}} \\ &=\frac{n}{n-1}{\color{red}{\sigma^2}} \end{aligned} E(n−11i=1∑n(xi−μ)2)=n−11i=1∑nE(xi−μ)2=n−11i=1∑nσ2=n−1nσ2

第二部分:
E ( 1 n − 1 ∑ i = 1 n 2 ( x i − μ ) ( μ − x ˉ ) ) = 2 n − 1 E ( ∑ i = 1 n ( x i − μ ) ( μ − x ˉ ) ) = 2 n − 1 E ( ( μ − x ˉ ) ∑ i = 1 n ( x i − μ ) ) = 2 n − 1 E ( ( μ − x ˉ ) n ( x ˉ − μ ) ) = 2 ( − n ) n − 1 E ( ( x ˉ − μ ) 2 ) \begin{aligned} E\left(\frac{1}{n-1}\sum_{i=1}^n2(x_i-\mu)(\mu-\bar{x})\right) &=\frac{2}{n-1}E\left(\sum_{i=1}^n(x_i - \mu)(\mu-\bar{x})\right) \\ &=\frac{2}{n-1}E\left((\mu-\bar{x}){\color{red}{\sum_{i=1}^n(x_i - \mu)}}\right) \\ &=\frac{2}{n-1}E\left( (\mu-\bar{x}){\color{red}{n(\bar{x}-\mu)}} \right) \\ &=\frac{2(-n)}{n-1}E\left( (\bar{x}-\mu)^2\right) \\ \end{aligned} E(n−11i=1∑n2(xi−μ)(μ−xˉ))=n−12E(i=1∑n(xi−μ)(μ−xˉ))=n−12E((μ−xˉ)i=1∑n(xi−μ))=n−12E((μ−xˉ)n(xˉ−μ))=n−12(−n)E((xˉ−μ)2)

第三部分:
E ( 1 n − 1 ∑ i = 1 n ( μ − x ˉ ) 2 ) = E ( n n − 1 ( μ − x ˉ ) 2 ) = n n − 1 E ( ( μ − x ˉ ) 2 ) \begin{aligned} E\left(\frac{1}{n-1}\sum_{i=1}^n(\mu-\bar{x})^2\right) &= E\left( \frac{n}{n-1}(\mu-\bar{x})^2\right) \\ &=\frac{n}{n-1}E\left( (\mu-\bar{x})^2\right) \end{aligned} E(n−11i=1∑n(μ−xˉ)2)=E(n−1n(μ−xˉ)2)=n−1nE((μ−xˉ)2)

由此可知,原式子:
E ( s 2 ) = n n − 1 σ 2 + 2 ( − n ) n − 1 E ( ( x ˉ − μ ) 2 ) + n n − 1 E ( ( μ − x ˉ ) 2 ) = n n − 1 σ 2 + ( − n ) n − 1 E ( ( x ˉ − μ ) 2 ) = n n − 1 σ 2 + ( − n ) n − 1 1 n σ 2 = σ 2 \begin{aligned} E(s^2) &= \frac{n}{n-1}\sigma^2 + \frac{2(-n)}{n-1}E\left( (\bar{x}-\mu)^2\right) + \frac{n}{n-1}E\left( (\mu-\bar{x})^2\right) \\ &=\frac{n}{n-1}\sigma^2 + \frac{(-n)}{n-1}{\color{red}{E\left( (\bar{x}-\mu)^2\right)}} \\ &=\frac{n}{n-1}\sigma^2 + \frac{(-n)}{n-1}{\color{red}{ \frac{1}{n} \sigma^2}} \\ &= \sigma^2 \end{aligned} E(s2)=n−1nσ2+n−12(−n)E((xˉ−μ)2)+n−1nE((μ−xˉ)2)=n−1nσ2+n−1(−n)E((xˉ−μ)2)=n−1nσ2+n−1(−n)n1σ2=σ2

其中,样本均值是无偏的,可得:
E ( ( x ˉ − μ ) 2 ) = E ( x ˉ − E ( x ˉ ) ) 2 = v a r ( x ˉ ) = v a r ( ∑ i = 1 n x i n ) = 1 n 2 v a r ( ∑ i = 1 n x i ) = 1 n 2 ∑ i = 1 n v a r ( x i ) = 1 n 2 n σ 2 = 1 n σ 2 \begin{aligned} E\left( (\bar{x}-\mu)^2\right) &= E(\bar{x}-E(\bar{x}))^2 =var(\bar{x}) \\ &=var\left( \frac{\sum_{i=1}^nx_i}{n} \right) \\ &=\frac{1}{n^2}var\left( \sum_{i=1}^nx_i \right) \\ &=\frac{1}{n^2} \sum_{i=1}^n {\color{red}{var(x_i)}} \\ &=\frac{1}{n^2} n {\color{red}{\sigma^2}} = \frac{1}{n} \sigma^2 \end{aligned} E((xˉ−μ)2)=E(xˉ−E(xˉ))2=var(xˉ)=var(n∑i=1nxi)=n21var(i=1∑nxi)=n21i=1∑nvar(xi)=n21nσ2=n1σ2

x i x_i xi 之间是相互独立的,所以 v a r ( ∑ i = 1 n x i ) = ∑ i = 1 n v a r ( x i ) var\left( \sum_{i=1}^nx_i \right)= \sum_{i=1}^n var(x_i) var(∑i=1nxi)=∑i=1nvar(xi)

问题2:多维随机变量的协方差矩阵怎么计算?

二维随机样本协方差公式
C o v x y = ∑ i = 1 n ( x i − μ x ) ( y i − μ y ) n − 1 Cov_{xy}=\frac{\sum_{i=1}^n(x_i-\mu_x)(y_i-\mu_y)}{n-1} Covxy=n−1∑i=1n(xi−μx)(yi−μy)

多维的情况下,是两两协方差

总体协方差时,分母是 n;样本协方差时,分母是 n-1

举例:多维数据如下

Student Math English Art
1 90 60 90
2 90 90 30
3 60 60 60
4 60 60 90
5 30 30 30

第一步:计算均值

Math:66,English:60,Art:60

即均值向量为 μ = ( 66 , 60 , 60 ) \bm{\mu}=(66, 60, 60) μ=(66,60,60)

第二步:计算差值矩阵

均值向量按照数据数量(示例中是5)纵向展开,得到均值矩阵,原数据矩阵与均值矩阵作差

A = [ 90 60 90 90 90 30 60 60 60 60 60 90 30 30 30 ] − [ 66 60 60 66 60 60 66 60 60 66 60 60 66 60 60 ] = [ 24 0 30 24 30 − 30 − 6 0 0 − 6 0 30 − 36 − 30 − 30 ] \begin{aligned} A &= \begin{bmatrix} 90 & 60 & 90 \\ 90 & 90 & 30 \\ 60 & 60 & 60 \\ 60 & 60 & 90 \\ 30 & 30 & 30 \end{bmatrix} - \begin{bmatrix} 66 & 60 & 60 \\ 66 & 60 & 60 \\ 66 & 60 & 60 \\ 66 & 60 & 60 \\ 66 & 60 & 60 \\ \end{bmatrix} \\ &= \begin{bmatrix} 24 & 0 & 30 \\ 24 & 30 & -30 \\ -6 & 0 & 0 \\ -6 & 0 & 30 \\ -36 & -30 & -30 \\ \end{bmatrix} \end{aligned} A= 909060603060906060309030609030 − 666666666660606060606060606060 = 2424−6−6−3603000−3030−30030−30

第三步:根据差值矩阵,计算维度彼此间的协方差
Σ = [ C o v 11 C o v 12 C o v 13 C o v 21 C o v 22 C o v 23 C o v 31 C o v 32 C o v 33 ] \boldsymbol{\Sigma} = \begin{bmatrix} Cov_{11} & Cov_{12} & Cov_{13} \\ Cov_{21} & Cov_{22} & Cov_{23} \\ Cov_{31} & Cov_{32} & Cov_{33} \\ \end{bmatrix} Σ= Cov11Cov21Cov31Cov12Cov22Cov32Cov13Cov23Cov33

结合二维随机变量协方差公式,可得
为了方便公式书写,计算都没有除以 n
n ⋅ C o v 11 = ∑ i = 1 n A i 1 ⋅ A i 1 = 24 ∗ 24 + 24 ∗ 24 + ( − 6 ) ∗ ( − 6 ) + ( − 6 ) ∗ ( − 6 ) + ( − 36 ) ∗ ( − 36 ) = 2520 \begin{aligned} n \cdot Cov_{11}&=\sum_{i=1}^n A_{i1} \cdot A_{i1} \\ &= 24*24 + 24*24 + (-6)*(-6) + (-6)*(-6) + (-36)*(-36) \\ &= 2520 \end{aligned} n⋅Cov11=i=1∑nAi1⋅Ai1=24∗24+24∗24+(−6)∗(−6)+(−6)∗(−6)+(−36)∗(−36)=2520
n ⋅ C o v 23 = ∑ i = 1 n A i 2 ⋅ A i 3 = 0 ∗ 30 + 30 ∗ ( − 30 ) + 0 ∗ 0 + 0 ∗ 30 + ( − 30 ) ∗ ( − 30 ) = 0 \begin{aligned} n \cdot Cov_{23}&=\sum_{i=1}^n A_{i2} \cdot A_{i3} \\ &= 0*30 + 30*(-30) + 0*0 + 0*30 + (-30)*(-30) \\ &= 0 \end{aligned} n⋅Cov23=i=1∑nAi2⋅Ai3=0∗30+30∗(−30)+0∗0+0∗30+(−30)∗(−30)=0

依次计算可得:
Σ = 1 n ⋅ [ 2520 1800 900 1800 1800 0 900 0 3600 ] = [ 504 360 180 360 360 0 180 0 720 ] \boldsymbol{\Sigma} = \frac{1}{n} \cdot \begin{bmatrix} 2520 & 1800 & 900 \\ 1800 & 1800 & 0 \\ 900 & 0 & 3600 \\ \end{bmatrix} = \begin{bmatrix} 504 & 360 & 180 \\ 360 & 360 & 0 \\ 180 & 0 & 720 \\ \end{bmatrix} Σ=n1⋅ 2520180090018001800090003600 = 50436018036036001800720

这里我们把原始数据集当做总体,协方差公式的分母用 n

至此,结束。

相关推荐
啊阿狸不会拉杆3 天前
人工智能数学基础(五):概率论
人工智能·python·数学·算法·概率论
__lost3 天前
概率论与统计(不确定性分析)主要应用在什么方面?涉及到具体知识是什么?
概率论
灏瀚星空7 天前
从基础到实战的量化交易全流程学习:1.3 数学与统计学基础——概率与统计基础 | 基础概念
笔记·python·学习·金融·概率论
搏博7 天前
专家系统的基本概念解析——基于《人工智能原理与方法》的深度拓展
人工智能·python·深度学习·算法·机器学习·概率论
BlackPercy14 天前
【概率论】条件期望
概率论
高山莫衣18 天前
【差分隐私相关概念】瑞丽差分隐私(RDP)引理1
概率论·差分隐私
高山莫衣18 天前
【差分隐私相关概念】瑞丽差分隐私(RDP)命题4
概率论·差分隐私
高山莫衣19 天前
【差分隐私相关概念】瑞丽差分隐私(RDP)-命题1
概率论·差分隐私
蹦蹦跳跳真可爱58919 天前
Python----概率论与统计(随机变量,离散概率分布,连续概率分布,期望,方差,标准差,多维随机变量)
概率论