数字特征是用数值简洁地描述随机变量分布的重要属性。本讲将系统讲解期望、方差、协方差与相关系数,以及高阶矩、偏度和峰度。这些概念是概率论与统计学的核心,也是机器学习中模型评估与推断的基础。
1. 期望
1.1 定义
期望(Expectation)是随机变量取值的加权平均,反映了分布的"中心位置"。
加权平均是一种数学计算方法,它是指在计算平均数时,根据每个数值的重要性(即"权重")赋予不同的比重,而不是简单地将所有数值平等对待。
要理解加权平均,可以先对比一下算术平均:
- 算术平均:把所有数值加起来,除以数值的个数。它假设每个数值的重要性相同。
- 加权平均:每个数值先乘以各自的权重,将乘积相加,再除以权重的总和。
公式表达 :
加权平均数 = 数值 1 × 权重 1 + 数值 2 × 权重 2 + ... 权重 1 + 权重 2 + ... \text{加权平均数} = \frac{\text{数值}_1 \times \text{权重}_1 + \text{数值}_2 \times \text{权重}_2 + \ldots}{\text{权重}_1 + \text{权重}_2 + \ldots} 加权平均数=权重1+权重2+...数值1×权重1+数值2×权重2+...
- 离散随机变量 :设 X X X 取值为 x 1 , x 2 , ... x_1, x_2, \dots x1,x2,...,概率质量函数为 p ( x ) p(x) p(x),则
E [ X ] = ∑ i x i p ( x i ) E[X] = \sum_{i} x_i p(x_i) E[X]=i∑xip(xi)
- 连续随机变量 :设 X X X 的概率密度函数为 f ( x ) f(x) f(x),则
E [ X ] = ∫ − ∞ ∞ x f ( x ) d x E[X] = \int_{-\infty}^{\infty} x f(x) \, dx E[X]=∫−∞∞xf(x)dx
例1(离散) :掷一枚公平骰子,点数 X X X 的期望为
E [ X ] = 1 6 ( 1 + 2 + 3 + 4 + 5 + 6 ) = 3.5 E[X] = \frac{1}{6}(1+2+3+4+5+6) = 3.5 E[X]=61(1+2+3+4+5+6)=3.5
例2(连续) :均匀分布 U ( a , b ) U(a,b) U(a,b) 的期望为
E [ X ] = ∫ a b x ⋅ 1 b − a d x = 1 b − a ∫ a b x ⋅ d x = 1 b − a ⋅ b 2 − a 2 2 = a + b 2 E[X] = \int_a^b x \cdot \frac{1}{b-a} \, dx = \frac{1}{b-a}\int_a^b x \cdot dx = \frac{1}{b-a} \cdot \frac{b^2 - a^2}{2} = \frac{a+b}{2} E[X]=∫abx⋅b−a1dx=b−a1∫abx⋅dx=b−a1⋅2b2−a2=2a+b
1.2 线性性质
期望最重要的性质是线性 :对于任意常数 a , b a, b a,b 和任意随机变量 X , Y X, Y X,Y,
E [ a X + b Y + c ] = a E [ X ] + b E [ Y ] + c E[aX + bY + c] = aE[X] + bE[Y] + c E[aX+bY+c]=aE[X]+bE[Y]+c
该性质对任意依赖关系都成立,无需独立。
推导 :由积分/求和的线性性直接可得。例如连续情形:
E [ a X + b Y + c ] = ∫ ( a x + b y + c ) f ( x , y ) d x d y = a ∫ x f X ( x ) d x + b ∫ y f Y ( y ) d y + c E[aX+bY+c] = \int (ax+by+c) f(x,y) dxdy = a\int x f_X(x)dx + b\int y f_Y(y)dy + c E[aX+bY+c]=∫(ax+by+c)f(x,y)dxdy=a∫xfX(x)dx+b∫yfY(y)dy+c
例3 :设 X X X 为骰子点数, Y = 2 X + 1 Y = 2X + 1 Y=2X+1,则 E [ Y ] = 2 E [ X ] + 1 = 2 × 3.5 + 1 = 8 E[Y] = 2E[X] + 1 = 2\times 3.5 + 1 = 8 E[Y]=2E[X]+1=2×3.5+1=8。
1.3 条件期望
条件期望是给定某些信息后对随机变量的期望。
对于离散情形,给定 Y = y Y=y Y=y 时 X X X 的条件期望为:
E [ X ∣ Y = y ] = ∑ x x p X ∣ Y ( x ∣ y ) E[X \mid Y=y] = \sum_x x \, p_{X|Y}(x|y) E[X∣Y=y]=x∑xpX∣Y(x∣y)
对于连续情形,给定 Y = y Y=y Y=y 时 X X X 的条件期望为:
E [ X ∣ Y = y ] = ∫ x f X ∣ Y ( x ∣ y ) d x E[X \mid Y=y] = \int x f_{X|Y}(x|y) dx E[X∣Y=y]=∫xfX∣Y(x∣y)dx
条件期望本身是 Y Y Y 的函数,记作 E [ X ∣ Y ] E[X \mid Y] E[X∣Y]。全期望公式 (Law of Total Expectation):
E [ X ] = E [ E [ X ∣ Y ] ] E[X] = E[E[X \mid Y]] E[X]=E[E[X∣Y]]
即先对条件期望取期望,得到无条件期望。该公式在分层抽样、贝叶斯推断中非常重要。
例4 :设某工厂有两个车间,A车间产量占60%,次品率1%;B车间占40%,次品率2%。随机取一件产品,定义 X = 1 X=1 X=1 为次品, Y Y Y 为车间标识。则
E [ X ∣ Y = A ] = 0.01 , E [ X ∣ Y = B ] = 0.02 E [ X ] = E [ E [ X ∣ Y ] ] = 0.6 × 0.01 + 0.4 × 0.02 = 0.014 E[X \mid Y=A] = 0.01,\quad E[X \mid Y=B] = 0.02 \\ E[X] = E[E[X\mid Y]] = 0.6\times 0.01 + 0.4\times 0.02 = 0.014 E[X∣Y=A]=0.01,E[X∣Y=B]=0.02E[X]=E[E[X∣Y]]=0.6×0.01+0.4×0.02=0.014
2. 方差
2.1 定义
方差(Variance)衡量随机变量偏离其均值的程度:
Var ( X ) = E [ ( X − μ ) 2 ] , μ = E [ X ] \operatorname{Var}(X) = E[(X - \mu)^2], \quad \mu = E[X] Var(X)=E[(X−μ)2],μ=E[X]
常用计算式:
Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 \operatorname{Var}(X) = E[X^2] - (E[X])^2 Var(X)=E[X2]−(E[X])2
2.2 重要性质
-
平移不变性 : Var ( X + c ) = Var ( X ) \operatorname{Var}(X + c) = \operatorname{Var}(X) Var(X+c)=Var(X)。
-
尺度变换 : Var ( a X ) = a 2 Var ( X ) \operatorname{Var}(aX) = a^2 \operatorname{Var}(X) Var(aX)=a2Var(X);合并为: Var ( a X + b ) = a 2 Var ( X ) \operatorname{Var}(aX + b) = a^2 \operatorname{Var}(X) Var(aX+b)=a2Var(X)。
-
方差与和 :对于任意 X , Y X, Y X,Y,
Var ( X + Y ) = Var ( X ) + Var ( Y ) + 2 Cov ( X , Y ) \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X,Y) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)若 X X X 与 Y Y Y 独立,则
Var ( X + Y ) = Var ( X ) + Var ( Y ) \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) Var(X+Y)=Var(X)+Var(Y)
性质推导 :
Var ( a X + b ) = E [ ( a X + b − a μ − b ) 2 ] = E [ a 2 ( X − μ ) 2 ] = a 2 Var ( X ) \operatorname{Var}(aX+b) = E[(aX+b - a\mu - b)^2] = E[a^2(X-\mu)^2] = a^2\operatorname{Var}(X) Var(aX+b)=E[(aX+b−aμ−b)2]=E[a2(X−μ)2]=a2Var(X)
例5 :设 X X X 为骰子点数,则 E [ X ] = 3.5 E[X]=3.5 E[X]=3.5, E [ X 2 ] = 1 6 ( 1 + 4 + 9 + 16 + 25 + 36 ) = 91 6 E[X^2]=\frac{1}{6}(1+4+9+16+25+36)=\frac{91}{6} E[X2]=61(1+4+9+16+25+36)=691,所以
Var ( X ) = 91 6 − ( 3.5 ) 2 = 91 6 − 49 4 = 182 − 147 12 = 35 12 ≈ 2.9167 \operatorname{Var}(X) = \frac{91}{6} - (3.5)^2 = \frac{91}{6} - \frac{49}{4} = \frac{182-147}{12} = \frac{35}{12} \approx 2.9167 Var(X)=691−(3.5)2=691−449=12182−147=1235≈2.9167
若定义 Y = 2 X + 1 Y=2X+1 Y=2X+1,则 Var ( Y ) = 4 × 35 12 = 35 3 \operatorname{Var}(Y) = 4 \times \frac{35}{12} = \frac{35}{3} Var(Y)=4×1235=335。
3. 协方差
3.1 定义
协方差衡量两个随机变量的线性相关程度,它告诉我们一个变量偏离其均值时,另一个变量是倾向于同向偏离还是反向偏离。
对于随机变量 X , Y X, Y X,Y,协方差定义为:
Cov ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − E [ X ] E [ Y ] \operatorname{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y] Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]E[Y]
3.2 符号的含义
- 正协方差 :当 X X X 大于其均值时, Y Y Y 也倾向于大于其均值; X X X 小于均值时, Y Y Y 也倾向于小于均值。即 X X X 和 Y Y Y 有"同向变动"的趋势。
- 负协方差 : X X X 大于均值时, Y Y Y 倾向于小于均值; X X X 小于均值时, Y Y Y 倾向于大于均值。即"反向变动"。
- 零协方差:没有线性相关趋势(但不一定独立)。
3.3 重要性质
- **方差是协方差的特例 **
Var ( X ) = Cov ( X , X ) \operatorname{Var}(X) = \operatorname{Cov}(X,X) Var(X)=Cov(X,X)
-
对称性
Cov ( X , Y ) = Cov ( Y , X ) \operatorname{Cov}(X,Y) = \operatorname{Cov}(Y,X) Cov(X,Y)=Cov(Y,X) -
双线性
协方差对每个变量都是线性的:
Cov ( a X + b Y , Z ) = a Cov ( X , Z ) + b Cov ( Y , Z ) Cov ( X , c Y + d Z ) = c Cov ( X , Y ) + d Cov ( X , Z ) \operatorname{Cov}(aX + bY, Z) = a\operatorname{Cov}(X,Z) + b\operatorname{Cov}(Y,Z) \\ \operatorname{Cov}(X, cY + dZ) = c\operatorname{Cov}(X,Y) + d\operatorname{Cov}(X,Z) Cov(aX+bY,Z)=aCov(X,Z)+bCov(Y,Z)Cov(X,cY+dZ)=cCov(X,Y)+dCov(X,Z) -
与常数的协方差
Cov ( X , c ) = 0 , 其中 c 为常数 . \operatorname{Cov}(X, c) = 0, \quad \text{其中 } c \text{ 为常数}. Cov(X,c)=0,其中 c 为常数. -
与独立性的关系
-
若 X X X 与 Y Y Y 独立,则 Cov ( X , Y ) = 0 \operatorname{Cov}(X,Y) = 0 Cov(X,Y)=0。
-
但逆命题不成立 :协方差为零只能说明不存在线性关系,仍可能存在非线性关系(例如 Y = X 2 Y = X^2 Y=X2 且 X X X 对称分布时,协方差为零)。
-
-
方差的线性组合公式
利用协方差可以计算和的方差:
Var ( X + Y ) = Var ( X ) + Var ( Y ) + 2 Cov ( X , Y ) \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X,Y) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)更一般地:
Var ( ∑ i = 1 n a i X i ) = ∑ i = 1 n a i 2 Var ( X i ) + 2 ∑ 1 ≤ i < j ≤ n a i a j Cov ( X i , X j ) . \operatorname{Var}\left(\sum_{i=1}^n a_i X_i\right) = \sum_{i=1}^n a_i^2 \operatorname{Var}(X_i) + 2\sum_{1\le i<j\le n} a_i a_j \operatorname{Cov}(X_i, X_j). Var(i=1∑naiXi)=i=1∑nai2Var(Xi)+21≤i<j≤n∑aiajCov(Xi,Xj).
3.4 相关系数公式
相关系数将协方差标准化,使其取值在 [ − 1 , 1 ] [-1, 1] [−1,1]:
ρ X , Y = Cov ( X , Y ) Var ( X ) Var ( Y ) = Cov ( X , Y ) σ X σ Y \rho_{X,Y} = \frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}} = \frac{\operatorname{Cov}(X,Y)}{\sigma_X \sigma_Y} ρX,Y=Var(X)Var(Y) Cov(X,Y)=σXσYCov(X,Y)
性质:
- − 1 ≤ ρ ≤ 1 -1 \le \rho \le 1 −1≤ρ≤1。
- ∣ ρ ∣ = 1 |\rho| = 1 ∣ρ∣=1 当且仅当存在线性关系 Y = a X + b Y = aX + b Y=aX+b 几乎必然成立。
- ρ = 0 \rho = 0 ρ=0 表示不线性相关,但可能存在非线性关系。
例6 :设 X ∼ N ( 0 , 1 ) X \sim N(0,1) X∼N(0,1), Y = X 2 Y = X^2 Y=X2。则 E [ X ] = 0 E[X]=0 E[X]=0, E [ Y ] = 1 E[Y]=1 E[Y]=1, E [ X Y ] = E [ X 3 ] = 0 E[XY]=E[X^3]=0 E[XY]=E[X3]=0,故 Cov ( X , Y ) = 0 \operatorname{Cov}(X,Y)=0 Cov(X,Y)=0, ρ = 0 \rho=0 ρ=0。但显然 Y Y Y 与 X X X 有强非线性关系。
4. 矩
4.1 原点矩
随机变量 X X X 的 k k k 阶原点矩定义为:
μ k ′ = E [ X k ] = ∫ x k f ( x ) d x ( 连续型 ) 或 ∑ x i k p ( x i ) ( 离散型 ) . \mu_k' = E[X^k] = \int x^k f(x)\,dx \quad (\text{连续型}) \quad\text{或}\quad \sum x_i^k p(x_i) \quad (\text{离散型}). μk′=E[Xk]=∫xkf(x)dx(连续型)或∑xikp(xi)(离散型).
- 一阶原点矩 μ 1 ′ = E [ X ] \mu_1' = E[X] μ1′=E[X] 就是均值,反映分布的中心位置(一阶原点矩即期望)。
- 二阶原点矩 μ 2 ′ = E [ X 2 ] \mu_2' = E[X^2] μ2′=E[X2] 与方差有关。
4.2 中心矩
以均值为中心的 k k k 阶中心矩定义为:
μ k = E [ ( X − μ ) k ] , μ = E [ X ] . \mu_k = E[(X - \mu)^k], \quad \mu = E[X]. μk=E[(X−μ)k],μ=E[X].
- 一阶中心矩 μ 1 = 0 \mu_1 = 0 μ1=0(恒成立)。
- 二阶中心矩 μ 2 = Var ( X ) \mu_2 = \operatorname{Var}(X) μ2=Var(X),即方差,衡量分布的离散程度。
4.3 标准化矩
为了消除量纲影响,常用标准化中心矩(即用标准差 σ = μ 2 \sigma = \sqrt{\mu_2} σ=μ2 标准化):
α k = μ k σ k . \alpha_k = \frac{\mu_k}{\sigma^k}. αk=σkμk.
其中 α 1 = 0 \alpha_1 = 0 α1=0, α 2 = 1 \alpha_2 = 1 α2=1。
5. 偏度
5.1 定义
偏度是三阶标准化中心矩 :
Skewness = α 3 = E [ ( X − μ ) 3 ] σ 3 . \text{Skewness} = \alpha_3 = \frac{E[(X - \mu)^3]}{\sigma^3}. Skewness=α3=σ3E[(X−μ)3].
5.2 含义
偏度衡量分布的不对称性,反映均值两侧数据的偏斜方向。
- 正偏(右偏) : α 3 > 0 \alpha_3 > 0 α3>0。分布右侧尾部更长,大部分数据集中在左侧,均值 > 中位数 > 众数。
例如:收入分布、卡方分布(自由度小)。 - 负偏(左偏) : α 3 < 0 \alpha_3 < 0 α3<0。左侧尾部更长,数据集中在右侧,均值 < 中位数 < 众数。
例如:考试分数(若多数人高分)、某些寿命分布。 - 对称分布 : α 3 = 0 \alpha_3 = 0 α3=0。正态分布、均匀分布等均为零偏度。
例7(离散) :考虑掷骰子分布(均匀),计算三阶中心矩:
μ 3 = E [ ( X − 3.5 ) 3 ] = 1 6 ∑ k = 1 6 ( k − 3.5 ) 3 \mu_3 = E[(X-3.5)^3] = \frac{1}{6}\sum_{k=1}^6 (k-3.5)^3 μ3=E[(X−3.5)3]=61k=1∑6(k−3.5)3
计算得 ( − 2.5 ) 3 = − 15.625 ( -2.5)^3 = -15.625 (−2.5)3=−15.625, ( − 1.5 ) 3 = − 3.375 (-1.5)^3=-3.375 (−1.5)3=−3.375, ( − 0.5 ) 3 = − 0.125 (-0.5)^3=-0.125 (−0.5)3=−0.125, ( 0.5 ) 3 = 0.125 (0.5)^3=0.125 (0.5)3=0.125, ( 1.5 ) 3 = 3.375 (1.5)^3=3.375 (1.5)3=3.375, ( 2.5 ) 3 = 15.625 (2.5)^3=15.625 (2.5)3=15.625,和为0,故 γ 1 = 0 \gamma_1=0 γ1=0,对称。
5.3 直观解释
偏度通过三次方放大离群值的影响:若右侧有极端值, (X-\\mu)\^3 为正且较大,使偏度为正;左侧极端值则使偏度为负。
6. 峰度
峰度(Kurtosis)衡量分布尾部的厚度(或峰顶的尖峭程度)。常用定义是超值峰度(excess kurtosis):
γ 2 = μ 4 σ 4 − 3 \gamma_2 = \frac{\mu_4}{\sigma^4} - 3 γ2=σ4μ4−3
减去 3 是为了使正态分布的峰度为 0。
- γ 2 > 0 \gamma_2 > 0 γ2>0:尖峰厚尾(比正态更集中在中心,尾部更厚)。
- γ 2 < 0 \gamma_2 < 0 γ2<0:平峰薄尾(分布比正态更平坦)。
- γ 2 = 0 \gamma_2 = 0 γ2=0:正态分布的参考基准。
例8 :正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 的四阶中心矩 μ 4 = 3 σ 4 \mu_4 = 3\sigma^4 μ4=3σ4,所以 γ 2 = 3 − 3 = 0 \gamma_2 = 3 - 3 = 0 γ2=3−3=0。
例9:拉普拉斯分布(双指数)的峰度大于 0(尾部比正态厚),常用于金融收益率建模。
7. 公式汇总
| 名称 | 公式 | 含义 |
|---|---|---|
| 期望 | E [ X ] = ∑ x p ( x ) E[X] = \sum x p(x) E[X]=∑xp(x) 或 ∫ x f ( x ) d x \int x f(x)dx ∫xf(x)dx | 位置中心 |
| 方差 | Var ( X ) = E [ ( X − μ ) 2 ] = E [ X 2 ] − μ 2 \operatorname{Var}(X)=E[(X-\mu)^2] = E[X^2]-\mu^2 Var(X)=E[(X−μ)2]=E[X2]−μ2 | 离散程度 |
| 协方差 | Cov ( X , Y ) = E [ X Y ] − μ X μ Y \operatorname{Cov}(X,Y)=E[XY]-\mu_X\mu_Y Cov(X,Y)=E[XY]−μXμY | 线性相关方向与强度(有量纲) |
| 相关系数 | ρ = Cov ( X , Y ) σ X σ Y \rho = \frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y} ρ=σXσYCov(X,Y) | 标准化线性相关度,范围[-1,1] |
| 原点矩 | μ k ′ = E [ X k ] \mu_k' = E[X^k] μk′=E[Xk] | 幂的期望 |
| 中心矩 | μ k = E [ ( X − μ ) k ] \mu_k = E[(X-\mu)^k] μk=E[(X−μ)k] | 围绕均值的幂期望 |
| 偏度 | γ 1 = μ 3 / σ 3 \gamma_1 = \mu_3 / \sigma^3 γ1=μ3/σ3 | 非对称性 |
| 峰度 | γ 2 = μ 4 / σ 4 − 3 \gamma_2 = \mu_4 / \sigma^4 - 3 γ2=μ4/σ4−3 | 尾部厚度(相对于正态) |
8. 总结
数字特征用简洁的数值刻画了随机变量的分布形态:
- 期望描述中心位置,线性性质使其运算便捷。
- 方差描述离散程度,是风险与不确定性的基本度量。
- 协方差与相关系数描述变量间的线性关联。
- 高阶矩(偏度、峰度)进一步揭示分布的对称性和尾部特征,在金融风险分析、机器学习特征工程中尤为重要。
掌握这些数字特征,不仅能深入理解概率分布,还能为后续的统计推断(如参数估计、假设检验)和机器学习(如损失函数设计、特征标准化)奠定基础。