机器学习概率论与统计学--(8)概率论：数字特征

数字特征是用数值简洁地描述随机变量分布的重要属性。本讲将系统讲解期望、方差、协方差与相关系数，以及高阶矩、偏度和峰度。这些概念是概率论与统计学的核心，也是机器学习中模型评估与推断的基础。

1. 期望

1.1 定义

期望（Expectation）是随机变量取值的加权平均，反映了分布的"中心位置"。

加权平均是一种数学计算方法，它是指在计算平均数时，根据每个数值的重要性（即"权重"）赋予不同的比重，而不是简单地将所有数值平等对待。

要理解加权平均，可以先对比一下算术平均：

算术平均：把所有数值加起来，除以数值的个数。它假设每个数值的重要性相同。

加权平均：每个数值先乘以各自的权重，将乘积相加，再除以权重的总和。

公式表达 ：
加权平均数 = 数值 1 × 权重 1 + 数值 2 × 权重 2 + ... 权重 1 + 权重 2 + ... \text{加权平均数} = \frac{\text{数值}_1 \times \text{权重}_1 + \text{数值}_2 \times \text{权重}_2 + \ldots}{\text{权重}_1 + \text{权重}_2 + \ldots} 加权平均数=权重1+权重2+...数值1×权重1+数值2×权重2+...

离散随机变量 ：设 X X X 取值为 x 1 , x 2 , ... x_1, x_2, \dots x1,x2,...，概率质量函数为 p ( x ) p(x) p(x)，则

E $X$ = ∑ i x i p ( x i ) E $X$ = \sum_{i} x_i p(x_i) E $X$ =i∑xip(xi)

连续随机变量 ：设 X X X 的概率密度函数为 f ( x ) f(x) f(x)，则

E $X$ = ∫ − ∞ ∞ x f ( x ) d x E $X$ = \int_{-\infty}^{\infty} x f(x) \, dx E $X$ =∫−∞∞xf(x)dx

例1（离散） ：掷一枚公平骰子，点数 X X X 的期望为
E $X$ = 1 6 ( 1 + 2 + 3 + 4 + 5 + 6 ) = 3.5 E $X$ = \frac{1}{6}(1+2+3+4+5+6) = 3.5 E $X$ =61(1+2+3+4+5+6)=3.5

例2（连续） ：均匀分布 U ( a , b ) U(a,b) U(a,b) 的期望为
E $X$ = ∫ a b x ⋅ 1 b − a d x = 1 b − a ∫ a b x ⋅ d x = 1 b − a ⋅ b 2 − a 2 2 = a + b 2 E $X$ = \int_a^b x \cdot \frac{1}{b-a} \, dx = \frac{1}{b-a}\int_a^b x \cdot dx = \frac{1}{b-a} \cdot \frac{b^2 - a^2}{2} = \frac{a+b}{2} E $X$ =∫abx⋅b−a1dx=b−a1∫abx⋅dx=b−a1⋅2b2−a2=2a+b

1.2 线性性质

期望最重要的性质是线性：对于任意常数 a , b a, b a,b 和任意随机变量 X , Y X, Y X,Y，
E $a X + b Y + c$ = a E $X$ + b E $Y$ + c E $aX + bY + c$ = aE $X$ + bE $Y$ + c E $aX+bY+c$ =aE $X$ +bE $Y$ +c

该性质对任意依赖关系都成立，无需独立。

推导：由积分/求和的线性性直接可得。例如连续情形：
E $a X + b Y + c$ = ∫ ( a x + b y + c ) f ( x , y ) d x d y = a ∫ x f X ( x ) d x + b ∫ y f Y ( y ) d y + c E $aX+bY+c$ = \int (ax+by+c) f(x,y) dxdy = a\int x f_X(x)dx + b\int y f_Y(y)dy + c E $aX+bY+c$ =∫(ax+by+c)f(x,y)dxdy=a∫xfX(x)dx+b∫yfY(y)dy+c

例3 ：设 X X X 为骰子点数， Y = 2 X + 1 Y = 2X + 1 Y=2X+1，则 E $Y$ = 2 E $X$ + 1 = 2 × 3.5 + 1 = 8 E $Y$ = 2E $X$ + 1 = 2\times 3.5 + 1 = 8 E $Y$ =2E $X$ +1=2×3.5+1=8。

1.3 条件期望

条件期望是给定某些信息后对随机变量的期望。

对于离散情形，给定 Y = y Y=y Y=y 时 X X X 的条件期望为：
E $X ∣ Y = y$ = ∑ x x p X ∣ Y ( x ∣ y ) E $X \\mid Y=y$ = \sum_x x \, p_{X|Y}(x|y) E $X∣Y=y$ =x∑xpX∣Y(x∣y)

对于连续情形，给定 Y = y Y=y Y=y 时 X X X 的条件期望为：
E $X ∣ Y = y$ = ∫ x f X ∣ Y ( x ∣ y ) d x E $X \\mid Y=y$ = \int x f_{X|Y}(x|y) dx E $X∣Y=y$ =∫xfX∣Y(x∣y)dx

条件期望本身是 Y Y Y 的函数，记作 E $X ∣ Y$ E $X \\mid Y$ E $X∣Y$ 。全期望公式 （Law of Total Expectation）：
E $X$ = E $E \[ X ∣ Y$ ] E $X$ = E $E\[X \\mid Y$ ] E $X$ =E $E\[X∣Y$ ]

即先对条件期望取期望，得到无条件期望。该公式在分层抽样、贝叶斯推断中非常重要。

例4 ：设某工厂有两个车间，A车间产量占60%，次品率1%；B车间占40%，次品率2%。随机取一件产品，定义 X = 1 X=1 X=1 为次品， Y Y Y 为车间标识。则
E $X ∣ Y = A$ = 0.01 , E $X ∣ Y = B$ = 0.02 E $X$ = E $E \[ X ∣ Y$ ] = 0.6 × 0.01 + 0.4 × 0.02 = 0.014 E $X \\mid Y=A$ = 0.01,\quad E $X \\mid Y=B$ = 0.02 \\ E $X$ = E $E\[X\\mid Y$ ] = 0.6\times 0.01 + 0.4\times 0.02 = 0.014 E $X∣Y=A$ =0.01,E $X∣Y=B$ =0.02E $X$ =E $E\[X∣Y$ ]=0.6×0.01+0.4×0.02=0.014

2. 方差

2.1 定义

方差（Variance）衡量随机变量偏离其均值的程度：
Var ⁡ ( X ) = E $( X - μ ) 2$ , μ = E $X$ \operatorname{Var}(X) = E $(X - \\mu)\^2$ , \quad \mu = E $X$ Var(X)=E $(X-μ)2$ ,μ=E $X$

常用计算式：
Var ⁡ ( X ) = E $X 2$ − ( E $X$ ) 2 \operatorname{Var}(X) = E $X\^2$ - (E $X$ )^2 Var(X)=E $X2$ −(E $X$ )2

2.2 重要性质

平移不变性 ： Var ⁡ ( X + c ) = Var ⁡ ( X ) \operatorname{Var}(X + c) = \operatorname{Var}(X) Var(X+c)=Var(X)。
尺度变换 ： Var ⁡ ( a X ) = a 2 Var ⁡ ( X ) \operatorname{Var}(aX) = a^2 \operatorname{Var}(X) Var(aX)=a2Var(X)；合并为： Var ⁡ ( a X + b ) = a 2 Var ⁡ ( X ) \operatorname{Var}(aX + b) = a^2 \operatorname{Var}(X) Var(aX+b)=a2Var(X)。
方差与和 ：对于任意 X , Y X, Y X,Y，
Var ⁡ ( X + Y ) = Var ⁡ ( X ) + Var ⁡ ( Y ) + 2 Cov ⁡ ( X , Y ) \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X,Y) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

若 X X X 与 Y Y Y 独立，则
Var ⁡ ( X + Y ) = Var ⁡ ( X ) + Var ⁡ ( Y ) \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) Var(X+Y)=Var(X)+Var(Y)

性质推导 ：
Var ⁡ ( a X + b ) = E $( a X + b - a μ - b ) 2$ = E $a 2 ( X - μ ) 2$ = a 2 Var ⁡ ( X ) \operatorname{Var}(aX+b) = E $(aX+b - a\\mu - b)\^2$ = E $a\^2(X-\\mu)\^2$ = a^2\operatorname{Var}(X) Var(aX+b)=E $(aX+b-aμ-b)2$ =E $a2(X-μ)2$ =a2Var(X)

例5 ：设 X X X 为骰子点数，则 E $X$ = 3.5 E $X$ =3.5 E $X$ =3.5， E $X 2$ = 1 6 ( 1 + 4 + 9 + 16 + 25 + 36 ) = 91 6 E $X\^2$ =\frac{1}{6}(1+4+9+16+25+36)=\frac{91}{6} E $X2$ =61(1+4+9+16+25+36)=691，所以
Var ⁡ ( X ) = 91 6 − ( 3.5 ) 2 = 91 6 − 49 4 = 182 − 147 12 = 35 12 ≈ 2.9167 \operatorname{Var}(X) = \frac{91}{6} - (3.5)^2 = \frac{91}{6} - \frac{49}{4} = \frac{182-147}{12} = \frac{35}{12} \approx 2.9167 Var(X)=691−(3.5)2=691−449=12182−147=1235≈2.9167

若定义 Y = 2 X + 1 Y=2X+1 Y=2X+1，则 Var ⁡ ( Y ) = 4 × 35 12 = 35 3 \operatorname{Var}(Y) = 4 \times \frac{35}{12} = \frac{35}{3} Var(Y)=4×1235=335。

3. 协方差

3.1 定义

协方差衡量两个随机变量的线性相关程度，它告诉我们一个变量偏离其均值时，另一个变量是倾向于同向偏离还是反向偏离。

对于随机变量 X , Y X, Y X,Y，协方差定义为：
Cov ⁡ ( X , Y ) = E $( X − E \[ X$ ) ( Y − E $Y$ ) ] = E $X Y$ − E $X$ E $Y$ \operatorname{Cov}(X,Y) = E $(X - E\[X$ )(Y - E $Y$ )] = E $XY$ - E $X$ E $Y$ Cov(X,Y)=E $(X−E\[X$ )(Y−E $Y$ )]=E $XY$ −E $X$ E $Y$

3.2 符号的含义

正协方差 ：当 X X X 大于其均值时， Y Y Y 也倾向于大于其均值； X X X 小于均值时， Y Y Y 也倾向于小于均值。即 X X X 和 Y Y Y 有"同向变动"的趋势。
负协方差 ： X X X 大于均值时， Y Y Y 倾向于小于均值； X X X 小于均值时， Y Y Y 倾向于大于均值。即"反向变动"。
零协方差：没有线性相关趋势（但不一定独立）。

3.3 重要性质

**方差是协方差的特例 **
Var ⁡ ( X ) = Cov ⁡ ( X , X ) \operatorname{Var}(X) = \operatorname{Cov}(X,X) Var(X)=Cov(X,X)

对称性
Cov ⁡ ( X , Y ) = Cov ⁡ ( Y , X ) \operatorname{Cov}(X,Y) = \operatorname{Cov}(Y,X) Cov(X,Y)=Cov(Y,X)
双线性

协方差对每个变量都是线性的：
Cov ⁡ ( a X + b Y , Z ) = a Cov ⁡ ( X , Z ) + b Cov ⁡ ( Y , Z ) Cov ⁡ ( X , c Y + d Z ) = c Cov ⁡ ( X , Y ) + d Cov ⁡ ( X , Z ) \operatorname{Cov}(aX + bY, Z) = a\operatorname{Cov}(X,Z) + b\operatorname{Cov}(Y,Z) \\ \operatorname{Cov}(X, cY + dZ) = c\operatorname{Cov}(X,Y) + d\operatorname{Cov}(X,Z) Cov(aX+bY,Z)=aCov(X,Z)+bCov(Y,Z)Cov(X,cY+dZ)=cCov(X,Y)+dCov(X,Z)
与常数的协方差
Cov ⁡ ( X , c ) = 0 , 其中 c 为常数 . \operatorname{Cov}(X, c) = 0, \quad \text{其中 } c \text{ 为常数}. Cov(X,c)=0,其中 c 为常数.
与独立性的关系
- 若 X X X 与 Y Y Y 独立，则 Cov ⁡ ( X , Y ) = 0 \operatorname{Cov}(X,Y) = 0 Cov(X,Y)=0。
- 但逆命题不成立 ：协方差为零只能说明不存在线性关系，仍可能存在非线性关系（例如 Y = X 2 Y = X^2 Y=X2 且 X X X 对称分布时，协方差为零）。
方差的线性组合公式

利用协方差可以计算和的方差：
Var ⁡ ( X + Y ) = Var ⁡ ( X ) + Var ⁡ ( Y ) + 2 Cov ⁡ ( X , Y ) \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X,Y) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

更一般地：
Var ⁡ ( ∑ i = 1 n a i X i ) = ∑ i = 1 n a i 2 Var ⁡ ( X i ) + 2 ∑ 1 ≤ i < j ≤ n a i a j Cov ⁡ ( X i , X j ) . \operatorname{Var}\left(\sum_{i=1}^n a_i X_i\right) = \sum_{i=1}^n a_i^2 \operatorname{Var}(X_i) + 2\sum_{1\le i<j\le n} a_i a_j \operatorname{Cov}(X_i, X_j). Var(i=1∑naiXi)=i=1∑nai2Var(Xi)+21≤i<j≤n∑aiajCov(Xi,Xj).

3.4 相关系数公式

相关系数将协方差标准化，使其取值在 $- 1 , 1$ $-1, 1$ $-1,1$ ：
ρ X , Y = Cov ⁡ ( X , Y ) Var ⁡ ( X ) Var ⁡ ( Y ) = Cov ⁡ ( X , Y ) σ X σ Y \rho_{X,Y} = \frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}} = \frac{\operatorname{Cov}(X,Y)}{\sigma_X \sigma_Y} ρX,Y=Var(X)Var(Y) Cov(X,Y)=σXσYCov(X,Y)

性质：

− 1 ≤ ρ ≤ 1 -1 \le \rho \le 1 −1≤ρ≤1。
∣ ρ ∣ = 1 |\rho| = 1 ∣ρ∣=1 当且仅当存在线性关系 Y = a X + b Y = aX + b Y=aX+b 几乎必然成立。
ρ = 0 \rho = 0 ρ=0 表示不线性相关，但可能存在非线性关系。

例6 ：设 X ∼ N ( 0 , 1 ) X \sim N(0,1) X∼N(0,1)， Y = X 2 Y = X^2 Y=X2。则 E $X$ = 0 E $X$ =0 E $X$ =0， E $Y$ = 1 E $Y$ =1 E $Y$ =1， E $X Y$ = E $X 3$ = 0 E $XY$ =E $X\^3$ =0 E $XY$ =E $X3$ =0，故 Cov ⁡ ( X , Y ) = 0 \operatorname{Cov}(X,Y)=0 Cov(X,Y)=0， ρ = 0 \rho=0 ρ=0。但显然 Y Y Y 与 X X X 有强非线性关系。

4. 矩

4.1 原点矩

随机变量 X X X 的 k k k 阶原点矩定义为：
μ k ′ = E $X k$ = ∫ x k f ( x ) d x ( 连续型 ) 或 ∑ x i k p ( x i ) ( 离散型 ) . \mu_k' = E $X\^k$ = \int x^k f(x)\,dx \quad (\text{连续型}) \quad\text{或}\quad \sum x_i^k p(x_i) \quad (\text{离散型}). μk′=E $Xk$ =∫xkf(x)dx(连续型)或∑xikp(xi)(离散型).

一阶原点矩 μ 1 ′ = E $X$ \mu_1' = E $X$ μ1′=E $X$ 就是均值，反映分布的中心位置（一阶原点矩即期望）。
二阶原点矩 μ 2 ′ = E $X 2$ \mu_2' = E $X\^2$ μ2′=E $X2$ 与方差有关。

4.2 中心矩

以均值为中心的 k k k 阶中心矩定义为：
μ k = E $( X - μ ) k$ , μ = E $X$ . \mu_k = E $(X - \\mu)\^k$ , \quad \mu = E $X$ . μk=E $(X-μ)k$ ,μ=E $X$ .

一阶中心矩 μ 1 = 0 \mu_1 = 0 μ1=0（恒成立）。
二阶中心矩 μ 2 = Var ⁡ ( X ) \mu_2 = \operatorname{Var}(X) μ2=Var(X)，即方差，衡量分布的离散程度。

4.3 标准化矩

为了消除量纲影响，常用标准化中心矩（即用标准差 σ = μ 2 \sigma = \sqrt{\mu_2} σ=μ2 标准化）：
α k = μ k σ k . \alpha_k = \frac{\mu_k}{\sigma^k}. αk=σkμk.

其中 α 1 = 0 \alpha_1 = 0 α1=0， α 2 = 1 \alpha_2 = 1 α2=1。

5. 偏度

5.1 定义

偏度是三阶标准化中心矩 ：
Skewness = α 3 = E $( X - μ ) 3$ σ 3 . \text{Skewness} = \alpha_3 = \frac{E $(X - \\mu)\^3$ }{\sigma^3}. Skewness=α3=σ3E $(X-μ)3$ .

5.2 含义

偏度衡量分布的不对称性，反映均值两侧数据的偏斜方向。

正偏（右偏） ： α 3 > 0 \alpha_3 > 0 α3>0。分布右侧尾部更长，大部分数据集中在左侧，均值 > 中位数 > 众数。
例如：收入分布、卡方分布（自由度小）。
负偏（左偏） ： α 3 < 0 \alpha_3 < 0 α3<0。左侧尾部更长，数据集中在右侧，均值 < 中位数 < 众数。
例如：考试分数（若多数人高分）、某些寿命分布。
对称分布 ： α 3 = 0 \alpha_3 = 0 α3=0。正态分布、均匀分布等均为零偏度。

例7（离散） ：考虑掷骰子分布（均匀），计算三阶中心矩：
μ 3 = E $( X - 3.5 ) 3$ = 1 6 ∑ k = 1 6 ( k − 3.5 ) 3 \mu_3 = E $(X-3.5)\^3$ = \frac{1}{6}\sum_{k=1}^6 (k-3.5)^3 μ3=E $(X-3.5)3$ =61k=1∑6(k−3.5)3

计算得 ( − 2.5 ) 3 = − 15.625 ( -2.5)^3 = -15.625 (−2.5)3=−15.625， ( − 1.5 ) 3 = − 3.375 (-1.5)^3=-3.375 (−1.5)3=−3.375， ( − 0.5 ) 3 = − 0.125 (-0.5)^3=-0.125 (−0.5)3=−0.125， ( 0.5 ) 3 = 0.125 (0.5)^3=0.125 (0.5)3=0.125， ( 1.5 ) 3 = 3.375 (1.5)^3=3.375 (1.5)3=3.375， ( 2.5 ) 3 = 15.625 (2.5)^3=15.625 (2.5)3=15.625，和为0，故 γ 1 = 0 \gamma_1=0 γ1=0，对称。

5.3 直观解释

偏度通过三次方放大离群值的影响：若右侧有极端值， $(X-\\mu)\^3$ 为正且较大，使偏度为正；左侧极端值则使偏度为负。

6. 峰度

峰度（Kurtosis）衡量分布尾部的厚度（或峰顶的尖峭程度）。常用定义是超值峰度（excess kurtosis）：
γ 2 = μ 4 σ 4 − 3 \gamma_2 = \frac{\mu_4}{\sigma^4} - 3 γ2=σ4μ4−3

减去 3 是为了使正态分布的峰度为 0。

γ 2 > 0 \gamma_2 > 0 γ2>0：尖峰厚尾（比正态更集中在中心，尾部更厚）。
γ 2 < 0 \gamma_2 < 0 γ2<0：平峰薄尾（分布比正态更平坦）。
γ 2 = 0 \gamma_2 = 0 γ2=0：正态分布的参考基准。

例8 ：正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 的四阶中心矩 μ 4 = 3 σ 4 \mu_4 = 3\sigma^4 μ4=3σ4，所以 γ 2 = 3 − 3 = 0 \gamma_2 = 3 - 3 = 0 γ2=3−3=0。

例9：拉普拉斯分布（双指数）的峰度大于 0（尾部比正态厚），常用于金融收益率建模。

7. 公式汇总

名称	公式	含义
期望	E $X$ = ∑ x p ( x ) E $X$ = \sum x p(x) E $X$ =∑xp(x) 或 ∫ x f ( x ) d x \int x f(x)dx ∫xf(x)dx	位置中心
方差	Var ⁡ ( X ) = E $( X - μ ) 2$ = E $X 2$ − μ 2 \operatorname{Var}(X)=E $(X-\\mu)\^2$ = E $X\^2$ -\mu^2 Var(X)=E $(X-μ)2$ =E $X2$ −μ2	离散程度
协方差	Cov ⁡ ( X , Y ) = E $X Y$ − μ X μ Y \operatorname{Cov}(X,Y)=E $XY$ -\mu_X\mu_Y Cov(X,Y)=E $XY$ −μXμY	线性相关方向与强度（有量纲）
相关系数	ρ = Cov ⁡ ( X , Y ) σ X σ Y \rho = \frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y} ρ=σXσYCov(X,Y)	标准化线性相关度，范围 $-1,1$
原点矩	μ k ′ = E $X k$ \mu_k' = E $X\^k$ μk′=E $Xk$	幂的期望
中心矩	μ k = E $( X - μ ) k$ \mu_k = E $(X-\\mu)\^k$ μk=E $(X-μ)k$	围绕均值的幂期望
偏度	γ 1 = μ 3 / σ 3 \gamma_1 = \mu_3 / \sigma^3 γ1=μ3/σ3	非对称性
峰度	γ 2 = μ 4 / σ 4 − 3 \gamma_2 = \mu_4 / \sigma^4 - 3 γ2=μ4/σ4−3	尾部厚度（相对于正态）

8. 总结

数字特征用简洁的数值刻画了随机变量的分布形态：

期望描述中心位置，线性性质使其运算便捷。
方差描述离散程度，是风险与不确定性的基本度量。
协方差与相关系数描述变量间的线性关联。
高阶矩（偏度、峰度）进一步揭示分布的对称性和尾部特征，在金融风险分析、机器学习特征工程中尤为重要。

掌握这些数字特征，不仅能深入理解概率分布，还能为后续的统计推断（如参数估计、假设检验）和机器学习（如损失函数设计、特征标准化）奠定基础。

上一章 机器学习概率论与统计学--(7)概率论：多维随机变量

下一章 机器学习概率论与统计学--(9)统计学：参数估计