机器学习概率论与统计学--(8)概率论:数字特征

数字特征是用数值简洁地描述随机变量分布的重要属性。本讲将系统讲解期望、方差、协方差与相关系数,以及高阶矩、偏度和峰度。这些概念是概率论与统计学的核心,也是机器学习中模型评估与推断的基础。


1. 期望

1.1 定义

期望(Expectation)是随机变量取值的加权平均,反映了分布的"中心位置"。

加权平均是一种数学计算方法,它是指在计算平均数时,根据每个数值的重要性(即"权重")赋予不同的比重,而不是简单地将所有数值平等对待。

要理解加权平均,可以先对比一下算术平均

  • 算术平均:把所有数值加起来,除以数值的个数。它假设每个数值的重要性相同。
  • 加权平均:每个数值先乘以各自的权重,将乘积相加,再除以权重的总和。

公式表达
加权平均数 = 数值 1 × 权重 1 + 数值 2 × 权重 2 + ... 权重 1 + 权重 2 + ... \text{加权平均数} = \frac{\text{数值}_1 \times \text{权重}_1 + \text{数值}_2 \times \text{权重}_2 + \ldots}{\text{权重}_1 + \text{权重}_2 + \ldots} 加权平均数=权重1+权重2+...数值1×权重1+数值2×权重2+...

  • 离散随机变量 :设 X X X 取值为 x 1 , x 2 , ... x_1, x_2, \dots x1,x2,...,概率质量函数为 p ( x ) p(x) p(x),则

E X = ∑ i x i p ( x i ) EX = \sum_{i} x_i p(x_i) EX=i∑xip(xi)

  • 连续随机变量 :设 X X X 的概率密度函数为 f ( x ) f(x) f(x),则

E X = ∫ − ∞ ∞ x f ( x )   d x EX = \int_{-\infty}^{\infty} x f(x) \, dx EX=∫−∞∞xf(x)dx

例1(离散) :掷一枚公平骰子,点数 X X X 的期望为
E X = 1 6 ( 1 + 2 + 3 + 4 + 5 + 6 ) = 3.5 EX = \frac{1}{6}(1+2+3+4+5+6) = 3.5 EX=61(1+2+3+4+5+6)=3.5

例2(连续) :均匀分布 U ( a , b ) U(a,b) U(a,b) 的期望为
E X = ∫ a b x ⋅ 1 b − a   d x = 1 b − a ∫ a b x ⋅ d x = 1 b − a ⋅ b 2 − a 2 2 = a + b 2 EX = \int_a^b x \cdot \frac{1}{b-a} \, dx = \frac{1}{b-a}\int_a^b x \cdot dx = \frac{1}{b-a} \cdot \frac{b^2 - a^2}{2} = \frac{a+b}{2} EX=∫abx⋅b−a1dx=b−a1∫abx⋅dx=b−a1⋅2b2−a2=2a+b

1.2 线性性质

期望最重要的性质是线性 :对于任意常数 a , b a, b a,b 和任意随机变量 X , Y X, Y X,Y,
E a X + b Y + c = a E X + b E Y + c EaX + bY + c = aEX + bEY + c EaX+bY+c=aEX+bEY+c

该性质对任意依赖关系都成立,无需独立。

推导 :由积分/求和的线性性直接可得。例如连续情形:
E a X + b Y + c = ∫ ( a x + b y + c ) f ( x , y ) d x d y = a ∫ x f X ( x ) d x + b ∫ y f Y ( y ) d y + c EaX+bY+c = \int (ax+by+c) f(x,y) dxdy = a\int x f_X(x)dx + b\int y f_Y(y)dy + c EaX+bY+c=∫(ax+by+c)f(x,y)dxdy=a∫xfX(x)dx+b∫yfY(y)dy+c

例3 :设 X X X 为骰子点数, Y = 2 X + 1 Y = 2X + 1 Y=2X+1,则 E Y = 2 E X + 1 = 2 × 3.5 + 1 = 8 EY = 2EX + 1 = 2\times 3.5 + 1 = 8 EY=2EX+1=2×3.5+1=8。

1.3 条件期望

条件期望是给定某些信息后对随机变量的期望。

对于离散情形,给定 Y = y Y=y Y=y 时 X X X 的条件期望为:
E X ∣ Y = y = ∑ x x   p X ∣ Y ( x ∣ y ) EX \\mid Y=y = \sum_x x \, p_{X|Y}(x|y) EX∣Y=y=x∑xpX∣Y(x∣y)

对于连续情形,给定 Y = y Y=y Y=y 时 X X X 的条件期望为:
E X ∣ Y = y = ∫ x f X ∣ Y ( x ∣ y ) d x EX \\mid Y=y = \int x f_{X|Y}(x|y) dx EX∣Y=y=∫xfX∣Y(x∣y)dx

条件期望本身是 Y Y Y 的函数,记作 E X ∣ Y EX \\mid Y EX∣Y全期望公式 (Law of Total Expectation):
E X = E E \[ X ∣ Y ] EX = EE\[X \\mid Y] EX=EE\[X∣Y]

即先对条件期望取期望,得到无条件期望。该公式在分层抽样、贝叶斯推断中非常重要。

例4 :设某工厂有两个车间,A车间产量占60%,次品率1%;B车间占40%,次品率2%。随机取一件产品,定义 X = 1 X=1 X=1 为次品, Y Y Y 为车间标识。则
E X ∣ Y = A = 0.01 , E X ∣ Y = B = 0.02 E X = E E \[ X ∣ Y ] = 0.6 × 0.01 + 0.4 × 0.02 = 0.014 EX \\mid Y=A = 0.01,\quad EX \\mid Y=B = 0.02 \\ EX = EE\[X\\mid Y] = 0.6\times 0.01 + 0.4\times 0.02 = 0.014 EX∣Y=A=0.01,EX∣Y=B=0.02EX=EE\[X∣Y]=0.6×0.01+0.4×0.02=0.014


2. 方差

2.1 定义

方差(Variance)衡量随机变量偏离其均值的程度:
Var ⁡ ( X ) = E ( X − μ ) 2 , μ = E X \operatorname{Var}(X) = E(X - \\mu)\^2, \quad \mu = EX Var(X)=E(X−μ)2,μ=EX

常用计算式:
Var ⁡ ( X ) = E X 2 − ( E X ) 2 \operatorname{Var}(X) = EX\^2 - (EX)^2 Var(X)=EX2−(EX)2

2.2 重要性质

  • 平移不变性 : Var ⁡ ( X + c ) = Var ⁡ ( X ) \operatorname{Var}(X + c) = \operatorname{Var}(X) Var(X+c)=Var(X)。

  • 尺度变换 : Var ⁡ ( a X ) = a 2 Var ⁡ ( X ) \operatorname{Var}(aX) = a^2 \operatorname{Var}(X) Var(aX)=a2Var(X);合并为: Var ⁡ ( a X + b ) = a 2 Var ⁡ ( X ) \operatorname{Var}(aX + b) = a^2 \operatorname{Var}(X) Var(aX+b)=a2Var(X)。

  • 方差与和 :对于任意 X , Y X, Y X,Y,
    Var ⁡ ( X + Y ) = Var ⁡ ( X ) + Var ⁡ ( Y ) + 2 Cov ⁡ ( X , Y ) \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X,Y) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

    若 X X X 与 Y Y Y 独立,则
    Var ⁡ ( X + Y ) = Var ⁡ ( X ) + Var ⁡ ( Y ) \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) Var(X+Y)=Var(X)+Var(Y)

性质推导
Var ⁡ ( a X + b ) = E ( a X + b − a μ − b ) 2 = E a 2 ( X − μ ) 2 = a 2 Var ⁡ ( X ) \operatorname{Var}(aX+b) = E(aX+b - a\\mu - b)\^2 = Ea\^2(X-\\mu)\^2 = a^2\operatorname{Var}(X) Var(aX+b)=E(aX+b−aμ−b)2=Ea2(X−μ)2=a2Var(X)

例5 :设 X X X 为骰子点数,则 E X = 3.5 EX=3.5 EX=3.5, E X 2 = 1 6 ( 1 + 4 + 9 + 16 + 25 + 36 ) = 91 6 EX\^2=\frac{1}{6}(1+4+9+16+25+36)=\frac{91}{6} EX2=61(1+4+9+16+25+36)=691,所以
Var ⁡ ( X ) = 91 6 − ( 3.5 ) 2 = 91 6 − 49 4 = 182 − 147 12 = 35 12 ≈ 2.9167 \operatorname{Var}(X) = \frac{91}{6} - (3.5)^2 = \frac{91}{6} - \frac{49}{4} = \frac{182-147}{12} = \frac{35}{12} \approx 2.9167 Var(X)=691−(3.5)2=691−449=12182−147=1235≈2.9167

若定义 Y = 2 X + 1 Y=2X+1 Y=2X+1,则 Var ⁡ ( Y ) = 4 × 35 12 = 35 3 \operatorname{Var}(Y) = 4 \times \frac{35}{12} = \frac{35}{3} Var(Y)=4×1235=335。


3. 协方差

3.1 定义

协方差衡量两个随机变量的线性相关程度,它告诉我们一个变量偏离其均值时,另一个变量是倾向于同向偏离还是反向偏离。

对于随机变量 X , Y X, Y X,Y,协方差定义为:
Cov ⁡ ( X , Y ) = E ( X − E \[ X ) ( Y − E Y ) ] = E X Y − E X E Y \operatorname{Cov}(X,Y) = E(X - E\[X)(Y - EY)] = EXY - EXEY Cov(X,Y)=E(X−E\[X)(Y−EY)]=EXY−EXEY

3.2 符号的含义

  • 正协方差 :当 X X X 大于其均值时, Y Y Y 也倾向于大于其均值; X X X 小于均值时, Y Y Y 也倾向于小于均值。即 X X X 和 Y Y Y 有"同向变动"的趋势。
  • 负协方差 : X X X 大于均值时, Y Y Y 倾向于小于均值; X X X 小于均值时, Y Y Y 倾向于大于均值。即"反向变动"。
  • 零协方差:没有线性相关趋势(但不一定独立)。

3.3 重要性质

  • **方差是协方差的特例 **
    Var ⁡ ( X ) = Cov ⁡ ( X , X ) \operatorname{Var}(X) = \operatorname{Cov}(X,X) Var(X)=Cov(X,X)
  • 对称性
    Cov ⁡ ( X , Y ) = Cov ⁡ ( Y , X ) \operatorname{Cov}(X,Y) = \operatorname{Cov}(Y,X) Cov(X,Y)=Cov(Y,X)

  • 双线性

    协方差对每个变量都是线性的:
    Cov ⁡ ( a X + b Y , Z ) = a Cov ⁡ ( X , Z ) + b Cov ⁡ ( Y , Z ) Cov ⁡ ( X , c Y + d Z ) = c Cov ⁡ ( X , Y ) + d Cov ⁡ ( X , Z ) \operatorname{Cov}(aX + bY, Z) = a\operatorname{Cov}(X,Z) + b\operatorname{Cov}(Y,Z) \\ \operatorname{Cov}(X, cY + dZ) = c\operatorname{Cov}(X,Y) + d\operatorname{Cov}(X,Z) Cov(aX+bY,Z)=aCov(X,Z)+bCov(Y,Z)Cov(X,cY+dZ)=cCov(X,Y)+dCov(X,Z)

  • 与常数的协方差
    Cov ⁡ ( X , c ) = 0 , 其中 c 为常数 . \operatorname{Cov}(X, c) = 0, \quad \text{其中 } c \text{ 为常数}. Cov(X,c)=0,其中 c 为常数.

  • 与独立性的关系

    • 若 X X X 与 Y Y Y 独立,则 Cov ⁡ ( X , Y ) = 0 \operatorname{Cov}(X,Y) = 0 Cov(X,Y)=0。

    • 但逆命题不成立 :协方差为零只能说明不存在线性关系,仍可能存在非线性关系(例如 Y = X 2 Y = X^2 Y=X2 且 X X X 对称分布时,协方差为零)。

  • 方差的线性组合公式

    利用协方差可以计算和的方差:
    Var ⁡ ( X + Y ) = Var ⁡ ( X ) + Var ⁡ ( Y ) + 2 Cov ⁡ ( X , Y ) \operatorname{Var}(X+Y) = \operatorname{Var}(X) + \operatorname{Var}(Y) + 2\operatorname{Cov}(X,Y) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

    更一般地:
    Var ⁡ ( ∑ i = 1 n a i X i ) = ∑ i = 1 n a i 2 Var ⁡ ( X i ) + 2 ∑ 1 ≤ i < j ≤ n a i a j Cov ⁡ ( X i , X j ) . \operatorname{Var}\left(\sum_{i=1}^n a_i X_i\right) = \sum_{i=1}^n a_i^2 \operatorname{Var}(X_i) + 2\sum_{1\le i<j\le n} a_i a_j \operatorname{Cov}(X_i, X_j). Var(i=1∑naiXi)=i=1∑nai2Var(Xi)+21≤i<j≤n∑aiajCov(Xi,Xj).

3.4 相关系数公式

相关系数将协方差标准化,使其取值在 − 1 , 1 -1, 1 −1,1
ρ X , Y = Cov ⁡ ( X , Y ) Var ⁡ ( X ) Var ⁡ ( Y ) = Cov ⁡ ( X , Y ) σ X σ Y \rho_{X,Y} = \frac{\operatorname{Cov}(X,Y)}{\sqrt{\operatorname{Var}(X)\operatorname{Var}(Y)}} = \frac{\operatorname{Cov}(X,Y)}{\sigma_X \sigma_Y} ρX,Y=Var(X)Var(Y) Cov(X,Y)=σXσYCov(X,Y)

性质

  • − 1 ≤ ρ ≤ 1 -1 \le \rho \le 1 −1≤ρ≤1。
  • ∣ ρ ∣ = 1 |\rho| = 1 ∣ρ∣=1 当且仅当存在线性关系 Y = a X + b Y = aX + b Y=aX+b 几乎必然成立。
  • ρ = 0 \rho = 0 ρ=0 表示不线性相关,但可能存在非线性关系。

例6 :设 X ∼ N ( 0 , 1 ) X \sim N(0,1) X∼N(0,1), Y = X 2 Y = X^2 Y=X2。则 E X = 0 EX=0 EX=0, E Y = 1 EY=1 EY=1, E X Y = E X 3 = 0 EXY=EX\^3=0 EXY=EX3=0,故 Cov ⁡ ( X , Y ) = 0 \operatorname{Cov}(X,Y)=0 Cov(X,Y)=0, ρ = 0 \rho=0 ρ=0。但显然 Y Y Y 与 X X X 有强非线性关系。


4. 矩

4.1 原点矩

随机变量 X X X 的 k k k 阶原点矩定义为:
μ k ′ = E X k = ∫ x k f ( x )   d x ( 连续型 ) 或 ∑ x i k p ( x i ) ( 离散型 ) . \mu_k' = EX\^k = \int x^k f(x)\,dx \quad (\text{连续型}) \quad\text{或}\quad \sum x_i^k p(x_i) \quad (\text{离散型}). μk′=EXk=∫xkf(x)dx(连续型)或∑xikp(xi)(离散型).

  • 一阶原点矩 μ 1 ′ = E X \mu_1' = EX μ1′=EX 就是均值,反映分布的中心位置(一阶原点矩即期望)。
  • 二阶原点矩 μ 2 ′ = E X 2 \mu_2' = EX\^2 μ2′=EX2 与方差有关。

4.2 中心矩

以均值为中心的 k k k 阶中心矩定义为:
μ k = E ( X − μ ) k , μ = E X . \mu_k = E(X - \\mu)\^k, \quad \mu = EX. μk=E(X−μ)k,μ=EX.

  • 一阶中心矩 μ 1 = 0 \mu_1 = 0 μ1=0(恒成立)。
  • 二阶中心矩 μ 2 = Var ⁡ ( X ) \mu_2 = \operatorname{Var}(X) μ2=Var(X),即方差,衡量分布的离散程度。

4.3 标准化矩

为了消除量纲影响,常用标准化中心矩(即用标准差 σ = μ 2 \sigma = \sqrt{\mu_2} σ=μ2 标准化):
α k = μ k σ k . \alpha_k = \frac{\mu_k}{\sigma^k}. αk=σkμk.

其中 α 1 = 0 \alpha_1 = 0 α1=0, α 2 = 1 \alpha_2 = 1 α2=1。

5. 偏度

5.1 定义

偏度是三阶标准化中心矩
Skewness = α 3 = E ( X − μ ) 3 σ 3 . \text{Skewness} = \alpha_3 = \frac{E(X - \\mu)\^3}{\sigma^3}. Skewness=α3=σ3E(X−μ)3.

5.2 含义

偏度衡量分布的不对称性,反映均值两侧数据的偏斜方向。

  • 正偏(右偏) : α 3 > 0 \alpha_3 > 0 α3>0。分布右侧尾部更长,大部分数据集中在左侧,均值 > 中位数 > 众数。
    例如:收入分布、卡方分布(自由度小)。
  • 负偏(左偏) : α 3 < 0 \alpha_3 < 0 α3<0。左侧尾部更长,数据集中在右侧,均值 < 中位数 < 众数。
    例如:考试分数(若多数人高分)、某些寿命分布。
  • 对称分布 : α 3 = 0 \alpha_3 = 0 α3=0。正态分布、均匀分布等均为零偏度。

例7(离散) :考虑掷骰子分布(均匀),计算三阶中心矩:
μ 3 = E ( X − 3.5 ) 3 = 1 6 ∑ k = 1 6 ( k − 3.5 ) 3 \mu_3 = E(X-3.5)\^3 = \frac{1}{6}\sum_{k=1}^6 (k-3.5)^3 μ3=E(X−3.5)3=61k=1∑6(k−3.5)3

计算得 ( − 2.5 ) 3 = − 15.625 ( -2.5)^3 = -15.625 (−2.5)3=−15.625, ( − 1.5 ) 3 = − 3.375 (-1.5)^3=-3.375 (−1.5)3=−3.375, ( − 0.5 ) 3 = − 0.125 (-0.5)^3=-0.125 (−0.5)3=−0.125, ( 0.5 ) 3 = 0.125 (0.5)^3=0.125 (0.5)3=0.125, ( 1.5 ) 3 = 3.375 (1.5)^3=3.375 (1.5)3=3.375, ( 2.5 ) 3 = 15.625 (2.5)^3=15.625 (2.5)3=15.625,和为0,故 γ 1 = 0 \gamma_1=0 γ1=0,对称。

5.3 直观解释

偏度通过三次方放大离群值的影响:若右侧有极端值, (X-\\mu)\^3 为正且较大,使偏度为正;左侧极端值则使偏度为负。

6. 峰度

峰度(Kurtosis)衡量分布尾部的厚度(或峰顶的尖峭程度)。常用定义是超值峰度(excess kurtosis):
γ 2 = μ 4 σ 4 − 3 \gamma_2 = \frac{\mu_4}{\sigma^4} - 3 γ2=σ4μ4−3

减去 3 是为了使正态分布的峰度为 0。

  • γ 2 > 0 \gamma_2 > 0 γ2>0:尖峰厚尾(比正态更集中在中心,尾部更厚)。
  • γ 2 < 0 \gamma_2 < 0 γ2<0:平峰薄尾(分布比正态更平坦)。
  • γ 2 = 0 \gamma_2 = 0 γ2=0:正态分布的参考基准。

例8 :正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 的四阶中心矩 μ 4 = 3 σ 4 \mu_4 = 3\sigma^4 μ4=3σ4,所以 γ 2 = 3 − 3 = 0 \gamma_2 = 3 - 3 = 0 γ2=3−3=0。

例9:拉普拉斯分布(双指数)的峰度大于 0(尾部比正态厚),常用于金融收益率建模。

7. 公式汇总

名称 公式 含义
期望 E X = ∑ x p ( x ) EX = \sum x p(x) EX=∑xp(x) 或 ∫ x f ( x ) d x \int x f(x)dx ∫xf(x)dx 位置中心
方差 Var ⁡ ( X ) = E ( X − μ ) 2 = E X 2 − μ 2 \operatorname{Var}(X)=E(X-\\mu)\^2 = EX\^2-\mu^2 Var(X)=E(X−μ)2=EX2−μ2 离散程度
协方差 Cov ⁡ ( X , Y ) = E X Y − μ X μ Y \operatorname{Cov}(X,Y)=EXY-\mu_X\mu_Y Cov(X,Y)=EXY−μXμY 线性相关方向与强度(有量纲)
相关系数 ρ = Cov ⁡ ( X , Y ) σ X σ Y \rho = \frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y} ρ=σXσYCov(X,Y) 标准化线性相关度,范围-1,1
原点矩 μ k ′ = E X k \mu_k' = EX\^k μk′=EXk 幂的期望
中心矩 μ k = E ( X − μ ) k \mu_k = E(X-\\mu)\^k μk=E(X−μ)k 围绕均值的幂期望
偏度 γ 1 = μ 3 / σ 3 \gamma_1 = \mu_3 / \sigma^3 γ1=μ3/σ3 非对称性
峰度 γ 2 = μ 4 / σ 4 − 3 \gamma_2 = \mu_4 / \sigma^4 - 3 γ2=μ4/σ4−3 尾部厚度(相对于正态)

8. 总结

数字特征用简洁的数值刻画了随机变量的分布形态:

  • 期望描述中心位置,线性性质使其运算便捷。
  • 方差描述离散程度,是风险与不确定性的基本度量。
  • 协方差与相关系数描述变量间的线性关联。
  • 高阶矩(偏度、峰度)进一步揭示分布的对称性和尾部特征,在金融风险分析、机器学习特征工程中尤为重要。

掌握这些数字特征,不仅能深入理解概率分布,还能为后续的统计推断(如参数估计、假设检验)和机器学习(如损失函数设计、特征标准化)奠定基础。

上一章 机器学习概率论与统计学--(7)概率论:多维随机变量

下一章 机器学习概率论与统计学--(9)统计学:参数估计

相关推荐
大连好光景14 小时前
BCELoss + sigmoid 换成 BCEWithLogitsLoss
人工智能·深度学习·机器学习
春日见17 小时前
RL精华知识
人工智能·机器学习
lqqjuly18 小时前
自动驾驶仿真平台:理论、架构与实践
人工智能·机器学习·自动驾驶
春日见18 小时前
五分钟入门 强化学习---DQN(Deep Q Net)算法与实现
人工智能·python·深度学习·算法·microsoft·机器学习
xzzd_jokelin18 小时前
公司AI开发痛点解析:多人+AI辅助 协同开发?
人工智能·机器学习·ai·ai编程·cloud·codex
香蕉也是布拉拉19 小时前
2026-05-29 arXiv 论文带读:GeoAI、空间智能与多模态 Agent 的 9 篇高质量新作
人工智能·机器学习
还不秃顶的计科生1 天前
codex配置自动化visio/ppt
机器学习·visio
春日见1 天前
五分钟入门 强化学习---Q-Learning算法与实现
人工智能·python·深度学习·算法·机器学习·计算机视觉
多年小白1 天前
【周末消息】2026年5月30日-6月1日
大数据·人工智能·深度学习·机器学习·金融
Mikowoo0071 天前
机器学习_梯度计算
人工智能·python·机器学习