机器学习概率论与统计学--(11)概率论极限定理

极限定理是概率论中连接抽象理论与实际应用的关键桥梁。它们解释了为什么在大量重复试验下，随机现象会呈现出稳定的规律性，以及为什么正态分布在自然界中无处不在。本讲将深入讲解两大核心定理：大数定律 （以弱大数定律为主）和中心极限定理，包括其数学表述、直观理解、证明思路（切比雪夫不等式）以及实际应用中的近似计算。

1. 大数定律

1.1 直观含义

大数定律（Law of Large Numbers）告诉我们：当独立重复试验的次数 n n n 足够大时，样本均值 X ˉ n \bar{X}_n Xˉn 会以很大的概率接近总体均值 μ \mu μ。换句话说，随着样本量增加，随机误差相互抵消，平均值趋于稳定。

例子：抛一枚公平硬币，正面概率 p = 0.5 p=0.5 p=0.5。抛 10 次可能得到 7 次正面（频率 0.7），但抛 10000 次，正面频率会非常接近 0.5。

1.2 切比雪夫不等式

切比雪夫不等式是大数定律证明的关键工具，它给出了随机变量偏离其均值的概率的上界。

定理：设 X X X 是一个随机变量，期望 E [ X ] = μ E[X]=\mu E[X]=μ，方差 Var ⁡ ( X ) = σ 2 \operatorname{Var}(X)=\sigma^2 Var(X)=σ2 有限。则对任意 ε > 0 \varepsilon > 0 ε>0，
P ( ∣ X − μ ∣ ≥ ε ) ≤ σ 2 ε 2 P(|X-\mu| \ge \varepsilon) \le \frac{\sigma^2}{\varepsilon^2} P(∣X−μ∣≥ε)≤ε2σ2

推导（以连续型为例，离散类似）：
P ( ∣ X − μ ∣ ≥ ε ) = ∫ ∣ x − μ ∣ ≥ ε f ( x ) d x ≤ ∫ ∣ x − μ ∣ ≥ ε ( x − μ ) 2 ε 2 f ( x ) d x ≤ 1 ε 2 ∫ − ∞ ∞ ( x − μ ) 2 f ( x ) d x = σ 2 ε 2 P(|X-\mu|\ge\varepsilon) = \int_{|x-\mu|\ge\varepsilon} f(x)\,dx \le \int_{|x-\mu|\ge\varepsilon} \frac{(x-\mu)^2}{\varepsilon^2} f(x)\,dx \le \frac{1}{\varepsilon^2} \int_{-\infty}^{\infty} (x-\mu)^2 f(x)\,dx = \frac{\sigma^2}{\varepsilon^2} P(∣X−μ∣≥ε)=∫∣x−μ∣≥εf(x)dx≤∫∣x−μ∣≥εε2(x−μ)2f(x)dx≤ε21∫−∞∞(x−μ)2f(x)dx=ε2σ2

其中第一步用了不等式 1 ≤ ( x − μ ) 2 / ε 2 1 \le (x-\mu)^2/\varepsilon^2 1≤(x−μ)2/ε2 在积分区域内成立。

例1 ：设 X X X 服从正态分布 N ( 0 , 1 ) N(0,1) N(0,1)， σ 2 = 1 \sigma^2=1 σ2=1，取 ε = 2 \varepsilon=2 ε=2，切比雪夫不等式给出 P ( ∣ X ∣ ≥ 2 ) ≤ 1 / 4 = 0.25 P(|X|\ge2) \le 1/4 = 0.25 P(∣X∣≥2)≤1/4=0.25，而实际概率约为 0.0455，说明上界较宽松。

1.3 弱大数定律（WLLN）

定理：设 X 1 , X 2 , ... X_1, X_2, \dots X1,X2,... 是独立同分布的随机变量，具有有限均值 μ \mu μ 和有限方差 σ 2 \sigma^2 σ2（实际上方差有限不是必需的，但这里用切比雪夫证明需要）。

记样本均值 X ˉ n = 1 n ∑ i = 1 n X i \bar{X}n = \frac{1}{n}\sum{i=1}^n X_i Xˉn=n1∑i=1nXi。则对任意 ε > 0 \varepsilon > 0 ε>0，
lim ⁡ n → ∞ P ( ∣ X ˉ n − μ ∣ ≥ ε ) = 0 \lim_{n\to\infty} P(|\bar{X}_n - \mu| \ge \varepsilon) = 0 n→∞limP(∣Xˉn−μ∣≥ε)=0

即 X ˉ n \bar{X}_n Xˉn 依概率收敛于 μ \mu μ。

证明（使用切比雪夫不等式） ：

由于 E [ X ˉ n ] = μ E[\bar{X}_n] = \mu E[Xˉn]=μ， Var ⁡ ( X ˉ n ) = σ 2 / n \operatorname{Var}(\bar{X}_n) = \sigma^2/n Var(Xˉn)=σ2/n。对任意 ε > 0 \varepsilon>0 ε>0，
P ( ∣ X ˉ n − μ ∣ ≥ ε ) ≤ Var ⁡ ( X ˉ n ) ε 2 = σ 2 n ε 2 → 0 ( n → ∞ ) P(|\bar{X}_n - \mu| \ge \varepsilon) \le \frac{\operatorname{Var}(\bar{X}_n)}{\varepsilon^2} = \frac{\sigma^2}{n\varepsilon^2} \to 0 \quad (n\to\infty) P(∣Xˉn−μ∣≥ε)≤ε2Var(Xˉn)=nε2σ2→0(n→∞)

注意：弱大数定律只要求方差有限，实际上切比雪夫不等式给出了收敛速度 O ( 1 / n ) O(1/n) O(1/n)。更一般的结论（如辛钦大数定律）只要求均值存在，无需方差有限，但证明更复杂。

1.4 大数定律的意义

统计学的基石：样本均值可以作为总体均值的估计，且随着样本量增大，估计越来越可靠。
频率与概率：事件发生的频率收敛于其概率，这为概率的频率解释提供了理论支持。
蒙特卡洛方法：通过大量随机模拟计算复杂积分或期望。

2. 中心极限定理

如果说大数定律说明了样本均值趋近于总体均值，那么中心极限定理（Central Limit Theorem, CLT）则进一步描述了样本均值围绕均值的波动分布------它趋向于正态分布。

2.1 定理内容（独立同分布情形）

设 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn 是独立同分布的随机变量，具有有限均值 μ \mu μ 和有限方差 σ 2 > 0 \sigma^2 > 0 σ2>0。定义样本均值为 X ˉ n \bar{X}_n Xˉn，则标准化和
Z n = X ˉ n − μ σ / n = ∑ i = 1 n X i − n μ n σ Z_n = \frac{\bar{X}n - \mu}{\sigma/\sqrt{n}} = \frac{\sum{i=1}^n X_i - n\mu}{\sqrt{n}\sigma} Zn=σ/n Xˉn−μ=n σ∑i=1nXi−nμ

的分布函数当 n → ∞ n \to \infty n→∞ 时收敛于标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1)。即对任意实数 x x x，
lim ⁡ n → ∞ P ( Z n ≤ x ) = Φ ( x ) = ∫ − ∞ x 1 2 π e − t 2 / 2 d t . \lim_{n\to\infty} P(Z_n \le x) = \Phi(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{-t^2/2} dt. n→∞limP(Zn≤x)=Φ(x)=∫−∞x2π 1e−t2/2dt.

2.2 直观理解

无论原始分布是什么形状（只要方差有限），大量独立随机变量之和（或均值）的分布都近似为正态分布。
正态分布因此成为自然界中最常见的分布，例如测量误差、身高、考试分数等，往往可以看作许多独立微小效应的叠加。

例2 ：掷一颗骰子（均匀分布），单次点数均值 3.5，方差 35/12 ≈ 2.9167。掷 100 次，总点数 S 100 S_{100} S100 的分布近似正态 N ( 350 , 100 × 2.9167 ) N(350, 100\times2.9167) N(350,100×2.9167)，即均值 350，标准差 291.67 ≈ 17.08 \sqrt{291.67}\approx 17.08 291.67 ≈17.08。

2.3 应用：近似计算概率

中心极限定理允许我们在样本量足够大时，用正态分布近似计算涉及独立同分布随机变量和的概率，避免精确分布的复杂计算（如二项分布当 n n n 大时）。

例3：二项分布的正态近似

设 X ∼ B ( n , p ) X \sim B(n, p) X∼B(n,p)，即 n n n 次独立伯努利试验成功次数。由于 X = ∑ i = 1 n Y i X = \sum_{i=1}^n Y_i X=∑i=1nYi，其中 Y i ∼ Bernoulli ( p ) Y_i \sim \text{Bernoulli}(p) Yi∼Bernoulli(p)，且 E [ Y i ] = p E[Y_i]=p E[Yi]=p， Var ⁡ ( Y i ) = p ( 1 − p ) \operatorname{Var}(Y_i)=p(1-p) Var(Yi)=p(1−p)。由 CLT，当 n n n 大时，
X − n p n p ( 1 − p ) ≈ N ( 0 , 1 ) . \frac{X - np}{\sqrt{np(1-p)}} \approx N(0,1). np(1−p) X−np≈N(0,1).

因此， P ( a ≤ X ≤ b ) ≈ Φ ( b + 0.5 − n p n p ( 1 − p ) ) − Φ ( a − 0.5 − n p n p ( 1 − p ) ) P(a \le X \le b) \approx \Phi\left(\frac{b+0.5 - np}{\sqrt{np(1-p)}}\right) - \Phi\left(\frac{a-0.5 - np}{\sqrt{np(1-p)}}\right) P(a≤X≤b)≈Φ(np(1−p) b+0.5−np)−Φ(np(1−p) a−0.5−np)（连续性校正）。

例4 ：某产品次品率 p = 0.1 p=0.1 p=0.1，抽检 1000 件，求次品数不超过 120 的概率。

精确二项计算复杂，用 CLT： μ = n p = 100 \mu = np = 100 μ=np=100， σ = 1000 × 0.1 × 0.9 = 90 ≈ 9.4868 \sigma = \sqrt{1000\times0.1\times0.9} = \sqrt{90} \approx 9.4868 σ=1000×0.1×0.9 =90 ≈9.4868。
P ( X ≤ 120 ) ≈ Φ ( 120.5 − 100 9.4868 ) = Φ ( 2.16 ) ≈ 0.9846. P(X \le 120) \approx \Phi\left(\frac{120.5 - 100}{9.4868}\right) = \Phi(2.16) \approx 0.9846. P(X≤120)≈Φ(9.4868120.5−100)=Φ(2.16)≈0.9846.

若不加连续性校正，使用 120 得 Φ ( 2.108 ) ≈ 0.9826 \Phi(2.108)\approx 0.9826 Φ(2.108)≈0.9826，差别不大，但校正更精确。

例5：样本均值的概率计算

某品牌灯泡寿命均值 μ = 1000 \mu=1000 μ=1000 小时，标准差 σ = 50 \sigma=50 σ=50 小时。随机抽取 100 只，求样本平均寿命在 990 到 1010 小时之间的概率。
P ( 990 ≤ X ˉ ≤ 1010 ) = P ( 990 − 1000 50 / 100 ≤ X ˉ − μ σ / n ≤ 1010 − 1000 5 ) = P ( − 2 ≤ Z ≤ 2 ) ≈ 0.9545. P(990 \le \bar{X} \le 1010) = P\left(\frac{990-1000}{50/\sqrt{100}} \le \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \le \frac{1010-1000}{5}\right) = P(-2 \le Z \le 2) \approx 0.9545. P(990≤Xˉ≤1010)=P(50/100 990−1000≤σ/n Xˉ−μ≤51010−1000)=P(−2≤Z≤2)≈0.9545.

2.4 何时使用 CLT？

样本量要求 ：通常 n ≥ 30 n \ge 30 n≥30 即可获得不错近似；如果原始分布严重偏斜，可能需要更大样本。
独立同分布：CLT 对独立同分布成立；对于不同分布但有界方差的情况，有李雅普诺夫中心极限定理等推广。
离散分布：可配合连续性校正提高精度。

2.5 大数定律与中心极限定理的区别

定理	描述	收敛类型	结论
弱大数定律	X ˉ n → μ \bar{X}_n \to \mu Xˉn→μ	依概率收敛	样本均值趋近于期望
中心极限定理	n ( X ˉ n − μ ) → N ( 0 , σ 2 ) \sqrt{n}(\bar{X}_n - \mu) \to N(0,\sigma^2) n (Xˉn−μ)→N(0,σ2)	依分布收敛	波动的分布趋于正态

简单说：大数定律告诉我们在哪里（均值附近），中心极限定理告诉我们怎样分布（正态形状）。

3. 总结与进一步思考

切比雪夫不等式给出了任意随机变量偏离均值的概率上界，是证明大数定律的简洁工具，但通常较保守。
弱大数定律保证了样本均值的稳定性，是参数估计和蒙特卡洛方法的基础。
中心极限定理是概率论中最重要的定理之一，它解释了正态分布的普遍性，并提供了大样本近似计算的依据。

实际应用中，我们常结合两者：用大数定律保证估计的一致性，用中心极限定理构造置信区间和进行假设检验。

上一章 机器学习概率论与统计学--(10)统计学：参数估计②