极限定理是概率论中连接抽象理论与实际应用的关键桥梁。它们解释了为什么在大量重复试验下,随机现象会呈现出稳定的规律性,以及为什么正态分布在自然界中无处不在。本讲将深入讲解两大核心定理:大数定律 (以弱大数定律为主)和中心极限定理,包括其数学表述、直观理解、证明思路(切比雪夫不等式)以及实际应用中的近似计算。
1. 大数定律
1.1 直观含义
大数定律(Law of Large Numbers)告诉我们:当独立重复试验的次数 n n n 足够大时,样本均值 X ˉ n \bar{X}_n Xˉn 会以很大的概率接近总体均值 μ \mu μ。换句话说,随着样本量增加,随机误差相互抵消,平均值趋于稳定。
例子 :抛一枚公平硬币,正面概率 p = 0.5 p=0.5 p=0.5。抛 10 次可能得到 7 次正面(频率 0.7),但抛 10000 次,正面频率会非常接近 0.5。
1.2 切比雪夫不等式
切比雪夫不等式是大数定律证明的关键工具,它给出了随机变量偏离其均值的概率的上界。
定理 :设 X X X 是一个随机变量,期望 E [ X ] = μ E[X]=\mu E[X]=μ,方差 Var ( X ) = σ 2 \operatorname{Var}(X)=\sigma^2 Var(X)=σ2 有限。则对任意 ε > 0 \varepsilon > 0 ε>0,
P ( ∣ X − μ ∣ ≥ ε ) ≤ σ 2 ε 2 P(|X-\mu| \ge \varepsilon) \le \frac{\sigma^2}{\varepsilon^2} P(∣X−μ∣≥ε)≤ε2σ2
推导 (以连续型为例,离散类似):
P ( ∣ X − μ ∣ ≥ ε ) = ∫ ∣ x − μ ∣ ≥ ε f ( x ) d x ≤ ∫ ∣ x − μ ∣ ≥ ε ( x − μ ) 2 ε 2 f ( x ) d x ≤ 1 ε 2 ∫ − ∞ ∞ ( x − μ ) 2 f ( x ) d x = σ 2 ε 2 P(|X-\mu|\ge\varepsilon) = \int_{|x-\mu|\ge\varepsilon} f(x)\,dx \le \int_{|x-\mu|\ge\varepsilon} \frac{(x-\mu)^2}{\varepsilon^2} f(x)\,dx \le \frac{1}{\varepsilon^2} \int_{-\infty}^{\infty} (x-\mu)^2 f(x)\,dx = \frac{\sigma^2}{\varepsilon^2} P(∣X−μ∣≥ε)=∫∣x−μ∣≥εf(x)dx≤∫∣x−μ∣≥εε2(x−μ)2f(x)dx≤ε21∫−∞∞(x−μ)2f(x)dx=ε2σ2
其中第一步用了不等式 1 ≤ ( x − μ ) 2 / ε 2 1 \le (x-\mu)^2/\varepsilon^2 1≤(x−μ)2/ε2 在积分区域内成立。
例1 :设 X X X 服从正态分布 N ( 0 , 1 ) N(0,1) N(0,1), σ 2 = 1 \sigma^2=1 σ2=1,取 ε = 2 \varepsilon=2 ε=2,切比雪夫不等式给出 P ( ∣ X ∣ ≥ 2 ) ≤ 1 / 4 = 0.25 P(|X|\ge2) \le 1/4 = 0.25 P(∣X∣≥2)≤1/4=0.25,而实际概率约为 0.0455,说明上界较宽松。
1.3 弱大数定律(WLLN)
定理 :设 X 1 , X 2 , ... X_1, X_2, \dots X1,X2,... 是独立同分布的随机变量,具有有限均值 μ \mu μ 和有限方差 σ 2 \sigma^2 σ2(实际上方差有限不是必需的,但这里用切比雪夫证明需要)。
记样本均值 X ˉ n = 1 n ∑ i = 1 n X i \bar{X}n = \frac{1}{n}\sum{i=1}^n X_i Xˉn=n1∑i=1nXi。则对任意 ε > 0 \varepsilon > 0 ε>0,
lim n → ∞ P ( ∣ X ˉ n − μ ∣ ≥ ε ) = 0 \lim_{n\to\infty} P(|\bar{X}_n - \mu| \ge \varepsilon) = 0 n→∞limP(∣Xˉn−μ∣≥ε)=0
即 X ˉ n \bar{X}_n Xˉn 依概率收敛于 μ \mu μ。
证明(使用切比雪夫不等式) :
由于 E [ X ˉ n ] = μ E[\bar{X}_n] = \mu E[Xˉn]=μ, Var ( X ˉ n ) = σ 2 / n \operatorname{Var}(\bar{X}_n) = \sigma^2/n Var(Xˉn)=σ2/n。对任意 ε > 0 \varepsilon>0 ε>0,
P ( ∣ X ˉ n − μ ∣ ≥ ε ) ≤ Var ( X ˉ n ) ε 2 = σ 2 n ε 2 → 0 ( n → ∞ ) P(|\bar{X}_n - \mu| \ge \varepsilon) \le \frac{\operatorname{Var}(\bar{X}_n)}{\varepsilon^2} = \frac{\sigma^2}{n\varepsilon^2} \to 0 \quad (n\to\infty) P(∣Xˉn−μ∣≥ε)≤ε2Var(Xˉn)=nε2σ2→0(n→∞)
注意 :弱大数定律只要求方差有限,实际上切比雪夫不等式给出了收敛速度 O ( 1 / n ) O(1/n) O(1/n)。更一般的结论(如辛钦大数定律)只要求均值存在,无需方差有限,但证明更复杂。
1.4 大数定律的意义
- 统计学的基石:样本均值可以作为总体均值的估计,且随着样本量增大,估计越来越可靠。
- 频率与概率:事件发生的频率收敛于其概率,这为概率的频率解释提供了理论支持。
- 蒙特卡洛方法:通过大量随机模拟计算复杂积分或期望。
2. 中心极限定理
如果说大数定律说明了样本均值趋近于总体均值,那么中心极限定理(Central Limit Theorem, CLT)则进一步描述了样本均值围绕均值的波动分布------它趋向于正态分布。
2.1 定理内容(独立同分布情形)
设 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn 是独立同分布的随机变量,具有有限均值 μ \mu μ 和有限方差 σ 2 > 0 \sigma^2 > 0 σ2>0。定义样本均值为 X ˉ n \bar{X}_n Xˉn,则标准化和
Z n = X ˉ n − μ σ / n = ∑ i = 1 n X i − n μ n σ Z_n = \frac{\bar{X}n - \mu}{\sigma/\sqrt{n}} = \frac{\sum{i=1}^n X_i - n\mu}{\sqrt{n}\sigma} Zn=σ/n Xˉn−μ=n σ∑i=1nXi−nμ
的分布函数当 n → ∞ n \to \infty n→∞ 时收敛于标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1)。即对任意实数 x x x,
lim n → ∞ P ( Z n ≤ x ) = Φ ( x ) = ∫ − ∞ x 1 2 π e − t 2 / 2 d t . \lim_{n\to\infty} P(Z_n \le x) = \Phi(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{-t^2/2} dt. n→∞limP(Zn≤x)=Φ(x)=∫−∞x2π 1e−t2/2dt.
2.2 直观理解
- 无论原始分布是什么形状(只要方差有限),大量独立随机变量之和(或均值)的分布都近似为正态分布。
- 正态分布因此成为自然界中最常见的分布,例如测量误差、身高、考试分数等,往往可以看作许多独立微小效应的叠加。
例2 :掷一颗骰子(均匀分布),单次点数均值 3.5,方差 35/12 ≈ 2.9167。掷 100 次,总点数 S 100 S_{100} S100 的分布近似正态 N ( 350 , 100 × 2.9167 ) N(350, 100\times2.9167) N(350,100×2.9167),即均值 350,标准差 291.67 ≈ 17.08 \sqrt{291.67}\approx 17.08 291.67 ≈17.08。
2.3 应用:近似计算概率
中心极限定理允许我们在样本量足够大时,用正态分布近似计算涉及独立同分布随机变量和的概率,避免精确分布的复杂计算(如二项分布当 n n n 大时)。
例3:二项分布的正态近似
设 X ∼ B ( n , p ) X \sim B(n, p) X∼B(n,p),即 n n n 次独立伯努利试验成功次数。由于 X = ∑ i = 1 n Y i X = \sum_{i=1}^n Y_i X=∑i=1nYi,其中 Y i ∼ Bernoulli ( p ) Y_i \sim \text{Bernoulli}(p) Yi∼Bernoulli(p),且 E [ Y i ] = p E[Y_i]=p E[Yi]=p, Var ( Y i ) = p ( 1 − p ) \operatorname{Var}(Y_i)=p(1-p) Var(Yi)=p(1−p)。由 CLT,当 n n n 大时,
X − n p n p ( 1 − p ) ≈ N ( 0 , 1 ) . \frac{X - np}{\sqrt{np(1-p)}} \approx N(0,1). np(1−p) X−np≈N(0,1).
因此, P ( a ≤ X ≤ b ) ≈ Φ ( b + 0.5 − n p n p ( 1 − p ) ) − Φ ( a − 0.5 − n p n p ( 1 − p ) ) P(a \le X \le b) \approx \Phi\left(\frac{b+0.5 - np}{\sqrt{np(1-p)}}\right) - \Phi\left(\frac{a-0.5 - np}{\sqrt{np(1-p)}}\right) P(a≤X≤b)≈Φ(np(1−p) b+0.5−np)−Φ(np(1−p) a−0.5−np)(连续性校正)。
例4 :某产品次品率 p = 0.1 p=0.1 p=0.1,抽检 1000 件,求次品数不超过 120 的概率。
精确二项计算复杂,用 CLT: μ = n p = 100 \mu = np = 100 μ=np=100, σ = 1000 × 0.1 × 0.9 = 90 ≈ 9.4868 \sigma = \sqrt{1000\times0.1\times0.9} = \sqrt{90} \approx 9.4868 σ=1000×0.1×0.9 =90 ≈9.4868。
P ( X ≤ 120 ) ≈ Φ ( 120.5 − 100 9.4868 ) = Φ ( 2.16 ) ≈ 0.9846. P(X \le 120) \approx \Phi\left(\frac{120.5 - 100}{9.4868}\right) = \Phi(2.16) \approx 0.9846. P(X≤120)≈Φ(9.4868120.5−100)=Φ(2.16)≈0.9846.若不加连续性校正,使用 120 得 Φ ( 2.108 ) ≈ 0.9826 \Phi(2.108)\approx 0.9826 Φ(2.108)≈0.9826,差别不大,但校正更精确。
例5:样本均值的概率计算
某品牌灯泡寿命均值 μ = 1000 \mu=1000 μ=1000 小时,标准差 σ = 50 \sigma=50 σ=50 小时。随机抽取 100 只,求样本平均寿命在 990 到 1010 小时之间的概率。
P ( 990 ≤ X ˉ ≤ 1010 ) = P ( 990 − 1000 50 / 100 ≤ X ˉ − μ σ / n ≤ 1010 − 1000 5 ) = P ( − 2 ≤ Z ≤ 2 ) ≈ 0.9545. P(990 \le \bar{X} \le 1010) = P\left(\frac{990-1000}{50/\sqrt{100}} \le \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \le \frac{1010-1000}{5}\right) = P(-2 \le Z \le 2) \approx 0.9545. P(990≤Xˉ≤1010)=P(50/100 990−1000≤σ/n Xˉ−μ≤51010−1000)=P(−2≤Z≤2)≈0.9545.
2.4 何时使用 CLT?
- 样本量要求 :通常 n ≥ 30 n \ge 30 n≥30 即可获得不错近似;如果原始分布严重偏斜,可能需要更大样本。
- 独立同分布:CLT 对独立同分布成立;对于不同分布但有界方差的情况,有李雅普诺夫中心极限定理等推广。
- 离散分布:可配合连续性校正提高精度。
2.5 大数定律与中心极限定理的区别
| 定理 | 描述 | 收敛类型 | 结论 |
|---|---|---|---|
| 弱大数定律 | X ˉ n → μ \bar{X}_n \to \mu Xˉn→μ | 依概率收敛 | 样本均值趋近于期望 |
| 中心极限定理 | n ( X ˉ n − μ ) → N ( 0 , σ 2 ) \sqrt{n}(\bar{X}_n - \mu) \to N(0,\sigma^2) n (Xˉn−μ)→N(0,σ2) | 依分布收敛 | 波动的分布趋于正态 |
简单说:大数定律告诉我们在哪里(均值附近),中心极限定理告诉我们怎样分布(正态形状)。
3. 总结与进一步思考
- 切比雪夫不等式给出了任意随机变量偏离均值的概率上界,是证明大数定律的简洁工具,但通常较保守。
- 弱大数定律保证了样本均值的稳定性,是参数估计和蒙特卡洛方法的基础。
- 中心极限定理是概率论中最重要的定理之一,它解释了正态分布的普遍性,并提供了大样本近似计算的依据。
实际应用中,我们常结合两者:用大数定律保证估计的一致性,用中心极限定理构造置信区间和进行假设检验。