概率论与数理统计第五章 大数定律及中心极限定理

一、大数定律

1. 依概率收敛的概念

定义 :设 X1,X2,⋯ ,Xn,⋯X_1, X_2, \cdots, X_n, \cdotsX1,X2,⋯,Xn,⋯ 是一个随机变量序列,aaa 是一个常数。如果对于任意 ε>0\varepsilon > 0ε>0,有

lim⁡n→∞P(∣Xn−a∣≥ε)=0 \lim_{n \to \infty} P\left( |X_n - a| \geq \varepsilon \right) = 0 n→∞limP(∣Xn−a∣≥ε)=0

则称序列 {Xn}\{X_n\}{Xn} 依概率收敛于 aaa,记作 Xn→PaX_n \xrightarrow{P} aXnP a。

理解 :依概率收敛意味着当 nnn 充分大时,XnX_nXn 与 aaa 的偏差很大的可能性非常小。

2. 辛钦大数定律

定理 :设 X1,X2,⋯ ,Xn,⋯X_1, X_2, \cdots, X_n, \cdotsX1,X2,⋯,Xn,⋯ 是独立同分布的随机变量序列,且数学期望 E(Xi)=μE(X_i) = \muE(Xi)=μ 存在,则对任意 ε>0\varepsilon > 0ε>0,有

lim⁡n→∞P(∣1n∑i=1nXi−μ∣≥ε)=0 \lim_{n \to \infty} P\left( \left| \frac{1}{n} \sum_{i=1}^n X_i - \mu \right| \geq \varepsilon \right) = 0 n→∞limP( n1i=1∑nXi−μ ≥ε)=0

即 1n∑i=1nXi→Pμ\frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{P} \mun1∑i=1nXiP μ。

意义 :当 nnn 充分大时,随机变量的算术平均值依概率收敛于其数学期望。

例题 :设 X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn 是独立同分布的随机变量,且 E(Xi)=μE(X_i)=\muE(Xi)=μ,D(Xi)=σ2D(X_i)=\sigma^2D(Xi)=σ2,则根据辛钦大数定律,当 nnn 充分大时,1n∑i=1nXi\frac{1}{n}\sum_{i=1}^n X_in1∑i=1nXi 依概率收敛于 μ\muμ。

3. 伯努利大数定律

定理 :设 nAn_AnA 是 nnn 次独立重复试验中事件 AAA 发生的次数,ppp 是每次试验中 AAA 发生的概率,则对任意 ε>0\varepsilon > 0ε>0,有

lim⁡n→∞P(∣nAn−p∣≥ε)=0 \lim_{n \to \infty} P\left( \left| \frac{n_A}{n} - p \right| \geq \varepsilon \right) = 0 n→∞limP( nnA−p ≥ε)=0

即 nAn→Pp\frac{n_A}{n} \xrightarrow{P} pnnAP p。

意义:频率依概率收敛于概率,为概率的统计定义提供了理论依据。

历年考题 :在抛硬币试验中,正面出现的频率为 nA/nn_A/nnA/n,则根据伯努利大数定律,当试验次数 nnn 充分大时,频率 nA/nn_A/nnA/n 依概率收敛于正面出现的概率 ppp。

二、中心极限定理

1. 独立同分布的中心极限定理

定理 :设 X1,X2,⋯ ,Xn,⋯X_1, X_2, \cdots, X_n, \cdotsX1,X2,⋯,Xn,⋯ 是独立同分布的随机变量序列,且 E(Xi)=μE(X_i)=\muE(Xi)=μ,D(Xi)=σ2>0D(X_i)=\sigma^2>0D(Xi)=σ2>0,则随机变量

Yn=∑i=1nXi−nμnσ Y_n = \frac{\sum_{i=1}^n X_i - n\mu}{\sqrt{n}\sigma} Yn=n σ∑i=1nXi−nμ

的分布函数 Fn(x)F_n(x)Fn(x) 对于任意 xxx 满足

lim⁡n→∞Fn(x)=lim⁡n→∞P(Yn≤x)=Φ(x) \lim_{n \to \infty} F_n(x) = \lim_{n \to \infty} P\left( Y_n \leq x \right) = \Phi(x) n→∞limFn(x)=n→∞limP(Yn≤x)=Φ(x)

其中 Φ(x)\Phi(x)Φ(x) 是标准正态分布的分布函数。

意义 :当 nnn 充分大时,YnY_nYn 近似服从标准正态分布,即 ∑i=1nXi\sum_{i=1}^n X_i∑i=1nXi 近似服从 N(nμ,nσ2)N(n\mu, n\sigma^2)N(nμ,nσ2)。

例题:某单位有200台电话分机,每台分机有5%的时间要使用外线通话。假定每台分机是否使用外线是相互独立的,问该单位至少需要安装多少条外线,才能以90%以上的概率保证每台分机在使用外线时不用等候?

:设 XXX 为同时使用外线的分机数,则 X∼B(200,0.05)X \sim B(200, 0.05)X∼B(200,0.05)。根据中心极限定理,XXX 近似服从 N(10,9.5)N(10, 9.5)N(10,9.5)(因为 np=10np=10np=10,np(1−p)=9.5np(1-p)=9.5np(1−p)=9.5)。设安装 NNN 条外线,则要求 P(X≤N)≥0.9P(X \leq N) \geq 0.9P(X≤N)≥0.9。标准化得

P(X−109.5≤N−109.5)≈Φ(N−109.5)≥0.9 P\left( \frac{X-10}{\sqrt{9.5}} \leq \frac{N-10}{\sqrt{9.5}} \right) \approx \Phi\left( \frac{N-10}{\sqrt{9.5}} \right) \geq 0.9 P(9.5 X−10≤9.5 N−10)≈Φ(9.5 N−10)≥0.9

查标准正态分布表得 Φ(1.28)≈0.9\Phi(1.28) \approx 0.9Φ(1.28)≈0.9,所以

N−109.5≥1.28⇒N≥10+1.28×9.5≈13.94 \frac{N-10}{\sqrt{9.5}} \geq 1.28 \Rightarrow N \geq 10 + 1.28 \times \sqrt{9.5} \approx 13.94 9.5 N−10≥1.28⇒N≥10+1.28×9.5 ≈13.94

故至少需要安装14条外线。

2. 李雅普诺夫中心极限定理

定理 :设 X1,X2,⋯ ,Xn,⋯X_1, X_2, \cdots, X_n, \cdotsX1,X2,⋯,Xn,⋯ 是独立随机变量序列,且 E(Xi)=μiE(X_i)=\mu_iE(Xi)=μi,D(Xi)=σi2>0D(X_i)=\sigma_i^2>0D(Xi)=σi2>0,记 Bn2=∑i=1nσi2B_n^2 = \sum_{i=1}^n \sigma_i^2Bn2=∑i=1nσi2。若存在正数 δ\deltaδ,使得

lim⁡n→∞1Bn2+δ∑i=1nE(∣Xi−μi∣2+δ)=0 \lim_{n \to \infty} \frac{1}{B_n^{2+\delta}} \sum_{i=1}^n E\left( |X_i - \mu_i|^{2+\delta} \right) = 0 n→∞limBn2+δ1i=1∑nE(∣Xi−μi∣2+δ)=0

则随机变量

Zn=∑i=1nXi−∑i=1nμiBn Z_n = \frac{\sum_{i=1}^n X_i - \sum_{i=1}^n \mu_i}{B_n} Zn=Bn∑i=1nXi−∑i=1nμi

的分布函数 Fn(x)F_n(x)Fn(x) 对于任意 xxx 满足

lim⁡n→∞Fn(x)=Φ(x) \lim_{n \to \infty} F_n(x) = \Phi(x) n→∞limFn(x)=Φ(x)

意义:即使随机变量不是同分布的,只要满足李雅普诺夫条件,其和标准化后也近似服从标准正态分布。

3. 棣莫弗-拉普拉斯中心极限定理

定理 :设 nAn_AnA 是 nnn 次独立重复试验中事件 AAA 发生的次数,ppp 是每次试验中 AAA 发生的概率,则对任意 xxx,有

lim⁡n→∞P(nA−npnp(1−p)≤x)=Φ(x) \lim_{n \to \infty} P\left( \frac{n_A - np}{\sqrt{np(1-p)}} \leq x \right) = \Phi(x) n→∞limP(np(1−p) nA−np≤x)=Φ(x)

意义 :该定理是独立同分布中心极限定理的特例,它说明当 nnn 充分大时,二项分布 B(n,p)B(n,p)B(n,p) 近似正态分布 N(np,np(1−p))N(np, np(1-p))N(np,np(1−p))。

历年考题:某保险公司的老年人寿保险有1万人参加,每人每年交200元。若老人在该年内死亡,公司付给家属1万元。设老年人死亡率为0.017,试求保险公司在一年内的这项保险中亏本的概率。

:设死亡人数为 XXX,则 X∼B(10000,0.017)X \sim B(10000, 0.017)X∼B(10000,0.017)。保险公司亏本当且仅当 10000X>10000×20010000X > 10000 \times 20010000X>10000×200,即 X>200X > 200X>200。根据棣莫弗-拉普拉斯中心极限定理,XXX 近似服从 N(170,167.11)N(170, 167.11)N(170,167.11)(因为 np=170np=170np=170,np(1−p)=10000×0.017×0.983=167.11np(1-p)=10000\times0.017\times0.983=167.11np(1−p)=10000×0.017×0.983=167.11)。则

P(X>200)=1−P(X≤200)≈1−Φ(200−170167.11)=1−Φ(2.32)≈1−0.9898=0.0102 P(X > 200) = 1 - P(X \leq 200) \approx 1 - \Phi\left( \frac{200-170}{\sqrt{167.11}} \right) = 1 - \Phi(2.32) \approx 1 - 0.9898 = 0.0102 P(X>200)=1−P(X≤200)≈1−Φ(167.11 200−170)=1−Φ(2.32)≈1−0.9898=0.0102

所以亏本的概率约为0.0102。

总结

大数定律和中心极限定理是概率论中非常重要的理论基础。大数定律说明了随机变量的算术平均值和频率的稳定性,中心极限定理则说明了大量独立随机变量的和近似服从正态分布。这些定理在统计学、保险精算、质量控制等领域有着广泛的应用。


使用说明

  • 在CSDN的Markdown编辑器中,以上内容可以直接复制使用
  • 公式会正常渲染显示
  • 建议在发布时选择"支持数学公式"的选项(CSDN默认支持)
  • 如需调整公式大小,可以在公式代码前添加\large\small等命令
相关推荐
杰瑞不懂代码2 天前
【公式推导】AMP算法比BP算法强在哪(二)
python·算法·机器学习·概率论
浅川.252 天前
概率论与数理统计:期末复习梳理
概率论·数理统计
雪不下3 天前
计算机中的数学:概率(6)
人工智能·机器学习·概率论
黎茗Dawn3 天前
DDPM-明确 [特殊字符] [特殊字符] 系数
概率论
Cathy Bryant3 天前
概率论直觉(三):边缘化
笔记·机器学习·数学建模·概率论
TDengine (老段)4 天前
TDengine 统计函数 VAR_SAMP 用户手册
大数据·数据库·物联网·概率论·时序数据库·tdengine·涛思数据
oscar9994 天前
概率论与数理统计第四章 随机变量的数字特征
概率论·数字特征
杰瑞不懂代码4 天前
【公式推导】AMP算法比BP算法强在哪(一)
python·算法·机器学习·概率论
oscar9995 天前
概率论与数理统计第一章 概率论的基本概念
概率论