大数定律中的大数是多大?

大数定律中的大数是多大?

所有大数字都很大,但有些数字比其他数字大

大数!=大的数字。

100 算大吗?这取决于我们是否将其与 0.001 或 100000 进行比较?就像生活中的很多事情一样,"大"这个词是相对的。

在这篇文章中,我们解释了"大"有多大,并证明了为什么您对 LLN 的理解(可能)是错误的。

The Law of Large Numbers (LLN) 大数定律

让我们进行一个实验:掷骰子,就像在基础概率课程中所做的那样。掷 数千次骰子,每次都计算投掷的平均值。

(请记住,掷骰子的 期望值为 (1+2+3+4+5+6)/6 = 3.5。)

这是前 10 次的可视化。

首先,掷出 5,然后掷出 1,依此类推。

现在看看如果实验数量增加到 100 和 1000 会发生什么:

数字"越大",样本均值 就越接近真实的 期望值。大数定律恰恰说明了这一点:样本均值 收敛于期望值。

如果想更精确的话,大数定律有两个版本:弱和强。

弱大数定理 如下。

换句话说,随着样本数量(n)的增加,样本均值 X̅ₙ 与期望值 μ 相差很远的概率 会收敛到零。 (稍后我们将更深入地研究这一点。)

看来在骰子实验中n=1000已经足够"大"了。那么其他情况呢?

我们再看一个例子!考虑这张来自德克萨斯州的刮刮乐。

官方网页指出:

本场比赛的总奖金超过 8.29 亿美元!

  • 奖品起价为 150 美元!

  • 有机会赢取 20,000,000 美元

  • 门票只需100美元!

听起来很棒,但 相比被这些数字愚弄 我们更了解数学。如果深入挖掘,就能找到获胜的可能性。这是官方网站的价格表。

知道了这些,就可以轻松计算出我们的机会和期望值:

  • 赢得某物的机会是 26.34%,

  • 每张票的预期收益为 75.28958 美元。 (不包括 100 美元的入场费。)

看来花 100 美元买票并不值得,因为预期价值仅为约 75.3 美元。

现在让我们进行一个与骰子示例类似的实验。我们(假设)购买越来越多的彩票,同时计算平均奖金。我们购买的彩票越多,我们就越接近预期价值 ~ 75 美元。

我们的前十张彩票就没那么幸运了。

我们再买九十个吧!有了一百张票,我们就越来越近了,但我们希望在橙色线的长期运行中能够顺利进行。

让我们进行更大的跳跃:将 n 增加到 10,000。

现在图形出现了平滑的曲线,但这根本不是我们所期望的!它徘徊在 67 美元左右,不是期望值。

让我们更进一步。有了 100 万张彩票,奇怪的事情又发生了:我们很幸运,获胜了几次拉高了平均数。现在,我们的距离更远了!

看来一百万还不是一个"大"数字!

再搞多点!有了一千万张彩票,我们有几次更大的胜利,拉高了平均水平,但效果越来越小。慢慢地,但我们正在接近 期望值。

现在我们终于得到了预期的平滑曲线,徘徊在真实平均值附近。

尽管我们可以在第一个实验中用一千次 来说明大数定律,但在第二次实验中,一百万次才勉强够用。

大数!=大的数字。

我们该如何解释第二个实验中发生的奇怪事情呢?

Variance and the speed of convergence 方差和收敛速度

让我们放大(弱)大数定律!

本质上,概率P(|X̅ₙ - μ| > ε)从概率意义上衡量了 样本均值 与 真实平均值(即期望值)的距离

ε越小,概率距离越大。从数学上来说,以下内容成立。

现在,弱大数定律指出

也就是说,概率距离 会变得尽可能小。

宽松地说,这意味着样本均值等于 真实均值μ 加上 越来越集中到零的分布 o(1)。换句话说,我们有

分布意义上的渐近展开。 o(1) 项表示随着 n 的增长而越来越集中到零的分布。您可能熟悉小 O 和大 O 表示法;它是相同的,但具有概率分布。

弱大数定律和我们的渐进展开是否可以解释我们的彩票会发生什么?也就是说,为什么我们需要一千万个样本才能相当接近真实平均值?

答案是简短而严厉的"不"。

我们需要更大的船渐近扩张。我们的工具将是中心极限定理,这是概率论中最著名的结果之一,它解释了为什么样本均值类似于高斯分布。

The Central Limit Theorem 中心极限定理

让我们直接潜入深水区,看看中心极限定理(CLT)。它指出,从分布意义上来说,√n 缩放的 中心样本均值 收敛于标准正态分布。 ("中心" 指减去期望值。)

重申一下,收敛在分布意义上成立。这只是累积分布函数逐点收敛的奇特方式。 (我知道。概率论中的收敛性非常复杂。)

让我们来解开它:就渐近展开而言,大数定律和中心极限定理意味着:

也就是说,样本均值等于

  1. 期望值 μ

  2. 缩放正态分布(a scaled normal distribution)

  3. 一个消失得比1/√n快的分布(a distribution that vanishes faster, than 1/√n)

这3项的和。

也就是说,就我们的渐进展开而言,我们有

通过将常数μ 合并到正态分布中,可以将其写成更简单的形式。更准确地说,我们有

这意味着我们的渐近展开采用以下形式

换句话说,对于较大的 n,样本均值近似等于方差为 σ²/n 的正态分布。 n越大,方差越小;方差越小,正态分布越集中在期望值 μ 附近。

这终于回答了我们的问题:大数定律中那个神秘的数字有多大?这取决于分布的方差!

我们可以从渐进展开式中看出,如果方差增大 10 倍,则需要大约 10 倍的样本数量才能使平均值与原来一样接近。这是因为 σ2/n 项,其中 σ2 代表样本 X₁、X2、...、Xₙ 的方差,n 代表样本数量。

让我们回顾一下掷骰子和彩票的例子。掷骰子的方差为 35/12 ≈ 2.916,而德克萨斯州彩票的方差约为 157 000 000。这大了 5000 万。这意味着,平均而言,我们需要 5000 万倍大的样本,才能使样本平均值与掷骰子的情况一样接近真实平均值。

值得注意的是,由于大数定律是一种概率陈述,因此像"我们还需要 5000 万个样本"这样的说法是可以从概率角度理解的。如果幸运的话,经过几千个样本后,样本平均值可能非常接近真实平均值。

Conclusion 结论

大数定律经常被误解。

我们经常使用它,但有一个重要的警告。尽管样本均值(几乎肯定)收敛于期望值,但收敛速度取决于样本的方差。方差越大,收敛越慢

这对于许多实际应用来说是个坏消息。例如,这就是蒙特卡罗方法收敛速度慢的原因。在现实生活中,比如赌博,您甚至可能在最终开始获胜之前就耗尽了钱。 (尽管大多数赌场游戏的预期值为负,所以从长远来看你总是会输。)

这给我们上了一课?应用大数定律时,始终牢记收敛速度。

相关推荐
zzb15807 小时前
项目集成Spring Security认证部分
java·后端·spring
码农小旋风12 小时前
Hive分区和分桶
后端
轩情吖13 小时前
二叉树-堆(补充)
c语言·数据结构·c++·后端·二叉树··排序
SomeB1oody14 小时前
【Rust自学】19.2. 高级trait:关联类型、默认泛型参数和运算符重载、完全限定语法、supertrait和newtype
开发语言·后端·rust
加油,旭杏16 小时前
【go语言】函数
开发语言·后端·golang
2501_9032386516 小时前
自定义登录页面的Spring Security实践
java·后端·spring·个人开发
一 乐18 小时前
基于vue船运物流管理系统设计与实现(源码+数据库+文档)
前端·javascript·数据库·vue.js·spring boot·后端·船运系统
沈韶珺19 小时前
Elixir语言的安全开发
开发语言·后端·golang
码界筑梦坊21 小时前
基于Django的个人博客系统的设计与实现
后端·python·django·毕业设计
酷爱码1 天前
springboot 动态配置定时任务
java·spring boot·后端