大数定律中的大数是多大？

所有大数字都很大，但有些数字比其他数字大

大数！=大的数字。

100 算大吗？这取决于我们是否将其与 0.001 或 100000 进行比较？就像生活中的很多事情一样，"大"这个词是相对的。

在这篇文章中，我们解释了"大"有多大，并证明了为什么您对 LLN 的理解（可能）是错误的。

The Law of Large Numbers (LLN) 大数定律

让我们进行一个实验：掷骰子，就像在基础概率课程中所做的那样。掷数千次骰子，每次都计算投掷的平均值。

（请记住，掷骰子的期望值为 (1+2+3+4+5+6)/6 = 3.5。）

这是前 10 次的可视化。

首先，掷出 5，然后掷出 1，依此类推。

现在看看如果实验数量增加到 100 和 1000 会发生什么：

数字"越大"，样本均值就越接近真实的期望值。大数定律恰恰说明了这一点：样本均值收敛于期望值。

如果想更精确的话，大数定律有两个版本：弱和强。

弱大数定理如下。

换句话说，随着样本数量（n）的增加，样本均值 X̅ₙ 与期望值 μ 相差很远的概率会收敛到零。（稍后我们将更深入地研究这一点。）

看来在骰子实验中n=1000已经足够"大"了。那么其他情况呢？

我们再看一个例子！考虑这张来自德克萨斯州的刮刮乐。

官方网页指出：

本场比赛的总奖金超过 8.29 亿美元！

奖品起价为 150 美元！
有机会赢取 20,000,000 美元
门票只需100美元！

听起来很棒，但相比被这些数字愚弄我们更了解数学。如果深入挖掘，就能找到获胜的可能性。这是官方网站的价格表。

知道了这些，就可以轻松计算出我们的机会和期望值：

赢得某物的机会是 26.34%，
每张票的预期收益为 75.28958 美元。（不包括 100 美元的入场费。）

看来花 100 美元买票并不值得，因为预期价值仅为约 75.3 美元。

现在让我们进行一个与骰子示例类似的实验。我们（假设）购买越来越多的彩票，同时计算平均奖金。我们购买的彩票越多，我们就越接近预期价值 ~ 75 美元。

我们的前十张彩票就没那么幸运了。

我们再买九十个吧！有了一百张票，我们就越来越近了，但我们希望在橙色线的长期运行中能够顺利进行。

让我们进行更大的跳跃：将 n 增加到 10,000。

现在图形出现了平滑的曲线，但这根本不是我们所期望的！它徘徊在 67 美元左右，不是期望值。

让我们更进一步。有了 100 万张彩票，奇怪的事情又发生了：我们很幸运，获胜了几次拉高了平均数。现在，我们的距离更远了！

看来一百万还不是一个"大"数字！

再搞多点！有了一千万张彩票，我们有几次更大的胜利，拉高了平均水平，但效果越来越小。慢慢地，但我们正在接近期望值。

现在我们终于得到了预期的平滑曲线，徘徊在真实平均值附近。

尽管我们可以在第一个实验中用一千次来说明大数定律，但在第二次实验中，一百万次才勉强够用。

大数！=大的数字。

我们该如何解释第二个实验中发生的奇怪事情呢？

Variance and the speed of convergence 方差和收敛速度

让我们放大（弱）大数定律！

本质上，概率P(|X̅ₙ - μ| > ε)从概率意义上衡量了 样本均值与真实平均值（即期望值）的距离。

ε越小，概率距离越大。从数学上来说，以下内容成立。

现在，弱大数定律指出

也就是说，概率距离会变得尽可能小。

宽松地说，这意味着样本均值等于真实均值μ 加上 越来越集中到零的分布 o(1)。换句话说，我们有

分布意义上的渐近展开。 o(1) 项表示随着 n 的增长而越来越集中到零的分布。您可能熟悉小 O 和大 O 表示法；它是相同的，但具有概率分布。

弱大数定律和我们的渐进展开是否可以解释我们的彩票会发生什么？也就是说，为什么我们需要一千万个样本才能相当接近真实平均值？

答案是简短而严厉的"不"。

我们需要更大的船渐近扩张。我们的工具将是中心极限定理，这是概率论中最著名的结果之一，它解释了为什么样本均值类似于高斯分布。

The Central Limit Theorem 中心极限定理

让我们直接潜入深水区，看看中心极限定理（CLT）。它指出，从分布意义上来说，√n 缩放的中心样本均值收敛于标准正态分布。（"中心" 指减去期望值。）

重申一下，收敛在分布意义上成立。这只是累积分布函数逐点收敛的奇特方式。（我知道。概率论中的收敛性非常复杂。）

让我们来解开它：就渐近展开而言，大数定律和中心极限定理意味着：

也就是说，样本均值等于

期望值 μ
缩放正态分布(a scaled normal distribution)
一个消失得比1/√n快的分布(a distribution that vanishes faster, than 1/√n)

这3项的和。

也就是说，就我们的渐进展开而言，我们有

通过将常数μ 合并到正态分布中，可以将其写成更简单的形式。更准确地说，我们有

这意味着我们的渐近展开采用以下形式

换句话说，对于较大的 n，样本均值近似等于方差为 σ²/n 的正态分布。 n越大，方差越小；方差越小，正态分布越集中在期望值 μ 附近。

这终于回答了我们的问题：大数定律中那个神秘的数字有多大？这取决于分布的方差！

我们可以从渐进展开式中看出，如果方差增大 10 倍，则需要大约 10 倍的样本数量才能使平均值与原来一样接近。这是因为 σ2/n 项，其中 σ2 代表样本 X₁、X2、...、Xₙ 的方差，n 代表样本数量。

让我们回顾一下掷骰子和彩票的例子。掷骰子的方差为 35/12 ≈ 2.916，而德克萨斯州彩票的方差约为 157 000 000。这大了 5000 万。这意味着，平均而言，我们需要 5000 万倍大的样本，才能使样本平均值与掷骰子的情况一样接近真实平均值。

值得注意的是，由于大数定律是一种概率陈述，因此像"我们还需要 5000 万个样本"这样的说法是可以从概率角度理解的。如果幸运的话，经过几千个样本后，样本平均值可能非常接近真实平均值。

Conclusion 结论

大数定律经常被误解。

我们经常使用它，但有一个重要的警告。尽管样本均值（几乎肯定）收敛于期望值，但收敛速度取决于样本的方差。方差越大，收敛越慢。

这对于许多实际应用来说是个坏消息。例如，这就是蒙特卡罗方法收敛速度慢的原因。在现实生活中，比如赌博，您甚至可能在最终开始获胜之前就耗尽了钱。（尽管大多数赌场游戏的预期值为负，所以从长远来看你总是会输。）

这给我们上了一课？应用大数定律时，始终牢记收敛速度。