高斯积分、中心极限定理与正态分布

定义

所谓高斯积分，是指

在概率论中通常写成一般形式（）

正态（高斯）分布的核心形状就是（）

背景

（背景部分大多数定理是没有给出证明地，只是单纯的套用，所以不用纠结在这，只需要简单了解即可）

考虑伯努利试验，次抛硬币，正反面概率。正面次数的概率为

我们要研究的是当抛次硬币（伯努利试验，成功概率）时，正面次数恰好为的概率（是"偏离中心的量，且相对很小）。所以

组合数，这里。阶乘在计算中是比较麻烦的，使用阶乘来表示我们也无法看到它的变化图像及概率。这里要用到Stirling近似，Stirling近似的作用是将离散的阶乘转化为连续的指数函数形式，从而通过代数化简和对数展开，得到分布的形状。

Stirling近似

Stirling近似是描述大整数阶乘（）渐近行为的公式，其标准形式为

其中""表示渐近等价，当趋向无穷大时，左右两边的比值趋近于1（即相对误差趋于0）。更精确的展开还包括高阶修正项，例如：

Stirling近似的"渐近性"体现在当增大时，相对误差迅速趋于0，例如，相对误差约0.83%；相对误差降至0.0008%。

证明：

Stirling近似的本质是用连续函数逼近离散阶乘的增长规律，其推导过程包括以下三步：

1.从"离散求和"到"连续积分"：

阶乘的对数是离散求和，当很大时，可用连续积分近似，即

计算积分，因此

（当很大时，常数项可忽略）

这里用连续积分近似得到的主项，即

两边同取指数，得

这里之所以使用的对数形式来做近似而不是其他函数，是因为阶乘增长过快，对数恰好可以把"离散的乘积/阶乘"变成"离散的求和"，把"指数增长"变成"多项式增长"。

2.修正项（更精细的近似）：

上述积分近似忽略了求和与积分的"间隙误差"（即），对于求和来说指矩形面积，积分则表示曲线下的面积，所以两者之差本质上时"矩形与曲边梯形的缝隙"。根据Euler--Maclaurin 公式

其中，所以代入公式得

整理主项得

为待定常数。需要根据Wallis 公式确定常数，Wallis 公式为

把阶乘用 Stirling 近似代入 Wallis 公式，两边取对数并比较常数项，可以唯一解出：

指数化，得到最终形式

对组合数的三个阶乘（）分别用Stirling近似，代入后得到：

分母根号部分，因此，根号的比值为

指数部分，展开后利用对数性质和泰勒展开最终可化简出指数上的二次项。经过根号和指数的化简，最终得到：

这里就出现了这样的"钟形"函数。

钟形曲线就从二项分布的问题中第一次出现。

求解

关于高斯积分的求解的过程是一个很巧妙的过程。为了可视化地看到这个积分的求解过程，我推荐两个博主的视频（第二个视频也是我最喜欢的博主3Blue1Brown，他介绍的积分过程更详细更可观；当然，第一个视频的介绍也相当不错，可以很好地理解积分的思路过程）：

优雅的高斯积分与钟形曲线，一个普适性的公式_哔哩哔哩_bilibili

【官方双语】为什么正态分布里会有一个π？（不止是积分技巧）_哔哩哔哩_bilibili

我在这里用数学推导的方式简要介绍高斯积分的求解过程：

高斯积分是概率论、微积分、数理统计（尤其正态分布、中心极限定理）中核心反常积分，其经典形式为：

的原函数不是初等函数，无法用常规不定积分公式直接求解，因此主流解法是将单积分平方转化为二重积分，再通过极坐标变换计算。

首先被积函数，且当时，指数衰减远快于幂函数增长，因此反常积分收敛。

由定积分乘法规则，两个独立变量的单积分相乘可改写为二重累次积分。积分变量可自由换名，第二个积分把变量改为，两积分相互独立：

第二个积分对于对进行积分的来说是常数，所以可以写成

合并积分区域后得（积分区域为整个平面）

要对上式进行积分的话就要进行双重积分。被积函数有两个未知数，表示平面上的一个点。而根据勾股定理得，表示点离中心原点的距离，也就是一个圆的半径，对于每个圆的半径都有一个高度值。不同的就代表了不同的圆，一圈一圈的圆形成了不同的高度，整个式子就形成了一个空间曲面，即钟形曲面。

我们要求的就是求这个钟形曲面下的体积，因为可以视为边长为的非常小的矩形，然后乘上高就得到了一个非常小的方柱体体积，将这些体积通过积分累加起来就是曲面下的体积。

如果我们在曲面上任意画一个圆（将其视作壁厚无限小，即半径为的空心筒壁），它的半径为，那它的周长就是，侧面积等于，则它的体积为（将其展开为长方体，底面积乘高即可）。

曲线可视为无数个这样的薄壁圆筒的体积之和，我们对这个薄壁圆筒的体积进行积分就得到的曲线下的面积：

的积分就很好算了，直接用不定积分公式求解即可。求得，所以，即

中心极限定理

设是一组独立同分布的随机变量，它们满足

两两相互独立
服从同一概率分布
存在有限的数学期望，方差有限且非零

定义样本和（或样本均值），将其标准化：

则当样本量（数量足够大）时，的分布会收敛于标准正态分布，即：

或者说，随机变量的和近似服从正态分布。

通俗来讲，中心极限定理就是在说无论单个随机变量原本是什么分布，只要变量相互独立、期望和方差有限，当变量数量足够多时，它们的总和（或平均值）一定会近似服从正态分布（钟形分布）。

3Blue1Brown在视频【官方双语】但是什么是中心极限定理？_哔哩哔哩_bilibili中以高尔顿板和掷骰子的实例很好的说明了中心极限定理，非常推荐观看。以下会简要介绍两个实例。
实例一：高尔顿板

理想高尔顿板规则：

小球每碰到一颗钉子，独立选择向左或向右，概率各为；

定义单次碰撞的偏移量为随机变量（表示第排钉子）：

板上一共有排钉子，因此每个小球会连续经历次独立碰撞。

计算的期望和方差：

可见，满足独立、同分布、期望和方差均有限，符合独立同分布中心极限定理的使用条件。

一个小球经过全部排钉子，总偏移量为个单次偏移量的和：

次左右选择，就是对同一个基础随机变量的次独立重复抽样，再求它们的和。

根据期望、方差的可加性：

总期望值：

总方差：

总标准差：

将做标准化变换：

根据独立同分布中心极限定理，当钉子排数（排数足够多）时，标准化变量依分布收敛于标准正态分布。

当我们扔成千上万个小球（各小球之间不会互相干扰），就是对随机变量进行大量独立重复抽样，得到一组样本。这些足够多的样本所组成的柱状图会平滑成正态分布密度曲线。
实例二：掷骰子

在掷骰子时，每个骰子的点数，就是一个独立同分布的随机变量（），并且服从离散均匀分布（每个数出现概率均为）。并且期望，方差。满足独立、同分布、期望和方差均有限，符合独立同分布中心极限定理的使用条件。

当我们掷个骰子时，总点数就是个独立变量的和：

根据期望和方差的可加性，总期望，总方差。

将做标准化变换：

根据独立同分布中心极限定理，当掷骰子数时，标准化变量依分布收敛于标准正态分布。

另外，随机变量的分布并不影响它们的总和（或平均值）近似服从正态分布。我们上述使用的均匀分布的骰子（）（如下图所示）。当只计算一个骰子（）时，分布是平坦的，每个点数的概率都是，和正态分布无关系；当时，两个骰子的和范围是 2~12，概率分布变成三角形（和为 7 的概率最高，两边对称下降），已经有了钟形的雏形；当或更大时，和的分布会变得非常对称、平滑，几乎和正态分布无法区分。

当使用偏态分布的骰子时，当足够大时，进行标准化变换后，与上述均匀骰子一样均收敛于标准正态分布。

无论是随机变量是什么样的分布，它最终的分布曲线都会变成对称的钟形曲线，只不过由于期望值和方差值不同这个钟形曲线位置和集中程度有所不同，随着得增加，钟形曲线向右偏移并且所覆盖横轴范围越来越大（如下图）。

钟形曲线右移主要是由于均值发生了改变，对于一个随机变量，它的均值是；对于两个随机变量，它的和的均值就变成了；对于个随机变量，它的和的均值就变成了，这并不难理解，均值表示图像的重心，所以均值增大会导致钟形曲线右移。

标准差表示距离中心点的距离。根据定理，两个随机变量（相互独立）之和的方差等于将原始两个变量方差相加所得到的值相同，即，对于随机变量出现次的总和的分布，它的方差，即，这意味着相同位置距离中心点越来越远，即综合分布越来越宽，但

中心极限定理对这些本质上相同但由于均值方差不同的函数做了一些操作，将它们的中心对齐使它们的均值在一条线上，然后缩放x轴，使它们的标准差均为1。上述对齐缩放操作就是标准化变换。这样做所得的分布形状随着变量数的增多趋近于同一个形状，即钟形曲线（正态分布，或称高斯分布）。

上述介绍的独立同分布正态分布是基础版本，现实中一个随机现象是由大量微小的、各自独立（或弱相关）的随机因素叠加而成，也就是不满足 "独立 + 同分布"，但最终依然会出现正态分布。

更广泛地说，只要现实中的 "叠加型" 随机现象满足它们由大量微小的、各自独立（或弱相关）的随机因素叠加而成，并且没有任何一个因素的影响能 "主导" 整体结果，那即使不满足 "严格独立" 和 "完全同分布"，叠加后的结果依然会趋近正态分布。

正态分布

**正态分布是一种 "分布形态"，中心极限定理是解释 "这种形态为何无处不在" 的核心规律。**现实中人体身高、考试分数、工业测量误差、产品尺寸等绝大多数数据都近似正态分布，根本原因是这类数据都是无数个微小、独立的随机因素叠加而成，恰好满足中心极限定理的条件，因此自然趋近正态分布。正态分布的公式是：

现在我们按照从指数函数→构造钟形曲线→过渡概率分布→归一化→平移中心的路线一步步组装理解这个公式：

1.从基础指数函数，构造双侧平滑衰减钟形轮廓

底数为自然常数的指数函数，增大时指数增长，减小时指数衰减。

为了方便表示，将替换成，此时变为越大、函数值越小，实现轴正向指数衰减。

为了让它在正负方向上均衰减（凑钟形）。第一个想到的函数是，虽然这个函数可以实现向两侧衰减，但是在处会出现一个尖刺，这不符合钟形。

向两侧衰减并且极值处过渡平滑的函数，最简单的函数就是，但是会无限衰减到，我们需要的是使它无限衰减到0，而上述的指数函数恰好满足这个性质，所以就有了钟形函数的雏形函数（图像如下图二所示）：

我们在的指数上加上一个常数，即，通过改变常数就可以在水平方向上收缩钟形曲线，如下图所示。

事实上，上述的指数并没有什么特殊含义，换成其他底数也能实现同样的效果，例如，图像如下，也是一个钟形曲线。事实上上式也可以写成，作为一个整体，改变常数的值就可以实现底数的改变，从而改变钟形曲线的收缩程度。之所以使用而不选择其他常数一方面是任意底数都可以转换为指数（），另一方面的导数、积分、微分运算更简单，因此数学、统计学统一选用自然底数。

2.换参数，使之更符合概率分布

将，。只是用来缩放曲线的抽象常数，是纯数学参数，无实际意义，而是统计学定义的标准差，有明确物理和统计含义，表征数据的离散程度。这里仅是一个参数替换，本质还是水平伸缩图像。

概率分布共有两类：

离散型分布：变量取有限个孤立值（如掷骰子 1~6 点），直接给每个点的概率，所有概率相加和为1。

连续型分布：变量取值充满一段/整段实数区间（身高、体重、测量误差），单个精确点的概率永远为 0（点没有长度）。

对于连续随机变量，定义概率密度函数，满足两条规则：

区间概率 = 曲线下面积：
随机变量落在区间的概率。
密度函数本身不是概率，面积才是概率。

归一化公理： 即总概率为1。
变量在全体实数范围内出现的总概率是必然事件，因此