机器学习概率论与统计学--(6)概率论：连续分布

连续分布描述的是在某个区间（或整个实数轴）上取值的随机变量，其概率由概率密度函数（PDF）的积分给出。本讲将深入剖析六个核心连续分布：均匀分布 、正态分布 、指数分布 、拉普拉斯分布 、卡方分布 、t分布 和F分布。我们将从定义出发，推导期望与方差，阐明重要性质，并通过丰富的实例展示它们在实际问题中的应用。

1. 均匀分布

1.1 定义与概率密度函数

均匀分布是最简单的连续分布，表示在区间 $a , b$ $a, b$ $a,b$ 内所有点等可能。设 X ∼ U ( a , b ) X \sim U(a, b) X∼U(a,b)，其**概率密度函数（PDF）**为：
f ( x ) = { 1 b − a , a ≤ x ≤ b 0 , 其他 f(x) = \begin{cases} \dfrac{1}{b-a}, & a \le x \le b \\ 0, & \text{其他} \end{cases} f(x)=⎩ ⎨ ⎧b−a1,0,a≤x≤b其他

**分布函数（CDF）**为：
F ( x ) = { 0 , x < a x − a b − a , a ≤ x ≤ b 1 , x > b F(x) = \begin{cases} 0, & x < a \\ \dfrac{x-a}{b-a}, & a \le x \le b \\ 1, & x > b \end{cases} F(x)=⎩ ⎨ ⎧0,b−ax−a,1,x<aa≤x≤bx>b

1.2 期望与方差

期望：由对称性， E $X$ = a + b 2 E $X$ = \frac{a+b}{2} E $X$ =2a+b

推导过程：
E $X$ = ∫ a b x ⋅ 1 b − a d x = 1 b − a ⋅ b 2 − a 2 2 = a + b 2 E $X$ = \int_a^b x \cdot \frac{1}{b-a} dx = \frac{1}{b-a} \cdot \frac{b^2 - a^2}{2} = \frac{a+b}{2} E $X$ =∫abx⋅b−a1dx=b−a1⋅2b2−a2=2a+b
方差： Var ( X ) = ( b − a ) 2 12 \text{Var}(X)=\frac{(b-a)^2}{12} Var(X)=12(b−a)2

推导过程：
E $X 2$ = ∫ a b x 2 ⋅ 1 b − a d x = 1 b − a ⋅ b 3 − a 3 3 = a 2 + a b + b 2 3 Var ( X ) = E $X 2$ − ( E $X$ ) 2 = a 2 + a b + b 2 3 − ( a + b 2 ) 2 = ( b − a ) 2 12 E $X\^2$ = \int_a^b x^2 \cdot \frac{1}{b-a} dx = \frac{1}{b-a} \cdot \frac{b^3 - a^3}{3} = \frac{a^2 + ab + b^2}{3} \\ \text{Var}(X) = E $X\^2$ - (E $X$ )^2 = \frac{a^2+ab+b^2}{3} - \left(\frac{a+b}{2}\right)^2 = \frac{(b-a)^2}{12} E $X2$ =∫abx2⋅b−a1dx=b−a1⋅3b3−a3=3a2+ab+b2Var(X)=E $X2$ −(E $X$ )2=3a2+ab+b2−(2a+b)2=12(b−a)2

1.3 具体例子

例1（公交等待时间） ：公交车每10分钟一班，随机到达车站，等待时间 X ∼ U ( 0 , 10 ) X \sim U(0,10) X∼U(0,10) 分钟。

求等待时间在3到5分钟之间的概率： P ( 3 ≤ X ≤ 5 ) = 5 − 3 10 − 0 = 0.2 P(3 \le X \le 5) = \frac{5-3}{10-0} = 0.2 P(3≤X≤5)=10−05−3=0.2。
期望等待时间：5分钟。

例2（随机数生成） ：计算机生成一个 $0 , 1$ $0,1$ $0,1$ 上的随机数，用于模拟抽签。该随机数服从 U ( 0 , 1 ) U(0,1) U(0,1)。

2. 正态分布（高斯分布）

2.1 定义与概率密度函数

正态分布是自然科学与社会科学中最常见的分布，由中心极限定理保证大量独立随机变量之和近似服从正态分布。设 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2)，其概率密度函数（PDF） 为：
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , x ∈ R f(x) = \frac{1}{\sqrt{2\pi}\,\sigma} \, e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad x \in \mathbb{R} f(x)=2π σ1e−2σ2(x−μ)2,x∈R

其中 μ \mu μ 是均值， σ > 0 \sigma > 0 σ>0 是标准差。

2.2 标准正态分布

当 μ = 0 , σ = 1 \mu = 0, \sigma = 1 μ=0,σ=1 时，称为标准正态分布，记作 Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z∼N(0,1)，其 PDF 简化为：
ϕ ( z ) = 1 2 π e − z 2 / 2 \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-z^2/2} ϕ(z)=2π 1e−z2/2

任意正态变量可通过标准化 Z = X − μ σ Z = \frac{X - \mu}{\sigma} Z=σX−μ 转化为标准正态，从而利用标准正态分布表（或函数 Φ ( z ) \Phi(z) Φ(z)）计算概率。

2.3 3σ 原则（68-95-99.7 规则）

对于正态分布，数据落在均值附近一个标准差范围内的概率约为 68%，两个标准差内约为 95%，三个标准差内约为 99.7%：
P ( μ − σ ≤ X ≤ μ + σ ) ≈ 0.6827 , P ( μ − 2 σ ≤ X ≤ μ + 2 σ ) ≈ 0.9545 , P ( μ − 3 σ ≤ X ≤ μ + 3 σ ) ≈ 0.9973. \begin{aligned} P(\mu - \sigma \le X \le \mu + \sigma) &\approx 0.6827,\\ P(\mu - 2\sigma \le X \le \mu + 2\sigma) &\approx 0.9545,\\ P(\mu - 3\sigma \le X \le \mu + 3\sigma) &\approx 0.9973. \end{aligned} P(μ−σ≤X≤μ+σ)P(μ−2σ≤X≤μ+2σ)P(μ−3σ≤X≤μ+3σ)≈0.6827,≈0.9545,≈0.9973.

这一原则常用于异常值检测：若数据点偏离均值超过 3 个标准差，则视为异常。

2.4 期望与方差

由参数定义可直接得到： E $X$ = μ E $X$ = \mu E $X$ =μ， Var ( X ) = σ 2 \text{Var}(X) = \sigma^2 Var(X)=σ2。证明需用积分技巧或矩母函数，此处从略。

2.5 具体例子

例3（身高分布） ：某地成年男性身高 X ∼ N ( 175 , 8 2 ) X \sim N(175, 8^2) X∼N(175,82)（单位：cm）。

求身高在 167 cm 到 183 cm 之间的概率（即 μ ± σ \mu \pm \sigma μ±σ）：约 68%。
求身高超过 191 cm 的概率（ μ + 2 σ \mu + 2\sigma μ+2σ）： P ( X > 191 ) ≈ ( 1 − 0.9545 ) / 2 = 0.02275 P(X > 191) \approx (1-0.9545)/2 = 0.02275 P(X>191)≈(1−0.9545)/2=0.02275，即约 2.28%。

例4（测量误差） ：某仪器测量误差服从 N ( 0 , 0.1 2 ) N(0, 0.1^2) N(0,0.12)，求误差绝对值超过 0.2 的概率。先标准化： P ( ∣ X ∣ > 0.2 ) = 2 P ( Z > 2 ) ≈ 2 × 0.0228 = 0.0456 P(|X|>0.2) = 2P(Z > 2) \approx 2 \times 0.0228 = 0.0456 P(∣X∣>0.2)=2P(Z>2)≈2×0.0228=0.0456。

例5（考试成绩） ：某次考试分数 X ∼ N ( 70 , 10 2 ) X \sim N(70, 10^2) X∼N(70,102)，若前 5% 的学生获得 A，问分数线应为多少？设分数线为 c c c，则 P ( X ≥ c ) = 0.05 P(X \ge c) = 0.05 P(X≥c)=0.05。查表得 z 0.05 ≈ 1.645 z_{0.05} \approx 1.645 z0.05≈1.645，故 c = 70 + 1.645 × 10 = 86.45 c = 70 + 1.645 \times 10 = 86.45 c=70+1.645×10=86.45 分。

3. 指数分布

3.1 定义与概率密度函数

指数分布常用于描述独立随机事件发生的时间间隔，如顾客到达间隔、设备寿命等。设 X ∼ Exp ( λ ) X \sim \text{Exp}(\lambda) X∼Exp(λ)，参数 λ > 0 \lambda > 0 λ>0 称为率参数（单位时间内平均发生次数），其概率密度函数（PDF） 为：
f ( x ) = λ e − λ x , x ≥ 0 f(x) = \lambda e^{-\lambda x}, \quad x \ge 0 f(x)=λe−λx,x≥0
分布函数（CDF） ： F ( x ) = 1 − e − λ x , x ≥ 0 F(x) = 1 - e^{-\lambda x}, \ x \ge 0 F(x)=1−e−λx, x≥0。

3.2 期望与方差

期望： E $X$ = 1 λ E $X$ = \frac{1}{\lambda} E $X$ =λ1。
方差： Var ( X ) = 1 λ 2 \text{Var}(X) = \frac{1}{\lambda^2} Var(X)=λ21。
推导： E $X$ = ∫ 0 ∞ x λ e − λ x d x = 1 λ E $X$ = \int_0^\infty x \lambda e^{-\lambda x} dx = \frac{1}{\lambda} E $X$ =∫0∞xλe−λxdx=λ1； E $X 2$ = ∫ 0 ∞ x 2 λ e − λ x d x = 2 λ 2 E $X\^2$ = \int_0^\infty x^2 \lambda e^{-\lambda x} dx = \frac{2}{\lambda^2} E $X2$ =∫0∞x2λe−λxdx=λ22，故方差为 2 λ 2 − ( 1 λ ) 2 = 1 λ 2 \frac{2}{\lambda^2} - \left(\frac{1}{\lambda}\right)^2 = \frac{1}{\lambda^2} λ22−(λ1)2=λ21。

3.3 无记忆性

指数分布是唯一具有无记忆性 的连续分布，即：
P ( X > s + t ∣ X > s ) = P ( X > t ) , ∀ s , t ≥ 0 P(X > s + t \mid X > s) = P(X > t), \quad \forall s, t \ge 0 P(X>s+t∣X>s)=P(X>t),∀s,t≥0
推导：
P ( X > s + t ∣ X > s ) = P ( X > s + t ) P ( X > s ) = e − λ ( s + t ) e − λ s = e − λ t = P ( X > t ) P(X > s + t \mid X > s) = \frac{P(X > s + t)}{P(X > s)} = \frac{e^{-\lambda(s+t)}}{e^{-\lambda s}} = e^{-\lambda t} = P(X > t) P(X>s+t∣X>s)=P(X>s)P(X>s+t)=e−λse−λ(s+t)=e−λt=P(X>t)

直观解释：已等待 s s s 时间后，还需再等待 t t t 时间的概率与已等待时间无关，仿佛"重置"了。这一性质使得指数分布成为建模"无老化"系统（如电子元件寿命）的理想选择。

3.4 具体例子

例6（服务台等待时间） ：某服务台平均每2分钟服务一位顾客，即 λ = 0.5 \lambda = 0.5 λ=0.5 人/分钟，则服务时间 X ∼ Exp ( 0.5 ) X \sim \text{Exp}(0.5) X∼Exp(0.5)。

求服务时间超过 3 分钟的概率： P ( X > 3 ) = e − 0.5 × 3 = e − 1.5 ≈ 0.2231 P(X > 3) = e^{-0.5 \times 3} = e^{-1.5} \approx 0.2231 P(X>3)=e−0.5×3=e−1.5≈0.2231。
已知已服务了 2 分钟，求还需超过 1 分钟的概率：由无记忆性， P ( X > 3 ∣ X > 2 ) = P ( X > 1 ) = e − 0.5 ≈ 0.6065 P(X > 3 \mid X > 2) = P(X > 1) = e^{-0.5} \approx 0.6065 P(X>3∣X>2)=P(X>1)=e−0.5≈0.6065。

例7（放射性衰变） ：某放射性原子核的平均寿命为 1000 年（即 λ = 1 / 1000 \lambda = 1/1000 λ=1/1000），求一个原子核寿命超过 2000 年的概率： P ( X > 2000 ) = e − 2000 / 1000 = e − 2 ≈ 0.1353 P(X > 2000) = e^{-2000/1000} = e^{-2} \approx 0.1353 P(X>2000)=e−2000/1000=e−2≈0.1353。

例8（排队论）：顾客到达间隔时间服从指数分布，是 M/M/1 排队模型的基础假设。

4. 拉普拉斯分布

4.1 定义与概率密度函数

拉普拉斯分布（又称双指数分布）具有比正态分布更厚的尾部，常用于稳健建模和稀疏学习。设 X ∼ Laplace ( μ , b ) X \sim \text{Laplace}(\mu, b) X∼Laplace(μ,b)，其中 μ \mu μ 是位置参数， b > 0 b > 0 b>0 是尺度参数，其**概率密度函数（PDF）**为：
f ( x ) = 1 2 b e − ∣ x − μ ∣ b , x ∈ R f(x) = \frac{1}{2b} e^{-\frac{|x - \mu|}{b}}, \quad x \in \mathbb{R} f(x)=2b1e−b∣x−μ∣,x∈R

当 μ = 0 , b = 1 \mu = 0, b = 1 μ=0,b=1 时称为标准拉普拉斯分布。

4.2 期望与方差

期望： E $X$ = μ E $X$ = \mu E $X$ =μ（对称性）。
方差： Var ( X ) = 2 b 2 \text{Var}(X) = 2b^2 Var(X)=2b2。
推导：对于 μ = 0 \mu=0 μ=0， E $X 2$ = ∫ − ∞ ∞ x 2 1 2 b e − ∣ x ∣ / b d x = 2 b 2 E $X\^2$ = \int_{-\infty}^\infty x^2 \frac{1}{2b} e^{-|x|/b} dx = 2b^2 E $X2$ =∫−∞∞x22b1e−∣x∣/bdx=2b2，故方差为 2 b 2 2b^2 2b2。

4.3 与 L1 正则化的联系

在贝叶斯机器学习中，若对模型参数 θ \theta θ 施加拉普拉斯先验分布 π ( θ ) ∝ e − λ ∥ θ ∥ 1 \pi(\theta) \propto e^{-\lambda \|\theta\|1} π(θ)∝e−λ∥θ∥1，则后验最大化等价于在似然函数上添加 L1 正则化项（即 Lasso 回归）。这是因为：
arg ⁡ max ⁡ θ log ⁡ p ( data ∣ θ ) + log ⁡ π ( θ ) = arg ⁡ min ⁡ θ − log ⁡ p ( data ∣ θ ) + λ ∥ θ ∥ 1 . \arg\max\theta \log p(\text{data} \mid \theta) + \log \pi(\theta) = \arg\min_\theta -\log p(\text{data} \mid \theta) + \lambda \|\theta\|_1. argθmaxlogp(data∣θ)+logπ(θ)=argθmin−logp(data∣θ)+λ∥θ∥1.

L1 正则化具有稀疏解（许多参数变为 0）的特性，广泛应用于特征选择和高维数据分析。

4.4 具体例子

例9（误差分布）：在某些稳健回归问题中，误差项假设为拉普拉斯分布，比正态分布更能容忍异常值。例如，当测量数据含有离群点时，拉普拉斯似然对应的损失函数为绝对偏差，受异常值影响较小。

例10（图像处理）：拉普拉斯分布常用于图像稀疏表示中，因为自然图像的梯度分布通常呈现尖峰厚尾特征，可用拉普拉斯分布建模。

5. 卡方分布、t 分布与 F 分布

这三个分布在统计推断（假设检验、置信区间）中扮演核心角色。它们都可以从独立标准正态变量出发构造，无需记忆复杂的 PDF 公式，重点理解定义、性质和用途。

5.1 卡方分布

定义：设 Z 1 , Z 2 , ... , Z k Z_1, Z_2, \dots, Z_k Z1,Z2,...,Zk 独立同分布于 N ( 0 , 1 ) N(0,1) N(0,1)，则
Q = ∑ i = 1 k Z i 2 ∼ χ 2 ( k ) , Q = \sum_{i=1}^k Z_i^2 \sim \chi^2(k), Q=i=1∑kZi2∼χ2(k),

其中 k k k 称为自由度 。卡方分布的**概率密度函数（PDF）**为：
f ( x ) = 1 2 k / 2 Γ ( k / 2 ) x k / 2 − 1 e − x / 2 , x > 0 , f(x) = \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2 - 1} e^{-x/2}, \quad x > 0, f(x)=2k/2Γ(k/2)1xk/2−1e−x/2,x>0,

但通常不直接使用，而通过定义或查表计算。

期望与方差 ： E $Q$ = k E $Q$ = k E $Q$ =k， Var ( Q ) = 2 k \text{Var}(Q) = 2k Var(Q)=2k。

在假设检验中的应用：

卡方拟合优度检验：检验观测频数与理论频数是否一致。
独立性检验：检验两个分类变量是否独立。
总体方差检验：检验正态总体方差是否等于某个值。

例子：某工厂声称产品重量方差不超过 0.1。抽取 25 件样本，计算样本方差 s 2 = 0.15 s^2 = 0.15 s2=0.15，欲检验 H 0 : σ 2 ≤ 0.1 H_0: \sigma^2 \le 0.1 H0:σ2≤0.1。检验统计量 χ 2 = ( n − 1 ) s 2 / σ 0 2 = 24 × 0.15 / 0.1 = 36 \chi^2 = (n-1)s^2/\sigma_0^2 = 24 \times 0.15 / 0.1 = 36 χ2=(n−1)s2/σ02=24×0.15/0.1=36，与 χ 24 2 \chi^2_{24} χ242 分布比较，若超过临界值则拒绝原假设。

5.2 t 分布

定义：设 Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z∼N(0,1)， Q ∼ χ 2 ( k ) Q \sim \chi^2(k) Q∼χ2(k) 独立，则
T = Z Q / k ∼ t ( k ) . T = \frac{Z}{\sqrt{Q/k}} \sim t(k). T=Q/k Z∼t(k).

t 分布的 PDF 对称、尾部比正态分布更厚，自由度 k k k 越大越接近标准正态。

期望与方差 ： E $T$ = 0 E $T$ = 0 E $T$ =0（ k > 1 k > 1 k>1）， Var ( T ) = k k − 2 \text{Var}(T) = \frac{k}{k-2} Var(T)=k−2k（ k > 2 k > 2 k>2）。

在假设检验中的应用：

单样本 t 检验：检验正态总体均值是否等于某个值（方差未知）。
两独立样本 t 检验：比较两个正态总体的均值。
配对 t 检验：比较配对数据（如前后测量）的均值差异。

例子：某减肥药声称平均减重 5kg。随机选取 20 人服用，测得减重均值为 4.2kg，标准差 1.5kg。检验 H 0 : μ = 5 H_0: \mu = 5 H0:μ=5 是否成立。检验统计量 t = 4.2 − 5 1.5 / 20 ≈ − 2.387 t = \frac{4.2-5}{1.5/\sqrt{20}} \approx -2.387 t=1.5/20 4.2−5≈−2.387，自由度为 19，查表得临界值，若绝对值大于临界值则拒绝原假设。

5.3 F 分布

定义：设 U ∼ χ 2 ( d 1 ) U \sim \chi^2(d_1) U∼χ2(d1)， V ∼ χ 2 ( d 2 ) V \sim \chi^2(d_2) V∼χ2(d2) 独立，则
F = U / d 1 V / d 2 ∼ F ( d 1 , d 2 ) . F = \frac{U/d_1}{V/d_2} \sim F(d_1, d_2). F=V/d2U/d1∼F(d1,d2).

F 分布是右偏的，常用于比较两个方差。

期望与方差 ： E $F$ = d 2 d 2 − 2 E $F$ = \frac{d_2}{d_2-2} E $F$ =d2−2d2（ d 2 > 2 d_2 > 2 d2>2）， Var ( F ) = 2 d 2 2 ( d 1 + d 2 − 2 ) d 1 ( d 2 − 2 ) 2 ( d 2 − 4 ) \text{Var}(F) = \frac{2 d_2^2 (d_1 + d_2 - 2)}{d_1 (d_2 - 2)^2 (d_2 - 4)} Var(F)=d1(d2−2)2(d2−4)2d22(d1+d2−2)（ d 2 > 4 d_2 > 4 d2>4）。

在假设检验中的应用：

方差齐性检验：检验两个正态总体的方差是否相等（F 检验）。
方差分析（ANOVA）：比较多个组均值是否相等，检验统计量服从 F 分布。

例子：比较两种教学方法的效果，A 组 30 人，B 组 30 人，测得成绩方差分别为 s A 2 = 25 s_A^2=25 sA2=25， s B 2 = 16 s_B^2=16 sB2=16。检验方差是否相等： F = s A 2 / s B 2 = 1.5625 F = s_A^2 / s_B^2 = 1.5625 F=sA2/sB2=1.5625，与 F ( 29 , 29 ) F(29,29) F(29,29) 分布比较，若落入拒绝域则方差不齐。

5.4 三者关系小结

卡方分布用于方差相关检验。
t 分布用于均值检验（方差未知）。
F 分布用于方差比及多组均值比较（ANOVA）。

三者均可通过标准正态变量构造，是统计推断的基石。

6. 总结与联系

分布	参数	定义域	主要性质	典型应用
均匀	a , b a,b a,b	$a , b$ $a,b$ $a,b$	等可能	随机数生成、几何概率
正态	μ , σ 2 \mu,\sigma^2 μ,σ2	R \mathbb{R} R	对称、中心极限	测量误差、自然现象
指数	λ \lambda λ	[ 0 , ∞ ) [0,\infty) [0,∞)	无记忆性	寿命、等待时间
拉普拉斯	μ , b \mu,b μ,b	R \mathbb{R} R	尖峰厚尾、L1正则化	稳健估计、稀疏学习
卡方	k k k	[ 0 , ∞ ) [0,\infty) [0,∞)	由正态平方和构造	方差检验、拟合优度
t	k k k	R \mathbb{R} R	厚尾	均值检验（小样本）
F	d 1 , d 2 d_1,d_2 d1,d2	[ 0 , ∞ ) [0,\infty) [0,∞)	右偏	方差比、ANOVA

这些连续分布与上一讲的离散分布共同构成了概率建模的核心工具箱。理解它们的定义、性质和相互关系，将为深入学习数理统计、机器学习算法（如线性回归、贝叶斯推断、假设检验）奠定坚实基础。

上一章 机器学习概率论与统计学--(5)概率论：离散分布

下一章 机器学习概率论与统计学--(7)概率论：多维随机变量