机器学习概率论与统计学--(3)概率论：随机变量

欢迎来到概率论的核心概念------随机变量。在之前的讲解中，我们学习了样本空间和事件，但很多时候我们需要将随机试验的结果"数字化"，以便进行数学运算。随机变量正是为此而生。我们将从随机变量的定义开始，区分离散与连续两类，并深入理解分布函数这个统一描述工具。

1. 随机变量的定义

随机变量 是一个从样本空间 Ω \Omega Ω 到实数集 R \mathbb{R} R 的函数，通常用大写字母 X , Y , Z X, Y, Z X,Y,Z 表示。也就是说，对于每一个试验结果 ω ∈ Ω \omega \in \Omega ω∈Ω，随机变量都赋予一个实数 X ( ω ) X(\omega) X(ω)。

例子：抛一枚硬币，结果可能是正面或反面。定义 X X X 为：正面时 X = 1 X=1 X=1，反面时 X = 0 X=0 X=0。那么 X X X 就是一个随机变量，它将样本空间 { 正面 , 反面 } \{\text{正面}, \text{反面}\} {正面,反面} 映射到 { 1 , 0 } \{1, 0\} {1,0}。

引入随机变量后，我们就可以用数学语言描述随机现象的概率规律。例如，我们可以讨论 P ( X ≤ x ) P(X \le x) P(X≤x)、 E $X$ E $X$ E $X$ 等。

2. 随机变量的类型

根据随机变量可能取值的类型，可以分为两类。

2.1 离散随机变量

2.1.1 定义

如果随机变量 X X X 的所有可能取值是有限个或可数无限个（例如整数），则称 X X X 为离散随机变量 。离散随机变量的概率分布由概率质量函数 （PMF）描述：
p ( x ) = P ( X = x ) , x ∈ X p(x) = P(X = x), \quad x \in X p(x)=P(X=x),x∈X

其中 x x x 是 X X X 的取值集合。PMF 满足：

p ( x ) ≥ 0 p(x) \ge 0 p(x)≥0，
∑ x ∈ X p ( x ) = 1 \sum_{x \in X} p(x) = 1 ∑x∈Xp(x)=1。

例子：掷一颗骰子，点数 X X X 的取值为 1 , 2 , 3 , 4 , 5 , 6 1,2,3,4,5,6 1,2,3,4,5,6，每个概率 1 / 6 1/6 1/6。这是离散随机变量。

2.1.2 关键特性

在某一点上的概率可以不为零
期望 E $X$ = ∑ x i p ( x i ) E $X$ = \sum x_i p(x_i) E $X$ =∑xip(xi)

2.1.3 典型例子

1) 伯努利分布

伯努利分布的定义

伯努利分布是最简单的离散概率分布之一，它描述的是单次随机试验中只有两种可能结果（通常称为"成功"和"失败"）的情况。

伯努利分布的概率质量函数（PMF）通常写作：
P ( X = x ) = { p , x = 1 1 − p , x = 0 0 , 其他 P(X = x) = \begin{cases} p, & x = 1 \\ 1-p, & x = 0 \\ 0, & \text{其他} \end{cases} P(X=x)=⎩ ⎨ ⎧p,1−p,0,x=1x=0其他

或更紧凑地记为：
P ( X = x ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } P(X = x) = p^x (1-p)^{1-x},\ x \in \{0,1\} P(X=x)=px(1−p)1−x, x∈{0,1}
- X X X 是随机变量，取值 1 表示"成功"，0 表示"失败"。
- p p p 是参数，表示单次试验中成功的概率，满足 0 ≤ p ≤ 1 0 \le p \le 1 0≤p≤1。
- 1 − p 1-p 1−p 是失败的概率。
逐项解读
1. x = 1 x = 1 x=1
  
  对应"成功"事件。它的概率是 p p p。
  
  例如：掷一枚硬币，若定义正面为成功，则 p = 0.5 p = 0.5 p=0.5；若定义中奖为成功，则 p p p 就是中奖概率。
2. x = 0 x = 0 x=0
  
  对应"失败"事件。它的概率是 1 − p 1-p 1−p。
3. 其他 x x x
  
  伯努利随机变量只能取 0 或 1，取其他值的概率为 0。
4. 参数 p p p
  
  完全决定了分布。它既是成功概率，也是随机变量的期望：
  E $X$ = 1 ⋅ p + 0 ⋅ ( 1 − p ) = p E $X$ = 1 \cdot p + 0 \cdot (1-p) = p E $X$ =1⋅p+0⋅(1−p)=p
  
  方差为
  V a r ( X ) = E $X 2$ − ( E $X$ ) 2 = p − p 2 = p ( 1 − p ) \mathrm{Var}(X) = E $X\^2$ - (E $X$ )^2 = p - p^2 = p(1-p) Var(X)=E $X2$ −(E $X$ )2=p−p2=p(1−p)
伯努利分布的意义

伯努利分布是许多更复杂分布的基础：
- 二项分布 ： n n n 次独立伯努利试验中成功的总次数，服从 B ( n , p ) B(n, p) B(n,p)。当 n = 1 n=1 n=1 时，二项分布退化为伯努利分布。
- 几何分布：首次成功所需的试验次数，基于伯努利试验序列。
- 负二项分布 ：第 r r r 次成功所需的试验次数。
在机器学习中，伯努利分布常用于二分类问题的标签建模 （逻辑回归的输出可视为伯努利分布参数 p p p 的估计）；在贝叶斯统计中，常与 Beta 分布共轭使用。
例子
- 抛硬币 ：定义正面为 1（成功），反面为 0（失败）。若硬币均匀， p = 0.5 p = 0.5 p=0.5。
- 产品检验 ：随机抽取一件产品，合格为成功，不合格为失败。合格率即为 p p p。
- 用户点击 ：展示一次广告，用户点击为 1，否则为 0。点击率就是 p p p。

2) 二项分布

二项分布的定义

常用于描述在 n 次独立重复的伯努利试验中，恰好成功 k k k 次的概率：
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , k = 0 , 1 , ... , n P(X=k) = \binom{n}{k} p^k (1-p)^{n-k},\ k=0,1,\dots,n P(X=k)=(kn)pk(1−p)n−k, k=0,1,...,n
逐项解读
- ( n k ) \binom{n}{k} (kn) ------ 组合数
  
  表示从 n n n 次试验中选出哪 k k k 次是成功的所有可能方式。
  
  例如， n = 3 , k = 2 n=3, k=2 n=3,k=2 时， ( 3 2 ) = 3 \binom{3}{2}=3 (23)=3，对应成功可能出现在第1、2次，第1、3次，或第2、3次。
- p k p^k pk ------ k 次成功的概率
  
  每一次成功的概率是 p p p，k 次独立成功同时发生的概率为 p × p × ⋯ × p = p k p \times p \times \cdots \times p = p^k p×p×⋯×p=pk。
- ( 1 − p ) n − k (1-p)^{n-k} (1−p)n−k ------ 其余 n − k n-k n−k 次失败的概率
  
  每一次失败的概率是 1 − p 1-p 1−p，所有失败同时发生的概率为 ( 1 − p ) n − k (1-p)^{n-k} (1−p)n−k。
- 乘积 ( n k ) p k ( 1 − p ) n − k \binom{n}{k} p^k (1-p)^{n-k} (kn)pk(1−p)n−k
  
  对于每一种特定的成功位置组合，其发生的概率都是 p k ( 1 − p ) n − k p^k (1-p)^{n-k} pk(1−p)n−k。因为有 ( n k ) \binom{n}{k} (kn) 种不同的组合，总概率等于组合数乘以单种组合的概率
适用条件
- 试验次数 n n n 固定
- 每次试验相互独立
- 每次试验只有两种结果（成功/失败）
- 成功概率 p p p 恒定
二项分布广泛用于质量控制、医学试验、投票调查等场景，是离散概率分布中最基础、最重要的分布之一。
例子

掷一枚均匀硬币 5 次（ p = 0.5 p=0.5 p=0.5），求恰好出现 3 次正面的概率：
P ( X = 3 ) = ( 5 3 ) ( 0.5 ) 3 ( 0.5 ) 2 = 10 × 0.125 × 0.25 = 0.3125 P(X=3) = \binom{5}{3} (0.5)^3 (0.5)^{2} = 10 \times 0.125 \times 0.25 = 0.3125 P(X=3)=(35)(0.5)3(0.5)2=10×0.125×0.25=0.3125

3) 泊松分布

泊松分布的定义

常用于描述在单位时间（或单位空间、单位面积等）内，某类随机事件恰好发生 k k k 次的概率。其中 λ \lambda λ 是该事件在该单位内的平均发生次数， e e e 是自然常数（约 2.71828）。
P ( X = k ) = λ k e − λ k ! , k = 0 , 1 , 2 , ... P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!},\ k=0,1,2,\dots P(X=k)=k!λke−λ, k=0,1,2,...
逐项解读
1. k k k
  
  表示事件发生的具体次数，取值为非负整数。
2. λ \lambda λ
  
  是泊松分布的唯一参数，代表平均发生率。
  
  例如，某医院急诊室平均每小时到 3 个病人，则 λ = 3 \lambda = 3 λ=3。
3. λ k \lambda^k λk
  
  这是 k k k 次事件发生的"强度"部分。直观上，若事件发生率是 λ \lambda λ，则 k k k 次发生会带来 λ \lambda λ 的 k k k 次乘积。
4. e − λ e^{-\lambda} e−λ
  
  这是"不发生"部分的调整因子。它来源于泊松过程推导中的指数衰减，确保所有概率之和为 1。
  
  数学上， ∑ k = 0 ∞ λ k e − λ k ! = e − λ ⋅ e λ = 1 \sum_{k=0}^{\infty} \frac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda} \cdot e^{\lambda} = 1 ∑k=0∞k!λke−λ=e−λ⋅eλ=1，满足归一化条件。
5. k ! k! k!
  
  分母中的阶乘用于去除顺序带来的重复计数 。
  
  事件在时间区间内以某种顺序发生，所有 k ! k! k! 种顺序对应同一个"发生次数"的结果，因此除以 k ! k! k! 来计数不同的"无序"组合。
关键性质

泊松分布通常用于描述：
- 单位时间内某事件发生次数（如网站访问量、交通事故数）
- 单位面积内某点的个数（如显微镜下细菌数）
- 且事件满足独立性 与平稳性（发生率恒定）
它的数学期望和方差均为 λ \lambda λ： E $X$ = λ E $X$ = \lambda E $X$ =λ， V a r ( X ) = λ \mathrm{Var}(X) = \lambda Var(X)=λ，这是它最显著的特征之一。
例子

某客服中心平均每分钟接到 2 个电话（ λ = 2 \lambda = 2 λ=2），求恰好接到 3 个电话的概率：
P ( X = 3 ) = 2 3 e − 2 3 ! = 8 × e − 2 6 ≈ 8 × 0.1353 6 ≈ 0.1804 P(X=3) = \frac{2^3 e^{-2}}{3!} = \frac{8 \times e^{-2}}{6} \approx \frac{8 \times 0.1353}{6} \approx 0.1804 P(X=3)=3!23e−2=68×e−2≈68×0.1353≈0.1804

2.2 连续随机变量

2.2.1 定义

如果随机变量 X X X 可以取某个区间（或若干区间）内的任意实数值，并且存在一个非负函数 f ( x ) f(x) f(x)，使得对于任意 a ≤ b a \le b a≤b，
P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x , P(a \le X \le b) = \int_a^b f(x) \, dx, P(a≤X≤b)=∫abf(x)dx,

则称 X X X 为连续随机变量 ， f ( x ) f(x) f(x) 称为概率密度函数（PDF）。PDF 满足：

f ( x ) ≥ 0 f(x) \ge 0 f(x)≥0，
∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x) \, dx = 1 ∫−∞∞f(x)dx=1。

注意：对于连续随机变量，单点概率 P ( X = a ) = 0 P(X = a) = 0 P(X=a)=0，因为积分区间长度为 0。

例子：在区间 $0 , 1$ $0,1$ $0,1$ 上随机取一点，定义 X X X 为该点的坐标。则 X X X 服从均匀分布 U ( 0 , 1 ) U(0,1) U(0,1)，其 PDF 为 f ( x ) = 1 f(x)=1 f(x)=1 对于 x ∈ $0 , 1$ x \in $0,1$ x∈ $0,1$ ，否则 0。

2.2.2 关键特性

概率由积分给出： P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a \leq X \leq b) = \int_{a}^{b} f(x) dx P(a≤X≤b)=∫abf(x)dx
期望 E $X$ = ∫ − ∞ ∞ x f ( x ) d x E $X$ = \int_{-\infty}^{\infty} x f(x) dx E $X$ =∫−∞∞xf(x)dx

2.2.3 典型例子

1) 均匀分布

均匀分布的定义

常用于描述在区间 $a , b$ $a, b$ $a,b$ 上，随机变量 X X X 取任何子区间的概率只与该子区间的长度成正比，而与位置无关，即"等可能"地落在区间内的任意一点。

均匀分布（连续型）的概率密度函数公式为：
f ( x ) = { 1 b − a , a ≤ x ≤ b 0 , 其他 f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{其他} \end{cases} f(x)={b−a1,0,a≤x≤b其他
逐项解读
1. 区间端点 a a a 和 b b b
  
  这是均匀分布的参数，表示随机变量 X X X 的取值范围。
  
  a a a 是最小值， b b b 是最大值，且 a < b a < b a<b。
2. 1 b − a \frac{1}{b-a} b−a1 密度函数的常数高度
  
  在 $a , b$ $a, b$ $a,b$ 内，密度函数是一个常数。这个常数值由归一化条件决定：
  ∫ a b f ( x ) d x = ∫ a b 1 b − a d x = 1 b − a × ( b − a ) = 1 \int_{a}^{b} f(x) \, dx = \int_{a}^{b} \frac{1}{b-a} \, dx = \frac{1}{b-a} \times (b-a) = 1 ∫abf(x)dx=∫abb−a1dx=b−a1×(b−a)=1
  
  即密度曲线下的总面积为 1。
  
  注意：当区间长度 b − a b-a b−a 很小时，密度值可以大于 1（例如 a = 0 , b = 0.5 a=0, b=0.5 a=0,b=0.5 时， f ( x ) = 2 f(x)=2 f(x)=2），这并不违反概率公理，因为概率是面积而非高度。
3. f ( x ) = 0 f(x)=0 f(x)=0 在区间外
  
  表示随机变量不可能取到 $a , b$ $a, b$ $a,b$ 之外的值。
对于均匀分布，事件 c ≤ X ≤ d c \leq X \leq d c≤X≤d（其中 a ≤ c < d ≤ b a \leq c < d \leq b a≤c<d≤b）的概率为：
P ( c ≤ X ≤ d ) = ∫ c d 1 b − a d x = d − c b − a P(c \leq X \leq d) = \int_{c}^{d} \frac{1}{b-a} \, dx = \frac{d-c}{b-a} P(c≤X≤d)=∫cdb−a1dx=b−ad−c

即子区间长度与总区间长度之比。这清晰地体现了"等可能"的含义：长度越长的子区间，概率越大，且概率与位置无关。

核心特性

性质	公式
期望	E $X$ = a + b 2 E $X$ = \frac{a+b}{2} E $X$ =2a+b（区间中点）
方差	V a r ( X ) = ( b − a ) 2 12 \mathrm{Var}(X) = \frac{(b-a)^2}{12} Var(X)=12(b−a)2
累积分布函数	F ( x ) = { 0 , x < a x − a b − a , a ≤ x ≤ b 1 , x > b F(x) = \begin{cases} 0, & x < a \\ \frac{x-a}{b-a}, & a \leq x \leq b \\ 1, & x > b \end{cases} F(x)=⎩ ⎨ ⎧0,b−ax−a,1,x<aa≤x≤bx>b

例子：

公交车每 10 分钟一班，某人随机到站，等车时间 X X X 服从 $0 , 10$ $0, 10$ $0,10$ 上的均匀分布（单位：分钟）。
- 密度函数： f ( x ) = 1 10 , 0 ≤ x ≤ 10 f(x) = \frac{1}{10}, \ 0 \leq x \leq 10 f(x)=101, 0≤x≤10
- 等车时间在 2 到 5 分钟之间的概率：
  P ( 2 ≤ X ≤ 5 ) = 5 − 2 10 = 0.3 P(2 \leq X \leq 5) = \frac{5-2}{10} = 0.3 P(2≤X≤5)=105−2=0.3
- 等车时间恰好等于 3 分钟的概率：
  P ( X = 3 ) = 3 − 3 10 = 0 ( 连续随机变量单点概率为 0 ) P(X = 3)= \frac{3-3}{10} = 0 \ (连续随机变量单点概率为 0) P(X=3)=103−3=0 (连续随机变量单点概率为0)

2) 正态分布

正态分布的定义

常用于描述连续随机变量 X X X 的分布形态，呈现为一条对称的钟形曲线，中心在均值 $\\mu$ 处，分散程度由标准差 σ \sigma σ 控制。

正态分布（高斯分布）的概率密度函数公式为：
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , x ∈ R f(x) = \frac{1}{\sqrt{2\pi}\,\sigma} \, e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad x \in \mathbb{R} f(x)=2π σ1e−2σ2(x−μ)2,x∈R
逐项解读
1. $\\mu$ ------ 均值（位置参数）
  
  决定了分布的中心位置，即曲线的对称轴。 E $X$ = μ E $X$ = \mu E $X$ =μ，且中位数、众数均等于 $\\mu$ 。
2. σ \sigma σ ------ 标准差（尺度参数）
  
  控制分布的"宽度"。 σ \sigma σ 越大，曲线越扁平、分散； σ \sigma σ 越小，曲线越瘦高、集中。方差 V a r ( X ) = σ 2 \mathrm{Var}(X) = \sigma^2 Var(X)=σ2。
3. 1 2 π σ \frac{1}{\sqrt{2\pi}\,\sigma} 2π σ1 ------ 归一化常数
  
  保证密度曲线下的总面积为 1。 2 π \sqrt{2\pi} 2π 来自高斯积分 ∫ − ∞ ∞ e − x 2 / 2 d x = 2 π \int_{-\infty}^{\infty} e^{-x^2/2} dx = \sqrt{2\pi} ∫−∞∞e−x2/2dx=2π ，除以 σ \sigma σ 是为了适应尺度的伸缩。
4. e − ( x − μ ) 2 2 σ 2 e^{-\frac{(x-\mu)^2}{2\sigma^2}} e−2σ2(x−μ)2 ------ 指数核
  
  指数部分决定了形状。当 x = μ x = \mu x=μ 时指数为 1，密度最大；随着 ∣ x − μ ∣ |x-\mu| ∣x−μ∣ 增大，指数迅速衰减，形成钟形。指数中的平方使得左右对称，分母 2 σ 2 2\sigma^2 2σ2 调整衰减速率。
关键性质
- 对称性 ：关于 x = μ x = \mu x=μ 对称。
- 68-95-99.7 法则 ：约 68% 的数据落在 μ ± σ \mu \pm \sigma μ±σ 内，95% 落在 μ ± 2 σ \mu \pm 2\sigma μ±2σ 内，99.7% 落在 μ ± 3 σ \mu \pm 3\sigma μ±3σ 内。
- 线性变换不变性 ：若 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2)，则 a X + b ∼ N ( a μ + b , a 2 σ 2 ) aX+b \sim N(a\mu+b, a^2\sigma^2) aX+b∼N(aμ+b,a2σ2)。
- 标准化 ：令 Z = X − μ σ Z = \frac{X-\mu}{\sigma} Z=σX−μ，则 Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z∼N(0,1)，称为标准正态分布。
为什么正态分布如此重要？
- 中心极限定理：大量独立随机变量之和（适当标准化）近似服从正态分布，无论原分布如何。
- 最大熵原理：在给定均值和方差的条件下，正态分布是熵最大的分布，体现"最自然"的随机性。
- 数理统计基础：许多检验（t 检验、F 检验等）都基于正态假设。
- 自然与社会现象：测量误差、生物特征、金融收益等常近似服从正态分布。
例子

某地区成年男性身高 X X X 服从 N ( 170 , 5 2 ) N(170, 5^2) N(170,52)（单位：cm），即均值 170 cm，标准差 5 cm。
- 密度曲线最高点位于 170 cm 处， f ( 170 ) = 1 2 π ⋅ 5 ≈ 0.0798 f(170) = \frac{1}{\sqrt{2\pi}\cdot5} \approx 0.0798 f(170)=2π ⋅51≈0.0798。
- 身高在 165~175 cm 之间的概率约为 68%。
- 身高超过 180 cm 的概率可通过标准正态表计算：
  P ( X > 180 ) = P ( Z > 180 − 170 5 ) = P ( Z > 2 ) = 1 − Φ ( 2 ) ≈ 1 − 0.9772 = 0.0228 P(X > 180) = P\left(Z > \frac{180-170}{5}\right) = P(Z > 2) = 1 - \Phi(2) \approx 1−0.9772=0.0228 P(X>180)=P(Z>5180−170)=P(Z>2)=1−Φ(2)≈1−0.9772=0.0228

3) 指数分布

指数分布的定义

常用于描述等待时间 或寿命等连续随机变量，核心特征是"无记忆性"------即无论已经等了多久，剩余等待时间的分布与从头开始等待完全相同。

指数分布的概率密度函数（PDF）公式为：
f ( x ) = { λ e − λ x , x ≥ 0 0 , x < 0 f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0 \\ 0, & x < 0 \end{cases} f(x)={λe−λx,0,x≥0x<0
逐项解读
1. 参数 λ \lambda λ ------ 率参数
  λ > 0 \lambda > 0 λ>0，表示单位时间内事件发生的平均速率（强度）。
  - 例如，若事件平均每 2 分钟发生一次，则 λ = 0.5 \lambda = 0.5 λ=0.5 次/分钟。
  - 期望 E $X$ = 1 λ E $X$ = \frac{1}{\lambda} E $X$ =λ1，即平均等待时间。
  - 方差 V a r ( X ) = 1 λ 2 \mathrm{Var}(X) = \frac{1}{\lambda^2} Var(X)=λ21。
2. e − λ x e^{-\lambda x} e−λx ------ 指数衰减核
  
  这是分布的核心，使得概率密度随 x x x 增大而指数衰减。
  
  当 x = 0 x=0 x=0 时， f ( 0 ) = λ f(0)=\lambda f(0)=λ；当 x x x 增大时，密度迅速减小。
  
  指数形式直接源于"无记忆性"这一关键性质的数学推导。
3. λ \lambda λ 作为乘法因子
  
  保证密度函数积分等于 1：
  ∫ 0 ∞ λ e − λ x d x = $- e - λ x$ 0 ∞ = 1 \int_0^\infty \lambda e^{-\lambda x} dx = \left $-e\^{-\\lambda x}\\right$ _0^\infty = 1 ∫0∞λe−λxdx= $-e-λx$ 0∞=1
4. 定义域 x ≥ 0 x \geq 0 x≥0
  
  指数分布只定义在非负实数上，因为等待时间或寿命不可能为负。
核心性质：无记忆性

指数分布是唯一具有无记忆性 的连续分布。

数学表达为：
P ( X > s + t ∣ X > s ) = P ( X > t ) , ∀ s , t ≥ 0 P(X > s + t \mid X > s) = P(X > t), \quad \forall s, t \geq 0 P(X>s+t∣X>s)=P(X>t),∀s,t≥0
含义：若某元件已正常工作 s s s 小时，它再工作 t t t 小时的概率，与一个新元件工作 t t t 小时的概率相同。也就是说，"老化"不影响剩余寿命分布。

这一性质使得指数分布成为泊松过程 的伴随分布：若事件到达服从泊松过程（单位时间平均到达 λ \lambda λ 次），则两次到达的间隔时间服从指数分布。
适用场景
- 电子元件的寿命（若失效率恒定）
- 顾客到达服务台的时间间隔
- 放射性原子衰变时间
- 电话通话持续时间等建模
需要注意的是，现实中许多"寿命"数据并不严格满足无记忆性（如机械零件会老化），此时指数分布仅作为近似，或改用威布尔、对数正态等分布。
例子：

某电子元件的寿命 X X X（单位：年）服从指数分布， λ = 0.5 \lambda = 0.5 λ=0.5（即平均寿命 2 年）。
- 密度函数： f ( x ) = 0.5 e − 0.5 x , x ≥ 0 f(x) = 0.5 e^{-0.5x},\ x \geq 0 f(x)=0.5e−0.5x, x≥0
- 元件寿命超过 3 年的概率：
  P ( X > 3 ) = ∫ 3 ∞ 0.5 e − 0.5 x d x = e − 0.5 × 3 = e − 1.5 ≈ 0.2231 P(X > 3) = \int_3^\infty 0.5 e^{-0.5x} dx = e^{-0.5 \times 3} = e^{-1.5} \approx 0.2231 P(X>3)=∫3∞0.5e−0.5xdx=e−0.5×3=e−1.5≈0.2231
- 已知元件已用了 2 年，再使用 1 年的概率：
  P ( X > 3 ∣ X > 2 ) = P ( X > 1 ) = e − 0.5 ≈ 0.6065 P(X > 3 \mid X > 2) = P(X > 1) = e^{-0.5} \approx 0.6065 P(X>3∣X>2)=P(X>1)=e−0.5≈0.6065
  
  这体现了无记忆性：用了 2 年后，剩余寿命分布与全新元件相同。

2.3 核心对比

维度	离散随机变量	连续随机变量
取值集合	可数（如整数、计数）	不可数（如区间、实数）
概率描述	概率质量函数 p(x)	概率密度函数 f(x)
单点概率	P(X=a) > 0可能	P(X=a) = 0总是
概率求法	求和 ∑ \sum ∑	积分 ∫ \int ∫
CDF 形状	阶梯函数，右连续	连续函数
常见分布	二项、泊松、几何	正态、均匀、指数

2.4 深入理解：为什么密度函数可以大于1？

很多人困惑于密度函数值可以大于1（如正态分布在 μ \mu μ 处 f ( μ ) = 1 2 π σ f(\mu) = \frac{1}{\sqrt{2\pi}\sigma} f(μ)=2π σ1，当 σ \sigma σ很小时该值很大）。关键区别在于：

质量函数给出的是概率 ，因此必须 ≤ 1 \leq 1 ≤1
密度函数给出的是概率密度，即"单位长度的概率"，它本身不是概率。概率是密度曲线下的面积，面积才受限于1。

举例：若 f ( x ) = 2 f(x)=2 f(x)=2在 $0 , 0.5$ $0,0.5$ $0,0.5$ 上，则 ∫ 0 0.5 2 d x = 1 \int_0^{0.5} 2 dx = 1 ∫00.52dx=1，虽然密度值为2，但整体概率仍然合规。

2.5 补充：混合型随机变量

实际中还可能存在既非完全离散也非完全连续的随机变量，称为混合型。例如：

截尾分布 ：对连续随机变量在某个点累积概率质量。比如保险理赔额：有概率 p p p为0（无理赔），其余部分服从连续分布。

这类变量的CDF既有跳跃点（离散部分），又有连续上升区间。

3. 分布函数

无论是离散还是连续随机变量，都可以用累积分布函数 （CDF，简称分布函数）统一描述。分布函数定义为：
F ( x ) = P ( X ≤ x ) , x ∈ R . F(x) = P(X \le x), \quad x \in \mathbb{R}. F(x)=P(X≤x),x∈R.

它表示随机变量 X X X 取值不超过 x x x 的概率。

3.1 分布函数的性质

分布函数 F ( x ) F(x) F(x) 具有以下重要性质（可以从概率公理推导出来）：

单调非降性 ：若 x 1 < x 2 x_1 < x_2 x1<x2，则 F ( x 1 ) ≤ F ( x 2 ) F(x_1) \le F(x_2) F(x1)≤F(x2)。
- 推导：当 x 1 < x 2 x_1 < x_2 x1<x2 时，事件 { X ≤ x 1 } ⊆ { X ≤ x 2 } \{X \le x_1\} \subseteq \{X \le x_2\} {X≤x1}⊆{X≤x2}，因此 P ( X ≤ x 1 ) ≤ P ( X ≤ x 2 ) P(X \le x_1) \le P(X \le x_2) P(X≤x1)≤P(X≤x2)。
右连续性 ： lim ⁡ h → 0 + F ( x + h ) = F ( x ) \lim_{h \to 0^+} F(x + h) = F(x) limh→0+F(x+h)=F(x)，即 F F F 在每一点右连续。
- 直观理解：概率测度从上方趋近时，包含边界点的极限保持不变。
极限性质 ：
lim ⁡ x → − ∞ F ( x ) = 0 , lim ⁡ x → + ∞ F ( x ) = 1. \lim_{x \to -\infty} F(x) = 0, \quad \lim_{x \to +\infty} F(x) = 1. x→−∞limF(x)=0,x→+∞limF(x)=1.
- 推导：当 x → − ∞ x \to -\infty x→−∞ 时，事件 { X ≤ x } \{X \le x\} {X≤x} 趋于空集，概率趋于 0；当 x → + ∞ x \to +\infty x→+∞ 时，事件趋于整个样本空间，概率趋于 1。
概率计算公式 ：对于任意 a < b a < b a<b，
P ( a < X ≤ b ) = F ( b ) − F ( a ) . P(a < X \le b) = F(b) - F(a). P(a<X≤b)=F(b)−F(a).

这一公式是分布函数的核心用途之一。

性质证明（右连续性） ：设 { x n } \{x_n\} {xn} 为单调递减趋于 x x x 的序列，则事件 { X ≤ x n } \{X \le x_n\} {X≤xn} 单调递减趋于事件 { X ≤ x } \{X \le x\} {X≤x}（因为若 X ≤ x n X \le x_n X≤xn 对所有 n n n 成立，则 X ≤ x X \le x X≤x；反之若 X ≤ x X \le x X≤x，则对任意 x n ≥ x x_n \ge x xn≥x，有 X ≤ x n X \le x_n X≤xn）。由概率的连续性（从上方），有 lim ⁡ n → ∞ F ( x n ) = F ( x ) \lim_{n \to \infty} F(x_n) = F(x) limn→∞F(xn)=F(x)，即右连续成立。

3.2 离散与连续情形下的分布函数

离散情形

如果 X X X 是离散随机变量，分布函数是阶梯函数：
F ( x ) = ∑ x i ≤ x p ( x i ) F(x) = \sum_{x_i \le x} p(x_i) F(x)=xi≤x∑p(xi)

其中 p ( x i ) = P ( X = x i ) p(x_i) = P(X = x_i) p(xi)=P(X=xi)。在 x i x_i xi 处有跳跃，跳跃高度为 p ( x i ) p(x_i) p(xi)。

例子：掷一颗公平骰子，分布函数为

F ( x ) = { 0 , x < 1 1 6 , 1 ≤ x < 2 2 6 , 2 ≤ x < 3 ⋮ 1 , x ≥ 6 F(x) = \begin{cases} 0, & x < 1\\ \frac{1}{6}, & 1 \le x < 2\\ \frac{2}{6}, & 2 \le x < 3\\ \vdots \\ 1, & x \ge 6 \end{cases} F(x)=⎩ ⎨ ⎧0,61,62,⋮1,x<11≤x<22≤x<3x≥6

连续情形

如果 X X X 是连续随机变量，分布函数是连续函数（且通常是绝对连续的）：
F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int_{-\infty}^{x} f(t) \, dt F(x)=∫−∞xf(t)dt

并且 f ( x ) = F ′ ( x ) f(x) = F'(x) f(x)=F′(x) 几乎处处成立。

例子： X ∼ U ( 0 , 1 ) X \sim U(0,1) X∼U(0,1)，则

F ( x ) = { 0 , x < 0 x , 0 ≤ x ≤ 1 1 , x > 1 F(x) = \begin{cases} 0, & x < 0\\ x, & 0 \le x \le 1\\ 1, & x > 1 \end{cases} F(x)=⎩ ⎨ ⎧0,x,1,x<00≤x≤1x>1

4. 总结与思考

随机变量 将随机试验的结果数值化，是连接概率论和数学分析的桥梁。
离散与连续 的区分取决于可能取值的类型，分别用 PMF 和 PDF 描述，但分布函数 F ( x ) F(x) F(x) 能统一处理两类。
分布函数 的三个基本性质（非降、右连续、极限为 0 和 1）不仅是理论要求，也是判断一个函数能否作为分布函数的充要条件。

理解随机变量及其分布函数，是后续学习期望、方差以及各种概率分布的基础。下一讲我们将深入常见离散分布和连续分布的具体形式。

上一章 机器学习概率论与统计学--(2)统计学基础

下一章 机器学习概率论与统计学--(4)概率论：概率质量函数与概率密度函数