机器学习概率论与统计学--(3)概率论:随机变量

欢迎来到概率论的核心概念------随机变量。在之前的讲解中,我们学习了样本空间和事件,但很多时候我们需要将随机试验的结果"数字化",以便进行数学运算。随机变量正是为此而生。我们将从随机变量的定义开始,区分离散与连续两类,并深入理解分布函数这个统一描述工具。


1. 随机变量的定义

随机变量 是一个从样本空间 Ω \Omega Ω 到实数集 R \mathbb{R} R 的函数,通常用大写字母 X , Y , Z X, Y, Z X,Y,Z 表示。也就是说,对于每一个试验结果 ω ∈ Ω \omega \in \Omega ω∈Ω,随机变量都赋予一个实数 X ( ω ) X(\omega) X(ω)。

例子 :抛一枚硬币,结果可能是正面或反面。定义 X X X 为:正面时 X = 1 X=1 X=1,反面时 X = 0 X=0 X=0。那么 X X X 就是一个随机变量,它将样本空间 { 正面 , 反面 } \{\text{正面}, \text{反面}\} {正面,反面} 映射到 { 1 , 0 } \{1, 0\} {1,0}。

引入随机变量后,我们就可以用数学语言描述随机现象的概率规律。例如,我们可以讨论 P ( X ≤ x ) P(X \le x) P(X≤x)、 E [ X ] E[X] E[X] 等。


2. 随机变量的类型

根据随机变量可能取值的类型,可以分为两类。

2.1 离散随机变量

2.1.1 定义

如果随机变量 X X X 的所有可能取值是有限个或可数无限个(例如整数),则称 X X X 为离散随机变量 。离散随机变量的概率分布由概率质量函数 (PMF)描述:
p ( x ) = P ( X = x ) , x ∈ X p(x) = P(X = x), \quad x \in X p(x)=P(X=x),x∈X

其中 x x x 是 X X X 的取值集合。PMF 满足:

  • p ( x ) ≥ 0 p(x) \ge 0 p(x)≥0,
  • ∑ x ∈ X p ( x ) = 1 \sum_{x \in X} p(x) = 1 ∑x∈Xp(x)=1。

例子 :掷一颗骰子,点数 X X X 的取值为 1 , 2 , 3 , 4 , 5 , 6 1,2,3,4,5,6 1,2,3,4,5,6,每个概率 1 / 6 1/6 1/6。这是离散随机变量。

2.1.2 关键特性
  • 在某一点上的概率可以不为零
  • 期望 E [ X ] = ∑ x i p ( x i ) E[X] = \sum x_i p(x_i) E[X]=∑xip(xi)
2.1.3 典型例子
1) 伯努利分布
  • 伯努利分布的定义

    伯努利分布是最简单的离散概率分布之一,它描述的是单次随机试验中只有两种可能结果(通常称为"成功"和"失败")的情况。

    伯努利分布的概率质量函数(PMF)通常写作:
    P ( X = x ) = { p , x = 1 1 − p , x = 0 0 , 其他 P(X = x) = \begin{cases} p, & x = 1 \\ 1-p, & x = 0 \\ 0, & \text{其他} \end{cases} P(X=x)=⎩ ⎨ ⎧p,1−p,0,x=1x=0其他

    或更紧凑地记为:
    P ( X = x ) = p x ( 1 − p ) 1 − x , x ∈ { 0 , 1 } P(X = x) = p^x (1-p)^{1-x},\ x \in \{0,1\} P(X=x)=px(1−p)1−x, x∈{0,1}

    • X X X 是随机变量,取值 1 表示"成功",0 表示"失败"。

    • p p p 是参数,表示单次试验中成功的概率,满足 0 ≤ p ≤ 1 0 \le p \le 1 0≤p≤1。

    • 1 − p 1-p 1−p 是失败的概率。

    逐项解读

    1. x = 1 x = 1 x=1

      对应"成功"事件。它的概率是 p p p。

      例如:掷一枚硬币,若定义正面为成功,则 p = 0.5 p = 0.5 p=0.5;若定义中奖为成功,则 p p p 就是中奖概率。

    2. x = 0 x = 0 x=0

      对应"失败"事件。它的概率是 1 − p 1-p 1−p。

    3. 其他 x x x

      伯努利随机变量只能取 0 或 1,取其他值的概率为 0。

    4. 参数 p p p

      完全决定了分布。它既是成功概率,也是随机变量的期望:
      E [ X ] = 1 ⋅ p + 0 ⋅ ( 1 − p ) = p E[X] = 1 \cdot p + 0 \cdot (1-p) = p E[X]=1⋅p+0⋅(1−p)=p

      方差为
      V a r ( X ) = E [ X 2 ] − ( E [ X ] ) 2 = p − p 2 = p ( 1 − p ) \mathrm{Var}(X) = E[X^2] - (E[X])^2 = p - p^2 = p(1-p) Var(X)=E[X2]−(E[X])2=p−p2=p(1−p)

  • 伯努利分布的意义

    伯努利分布是许多更复杂分布的基础:

    • 二项分布 : n n n 次独立伯努利试验中成功的总次数,服从 B ( n , p ) B(n, p) B(n,p)。当 n = 1 n=1 n=1 时,二项分布退化为伯努利分布。

    • 几何分布:首次成功所需的试验次数,基于伯努利试验序列。

    • 负二项分布 :第 r r r 次成功所需的试验次数。

    在机器学习中,伯努利分布常用于二分类问题的标签建模 (逻辑回归的输出可视为伯努利分布参数 p p p 的估计);在贝叶斯统计中,常与 Beta 分布共轭使用。

  • 例子

    • 抛硬币 :定义正面为 1(成功),反面为 0(失败)。若硬币均匀, p = 0.5 p = 0.5 p=0.5。
    • 产品检验 :随机抽取一件产品,合格为成功,不合格为失败。合格率即为 p p p。
    • 用户点击 :展示一次广告,用户点击为 1,否则为 0。点击率就是 p p p。
2) 二项分布
  • 二项分布的定义

    常用于描述在 n 次独立重复的伯努利试验中,恰好成功 k k k 次的概率:
    P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , k = 0 , 1 , ... , n P(X=k) = \binom{n}{k} p^k (1-p)^{n-k},\ k=0,1,\dots,n P(X=k)=(kn)pk(1−p)n−k, k=0,1,...,n

    逐项解读

    • ( n k ) \binom{n}{k} (kn) ------ 组合数

      表示从 n n n 次试验中选出哪 k k k 次是成功的所有可能方式。

      例如, n = 3 , k = 2 n=3, k=2 n=3,k=2 时, ( 3 2 ) = 3 \binom{3}{2}=3 (23)=3,对应成功可能出现在第1、2次,第1、3次,或第2、3次。

    • p k p^k pk ------ k 次成功的概率

      每一次成功的概率是 p p p,k 次独立成功同时发生的概率为 p × p × ⋯ × p = p k p \times p \times \cdots \times p = p^k p×p×⋯×p=pk。

    • ( 1 − p ) n − k (1-p)^{n-k} (1−p)n−k ------ 其余 n − k n-k n−k 次失败的概率

      每一次失败的概率是 1 − p 1-p 1−p,所有失败同时发生的概率为 ( 1 − p ) n − k (1-p)^{n-k} (1−p)n−k。

    • 乘积 ( n k ) p k ( 1 − p ) n − k \binom{n}{k} p^k (1-p)^{n-k} (kn)pk(1−p)n−k

      对于每一种特定的成功位置组合,其发生的概率都是 p k ( 1 − p ) n − k p^k (1-p)^{n-k} pk(1−p)n−k。因为有 ( n k ) \binom{n}{k} (kn) 种不同的组合,总概率等于组合数乘以单种组合的概率

  • 适用条件

    • 试验次数 n n n 固定

    • 每次试验相互独立

    • 每次试验只有两种结果(成功/失败)

    • 成功概率 p p p 恒定

    二项分布广泛用于质量控制、医学试验、投票调查等场景,是离散概率分布中最基础、最重要的分布之一。

  • 例子

    掷一枚均匀硬币 5 次( p = 0.5 p=0.5 p=0.5),求恰好出现 3 次正面的概率:
    P ( X = 3 ) = ( 5 3 ) ( 0.5 ) 3 ( 0.5 ) 2 = 10 × 0.125 × 0.25 = 0.3125 P(X=3) = \binom{5}{3} (0.5)^3 (0.5)^{2} = 10 \times 0.125 \times 0.25 = 0.3125 P(X=3)=(35)(0.5)3(0.5)2=10×0.125×0.25=0.3125

3) 泊松分布
  • 泊松分布的定义

    常用于描述在单位时间(或单位空间、单位面积等)内,某类随机事件恰好发生 k k k 次的概率。其中 λ \lambda λ 是该事件在该单位内的平均发生次数, e e e 是自然常数(约 2.71828)。
    P ( X = k ) = λ k e − λ k ! , k = 0 , 1 , 2 , ... P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!},\ k=0,1,2,\dots P(X=k)=k!λke−λ, k=0,1,2,...

    逐项解读

    1. k k k

      表示事件发生的具体次数,取值为非负整数。

    2. λ \lambda λ

      是泊松分布的唯一参数,代表平均发生率。

      例如,某医院急诊室平均每小时到 3 个病人,则 λ = 3 \lambda = 3 λ=3。

    3. λ k \lambda^k λk

      这是 k k k 次事件发生的"强度"部分。直观上,若事件发生率是 λ \lambda λ,则 k k k 次发生会带来 λ \lambda λ 的 k k k 次乘积。

    4. e − λ e^{-\lambda} e−λ

      这是"不发生"部分的调整因子。它来源于泊松过程推导中的指数衰减,确保所有概率之和为 1。

      数学上, ∑ k = 0 ∞ λ k e − λ k ! = e − λ ⋅ e λ = 1 \sum_{k=0}^{\infty} \frac{\lambda^k e^{-\lambda}}{k!} = e^{-\lambda} \cdot e^{\lambda} = 1 ∑k=0∞k!λke−λ=e−λ⋅eλ=1,满足归一化条件。

    5. k ! k! k!

      分母中的阶乘用于去除顺序带来的重复计数

      事件在时间区间内以某种顺序发生,所有 k ! k! k! 种顺序对应同一个"发生次数"的结果,因此除以 k ! k! k! 来计数不同的"无序"组合。

  • 关键性质

    泊松分布通常用于描述:

    • 单位时间内某事件发生次数(如网站访问量、交通事故数)

    • 单位面积内某点的个数(如显微镜下细菌数)

    • 且事件满足独立性平稳性(发生率恒定)

    它的数学期望和方差均为 λ \lambda λ: E [ X ] = λ E[X] = \lambda E[X]=λ, V a r ( X ) = λ \mathrm{Var}(X) = \lambda Var(X)=λ,这是它最显著的特征之一。

  • 例子

    某客服中心平均每分钟接到 2 个电话( λ = 2 \lambda = 2 λ=2),求恰好接到 3 个电话的概率:
    P ( X = 3 ) = 2 3 e − 2 3 ! = 8 × e − 2 6 ≈ 8 × 0.1353 6 ≈ 0.1804 P(X=3) = \frac{2^3 e^{-2}}{3!} = \frac{8 \times e^{-2}}{6} \approx \frac{8 \times 0.1353}{6} \approx 0.1804 P(X=3)=3!23e−2=68×e−2≈68×0.1353≈0.1804

2.2 连续随机变量

2.2.1 定义

如果随机变量 X X X 可以取某个区间(或若干区间)内的任意实数值,并且存在一个非负函数 f ( x ) f(x) f(x),使得对于任意 a ≤ b a \le b a≤b,
P ( a ≤ X ≤ b ) = ∫ a b f ( x )   d x , P(a \le X \le b) = \int_a^b f(x) \, dx, P(a≤X≤b)=∫abf(x)dx,

则称 X X X 为连续随机变量 , f ( x ) f(x) f(x) 称为概率密度函数(PDF)。PDF 满足:

  • f ( x ) ≥ 0 f(x) \ge 0 f(x)≥0,
  • ∫ − ∞ ∞ f ( x )   d x = 1 \int_{-\infty}^{\infty} f(x) \, dx = 1 ∫−∞∞f(x)dx=1。

注意:对于连续随机变量,单点概率 P ( X = a ) = 0 P(X = a) = 0 P(X=a)=0,因为积分区间长度为 0。

例子 :在区间 [ 0 , 1 ] [0,1] [0,1] 上随机取一点,定义 X X X 为该点的坐标。则 X X X 服从均匀分布 U ( 0 , 1 ) U(0,1) U(0,1),其 PDF 为 f ( x ) = 1 f(x)=1 f(x)=1 对于 x ∈ [ 0 , 1 ] x \in [0,1] x∈[0,1],否则 0。

2.2.2 关键特性
  • 概率由积分给出: P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a \leq X \leq b) = \int_{a}^{b} f(x) dx P(a≤X≤b)=∫abf(x)dx
  • 期望 E [ X ] = ∫ − ∞ ∞ x f ( x ) d x E[X] = \int_{-\infty}^{\infty} x f(x) dx E[X]=∫−∞∞xf(x)dx
2.2.3 典型例子
1) 均匀分布
  • 均匀分布的定义

    常用于描述在区间 [ a , b ] [a, b] [a,b] 上,随机变量 X X X 取任何子区间的概率只与该子区间的长度成正比,而与位置无关,即"等可能"地落在区间内的任意一点。

    均匀分布(连续型)的概率密度函数公式为:
    f ( x ) = { 1 b − a , a ≤ x ≤ b 0 , 其他 f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{其他} \end{cases} f(x)={b−a1,0,a≤x≤b其他

    逐项解读

    1. 区间端点 a a a 和 b b b

      这是均匀分布的参数,表示随机变量 X X X 的取值范围。

      a a a 是最小值, b b b 是最大值,且 a < b a < b a<b。

    2. 1 b − a \frac{1}{b-a} b−a1 密度函数的常数高度

      在 [ a , b ] [a, b] [a,b] 内,密度函数是一个常数。这个常数值由归一化条件决定:
      ∫ a b f ( x )   d x = ∫ a b 1 b − a   d x = 1 b − a × ( b − a ) = 1 \int_{a}^{b} f(x) \, dx = \int_{a}^{b} \frac{1}{b-a} \, dx = \frac{1}{b-a} \times (b-a) = 1 ∫abf(x)dx=∫abb−a1dx=b−a1×(b−a)=1

      即密度曲线下的总面积为 1。

      注意:当区间长度 b − a b-a b−a 很小时,密度值可以大于 1(例如 a = 0 , b = 0.5 a=0, b=0.5 a=0,b=0.5 时, f ( x ) = 2 f(x)=2 f(x)=2),这并不违反概率公理,因为概率是面积而非高度。

    3. f ( x ) = 0 f(x)=0 f(x)=0 在区间外

      表示随机变量不可能取到 [ a , b ] [a, b] [a,b] 之外的值。

    对于均匀分布,事件 c ≤ X ≤ d c \leq X \leq d c≤X≤d(其中 a ≤ c < d ≤ b a \leq c < d \leq b a≤c<d≤b)的概率为:
    P ( c ≤ X ≤ d ) = ∫ c d 1 b − a   d x = d − c b − a P(c \leq X \leq d) = \int_{c}^{d} \frac{1}{b-a} \, dx = \frac{d-c}{b-a} P(c≤X≤d)=∫cdb−a1dx=b−ad−c

    子区间长度与总区间长度之比。 这清晰地体现了"等可能"的含义:长度越长的子区间,概率越大,且概率与位置无关。

  • 核心特性

    性质 公式
    期望 E [ X ] = a + b 2 E[X] = \frac{a+b}{2} E[X]=2a+b(区间中点)
    方差 V a r ( X ) = ( b − a ) 2 12 \mathrm{Var}(X) = \frac{(b-a)^2}{12} Var(X)=12(b−a)2
    累积分布函数 F ( x ) = { 0 , x < a x − a b − a , a ≤ x ≤ b 1 , x > b F(x) = \begin{cases} 0, & x < a \\ \frac{x-a}{b-a}, & a \leq x \leq b \\ 1, & x > b \end{cases} F(x)=⎩ ⎨ ⎧0,b−ax−a,1,x<aa≤x≤bx>b
  • 例子:

    公交车每 10 分钟一班,某人随机到站,等车时间 X X X 服从 [ 0 , 10 ] [0, 10] [0,10] 上的均匀分布(单位:分钟)。

    • 密度函数: f ( x ) = 1 10 , 0 ≤ x ≤ 10 f(x) = \frac{1}{10}, \ 0 \leq x \leq 10 f(x)=101, 0≤x≤10

    • 等车时间在 2 到 5 分钟之间的概率:
      P ( 2 ≤ X ≤ 5 ) = 5 − 2 10 = 0.3 P(2 \leq X \leq 5) = \frac{5-2}{10} = 0.3 P(2≤X≤5)=105−2=0.3

    • 等车时间恰好等于 3 分钟的概率:
      P ( X = 3 ) = 3 − 3 10 = 0 ( 连续随机变量单点概率为 0 ) P(X = 3)= \frac{3-3}{10} = 0 \ (连续随机变量单点概率为 0) P(X=3)=103−3=0 (连续随机变量单点概率为0)

2) 正态分布
  • 正态分布的定义

    常用于描述连续随机变量 X X X 的分布形态,呈现为一条对称的钟形曲线,中心在均值 \\mu 处,分散程度由标准差 σ \sigma σ 控制。

    正态分布(高斯分布)的概率密度函数公式为:
    f ( x ) = 1 2 π   σ   e − ( x − μ ) 2 2 σ 2 , x ∈ R f(x) = \frac{1}{\sqrt{2\pi}\,\sigma} \, e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad x \in \mathbb{R} f(x)=2π σ1e−2σ2(x−μ)2,x∈R

    逐项解读

    1. \\mu ------ 均值(位置参数)

      决定了分布的中心位置,即曲线的对称轴。 E [ X ] = μ E[X] = \mu E[X]=μ,且中位数、众数均等于 \\mu

    2. σ \sigma σ ------ 标准差(尺度参数)

      控制分布的"宽度"。 σ \sigma σ 越大,曲线越扁平、分散; σ \sigma σ 越小,曲线越瘦高、集中。方差 V a r ( X ) = σ 2 \mathrm{Var}(X) = \sigma^2 Var(X)=σ2。

    3. 1 2 π   σ \frac{1}{\sqrt{2\pi}\,\sigma} 2π σ1 ------ 归一化常数

      保证密度曲线下的总面积为 1。 2 π \sqrt{2\pi} 2π 来自高斯积分 ∫ − ∞ ∞ e − x 2 / 2 d x = 2 π \int_{-\infty}^{\infty} e^{-x^2/2} dx = \sqrt{2\pi} ∫−∞∞e−x2/2dx=2π ,除以 σ \sigma σ 是为了适应尺度的伸缩。

    4. e − ( x − μ ) 2 2 σ 2 e^{-\frac{(x-\mu)^2}{2\sigma^2}} e−2σ2(x−μ)2 ------ 指数核

      指数部分决定了形状。当 x = μ x = \mu x=μ 时指数为 1,密度最大;随着 ∣ x − μ ∣ |x-\mu| ∣x−μ∣ 增大,指数迅速衰减,形成钟形。指数中的平方使得左右对称,分母 2 σ 2 2\sigma^2 2σ2 调整衰减速率。

  • 关键性质

    • 对称性 :关于 x = μ x = \mu x=μ 对称。

    • 68-95-99.7 法则 :约 68% 的数据落在 μ ± σ \mu \pm \sigma μ±σ 内,95% 落在 μ ± 2 σ \mu \pm 2\sigma μ±2σ 内,99.7% 落在 μ ± 3 σ \mu \pm 3\sigma μ±3σ 内。

    • 线性变换不变性 :若 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2),则 a X + b ∼ N ( a μ + b , a 2 σ 2 ) aX+b \sim N(a\mu+b, a^2\sigma^2) aX+b∼N(aμ+b,a2σ2)。

    • 标准化 :令 Z = X − μ σ Z = \frac{X-\mu}{\sigma} Z=σX−μ,则 Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z∼N(0,1),称为标准正态分布。

  • 为什么正态分布如此重要?

    • 中心极限定理:大量独立随机变量之和(适当标准化)近似服从正态分布,无论原分布如何。

    • 最大熵原理:在给定均值和方差的条件下,正态分布是熵最大的分布,体现"最自然"的随机性。

    • 数理统计基础:许多检验(t 检验、F 检验等)都基于正态假设。

    • 自然与社会现象:测量误差、生物特征、金融收益等常近似服从正态分布。

  • 例子

    某地区成年男性身高 X X X 服从 N ( 170 , 5 2 ) N(170, 5^2) N(170,52)(单位:cm),即均值 170 cm,标准差 5 cm。

    • 密度曲线最高点位于 170 cm 处, f ( 170 ) = 1 2 π ⋅ 5 ≈ 0.0798 f(170) = \frac{1}{\sqrt{2\pi}\cdot5} \approx 0.0798 f(170)=2π ⋅51≈0.0798。

    • 身高在 165~175 cm 之间的概率约为 68%。

    • 身高超过 180 cm 的概率可通过标准正态表计算:
      P ( X > 180 ) = P ( Z > 180 − 170 5 ) = P ( Z > 2 ) = 1 − Φ ( 2 ) ≈ 1 − 0.9772 = 0.0228 P(X > 180) = P\left(Z > \frac{180-170}{5}\right) = P(Z > 2) = 1 - \Phi(2) \approx 1−0.9772=0.0228 P(X>180)=P(Z>5180−170)=P(Z>2)=1−Φ(2)≈1−0.9772=0.0228

3) 指数分布
  • 指数分布的定义

    常用于描述等待时间寿命等连续随机变量,核心特征是"无记忆性"------即无论已经等了多久,剩余等待时间的分布与从头开始等待完全相同。

    指数分布的概率密度函数(PDF)公式为:
    f ( x ) = { λ e − λ x , x ≥ 0 0 , x < 0 f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0 \\ 0, & x < 0 \end{cases} f(x)={λe−λx,0,x≥0x<0

    逐项解读

    1. 参数 λ \lambda λ ------ 率参数
      λ > 0 \lambda > 0 λ>0,表示单位时间内事件发生的平均速率(强度)。

      • 例如,若事件平均每 2 分钟发生一次,则 λ = 0.5 \lambda = 0.5 λ=0.5 次/分钟。
      • 期望 E [ X ] = 1 λ E[X] = \frac{1}{\lambda} E[X]=λ1,即平均等待时间。
      • 方差 V a r ( X ) = 1 λ 2 \mathrm{Var}(X) = \frac{1}{\lambda^2} Var(X)=λ21。
    2. e − λ x e^{-\lambda x} e−λx ------ 指数衰减核

      这是分布的核心,使得概率密度随 x x x 增大而指数衰减。

      当 x = 0 x=0 x=0 时, f ( 0 ) = λ f(0)=\lambda f(0)=λ;当 x x x 增大时,密度迅速减小。

      指数形式直接源于"无记忆性"这一关键性质的数学推导。

    3. λ \lambda λ 作为乘法因子

      保证密度函数积分等于 1:
      ∫ 0 ∞ λ e − λ x d x = [ − e − λ x ] 0 ∞ = 1 \int_0^\infty \lambda e^{-\lambda x} dx = \left[-e^{-\lambda x}\right]_0^\infty = 1 ∫0∞λe−λxdx=[−e−λx]0∞=1

    4. 定义域 x ≥ 0 x \geq 0 x≥0

      指数分布只定义在非负实数上,因为等待时间或寿命不可能为负。

  • 核心性质:无记忆性

    指数分布是唯一具有无记忆性 的连续分布。

    数学表达为:
    P ( X > s + t ∣ X > s ) = P ( X > t ) , ∀ s , t ≥ 0 P(X > s + t \mid X > s) = P(X > t), \quad \forall s, t \geq 0 P(X>s+t∣X>s)=P(X>t),∀s,t≥0
    含义 :若某元件已正常工作 s s s 小时,它再工作 t t t 小时的概率,与一个新元件工作 t t t 小时的概率相同。也就是说,"老化"不影响剩余寿命分布。

    这一性质使得指数分布成为泊松过程 的伴随分布:若事件到达服从泊松过程(单位时间平均到达 λ \lambda λ 次),则两次到达的间隔时间服从指数分布。

  • 适用场景

    • 电子元件的寿命(若失效率恒定)

    • 顾客到达服务台的时间间隔

    • 放射性原子衰变时间

    • 电话通话持续时间等建模

    需要注意的是,现实中许多"寿命"数据并不严格满足无记忆性(如机械零件会老化),此时指数分布仅作为近似,或改用威布尔、对数正态等分布。

  • 例子:

    某电子元件的寿命 X X X(单位:年)服从指数分布, λ = 0.5 \lambda = 0.5 λ=0.5(即平均寿命 2 年)。

    • 密度函数: f ( x ) = 0.5 e − 0.5 x , x ≥ 0 f(x) = 0.5 e^{-0.5x},\ x \geq 0 f(x)=0.5e−0.5x, x≥0

    • 元件寿命超过 3 年的概率:
      P ( X > 3 ) = ∫ 3 ∞ 0.5 e − 0.5 x d x = e − 0.5 × 3 = e − 1.5 ≈ 0.2231 P(X > 3) = \int_3^\infty 0.5 e^{-0.5x} dx = e^{-0.5 \times 3} = e^{-1.5} \approx 0.2231 P(X>3)=∫3∞0.5e−0.5xdx=e−0.5×3=e−1.5≈0.2231

    • 已知元件已用了 2 年,再使用 1 年的概率:
      P ( X > 3 ∣ X > 2 ) = P ( X > 1 ) = e − 0.5 ≈ 0.6065 P(X > 3 \mid X > 2) = P(X > 1) = e^{-0.5} \approx 0.6065 P(X>3∣X>2)=P(X>1)=e−0.5≈0.6065

      这体现了无记忆性:用了 2 年后,剩余寿命分布与全新元件相同。

2.3 核心对比

维度 离散随机变量 连续随机变量
取值集合 可数(如整数、计数) 不可数(如区间、实数)
概率描述 概率质量函数 p(x) 概率密度函数 f(x)
单点概率 P(X=a) > 0可能 P(X=a) = 0总是
概率求法 求和 ∑ \sum ∑ 积分 ∫ \int ∫
CDF 形状 阶梯函数,右连续 连续函数
常见分布 二项、泊松、几何 正态、均匀、指数

2.4 深入理解:为什么密度函数可以大于1?

很多人困惑于密度函数值可以大于1(如正态分布在 μ \mu μ 处 f ( μ ) = 1 2 π σ f(\mu) = \frac{1}{\sqrt{2\pi}\sigma} f(μ)=2π σ1,当 σ \sigma σ很小时该值很大)。关键区别在于:

  • 质量函数给出的是概率 ,因此必须 ≤ 1 \leq 1 ≤1
  • 密度函数给出的是概率密度,即"单位长度的概率",它本身不是概率。概率是密度曲线下的面积,面积才受限于1。

举例:若 f ( x ) = 2 f(x)=2 f(x)=2在 [ 0 , 0.5 ] [0,0.5] [0,0.5]上,则 ∫ 0 0.5 2 d x = 1 \int_0^{0.5} 2 dx = 1 ∫00.52dx=1,虽然密度值为2,但整体概率仍然合规。

2.5 补充:混合型随机变量

实际中还可能存在既非完全离散也非完全连续的随机变量,称为混合型。例如:

  • 截尾分布 :对连续随机变量在某个点累积概率质量。比如保险理赔额:有概率 p p p为0(无理赔),其余部分服从连续分布。

这类变量的CDF既有跳跃点(离散部分),又有连续上升区间。


3. 分布函数

无论是离散还是连续随机变量,都可以用累积分布函数 (CDF,简称分布函数)统一描述。分布函数定义为:
F ( x ) = P ( X ≤ x ) , x ∈ R . F(x) = P(X \le x), \quad x \in \mathbb{R}. F(x)=P(X≤x),x∈R.

它表示随机变量 X X X 取值不超过 x x x 的概率。

3.1 分布函数的性质

分布函数 F ( x ) F(x) F(x) 具有以下重要性质(可以从概率公理推导出来):

  1. 单调非降性 :若 x 1 < x 2 x_1 < x_2 x1<x2,则 F ( x 1 ) ≤ F ( x 2 ) F(x_1) \le F(x_2) F(x1)≤F(x2)。

    • 推导:当 x 1 < x 2 x_1 < x_2 x1<x2 时,事件 { X ≤ x 1 } ⊆ { X ≤ x 2 } \{X \le x_1\} \subseteq \{X \le x_2\} {X≤x1}⊆{X≤x2},因此 P ( X ≤ x 1 ) ≤ P ( X ≤ x 2 ) P(X \le x_1) \le P(X \le x_2) P(X≤x1)≤P(X≤x2)。
  2. 右连续性 : lim ⁡ h → 0 + F ( x + h ) = F ( x ) \lim_{h \to 0^+} F(x + h) = F(x) limh→0+F(x+h)=F(x),即 F F F 在每一点右连续。

    • 直观理解:概率测度从上方趋近时,包含边界点的极限保持不变。
  3. 极限性质
    lim ⁡ x → − ∞ F ( x ) = 0 , lim ⁡ x → + ∞ F ( x ) = 1. \lim_{x \to -\infty} F(x) = 0, \quad \lim_{x \to +\infty} F(x) = 1. x→−∞limF(x)=0,x→+∞limF(x)=1.

    • 推导:当 x → − ∞ x \to -\infty x→−∞ 时,事件 { X ≤ x } \{X \le x\} {X≤x} 趋于空集,概率趋于 0;当 x → + ∞ x \to +\infty x→+∞ 时,事件趋于整个样本空间,概率趋于 1。
  4. 概率计算公式 :对于任意 a < b a < b a<b,
    P ( a < X ≤ b ) = F ( b ) − F ( a ) . P(a < X \le b) = F(b) - F(a). P(a<X≤b)=F(b)−F(a).

    这一公式是分布函数的核心用途之一。

性质证明(右连续性) :设 { x n } \{x_n\} {xn} 为单调递减趋于 x x x 的序列,则事件 { X ≤ x n } \{X \le x_n\} {X≤xn} 单调递减趋于事件 { X ≤ x } \{X \le x\} {X≤x}(因为若 X ≤ x n X \le x_n X≤xn 对所有 n n n 成立,则 X ≤ x X \le x X≤x;反之若 X ≤ x X \le x X≤x,则对任意 x n ≥ x x_n \ge x xn≥x,有 X ≤ x n X \le x_n X≤xn)。由概率的连续性(从上方),有 lim ⁡ n → ∞ F ( x n ) = F ( x ) \lim_{n \to \infty} F(x_n) = F(x) limn→∞F(xn)=F(x),即右连续成立。

3.2 离散与连续情形下的分布函数

离散情形

如果 X X X 是离散随机变量,分布函数是阶梯函数:
F ( x ) = ∑ x i ≤ x p ( x i ) F(x) = \sum_{x_i \le x} p(x_i) F(x)=xi≤x∑p(xi)

其中 p ( x i ) = P ( X = x i ) p(x_i) = P(X = x_i) p(xi)=P(X=xi)。在 x i x_i xi 处有跳跃,跳跃高度为 p ( x i ) p(x_i) p(xi)。

例子:掷一颗公平骰子,分布函数为

F ( x ) = { 0 , x < 1 1 6 , 1 ≤ x < 2 2 6 , 2 ≤ x < 3 ⋮ 1 , x ≥ 6 F(x) = \begin{cases} 0, & x < 1\\ \frac{1}{6}, & 1 \le x < 2\\ \frac{2}{6}, & 2 \le x < 3\\ \vdots \\ 1, & x \ge 6 \end{cases} F(x)=⎩ ⎨ ⎧0,61,62,⋮1,x<11≤x<22≤x<3x≥6

连续情形

如果 X X X 是连续随机变量,分布函数是连续函数(且通常是绝对连续的):
F ( x ) = ∫ − ∞ x f ( t )   d t F(x) = \int_{-\infty}^{x} f(t) \, dt F(x)=∫−∞xf(t)dt

并且 f ( x ) = F ′ ( x ) f(x) = F'(x) f(x)=F′(x) 几乎处处成立。

例子 : X ∼ U ( 0 , 1 ) X \sim U(0,1) X∼U(0,1),则

F ( x ) = { 0 , x < 0 x , 0 ≤ x ≤ 1 1 , x > 1 F(x) = \begin{cases} 0, & x < 0\\ x, & 0 \le x \le 1\\ 1, & x > 1 \end{cases} F(x)=⎩ ⎨ ⎧0,x,1,x<00≤x≤1x>1


4. 总结与思考

  • 随机变量 将随机试验的结果数值化,是连接概率论和数学分析的桥梁。
  • 离散与连续 的区分取决于可能取值的类型,分别用 PMF 和 PDF 描述,但分布函数 F ( x ) F(x) F(x) 能统一处理两类。
  • 分布函数 的三个基本性质(非降、右连续、极限为 0 和 1)不仅是理论要求,也是判断一个函数能否作为分布函数的充要条件。

理解随机变量及其分布函数,是后续学习期望、方差以及各种概率分布的基础。下一讲我们将深入常见离散分布和连续分布的具体形式。

上一章 机器学习概率论与统计学--(2)统计学基础

下一章 机器学习概率论与统计学--(4)概率论:概率质量函数与概率密度函数

相关推荐
Zero3 小时前
机器学习概率论与统计学--(4)概率论:概率质量函数与概率密度函数
机器学习·概率论·概率密度函数·概率质量函数
QQsuccess3 小时前
人工智能(AI)全体系学习——系列二
人工智能·学习·机器学习
落羽的落羽3 小时前
【Linux系统】中断机制、用户态与内核态、虚拟地址与页表的本质
java·linux·服务器·c++·人工智能·算法·机器学习
乐分启航15 小时前
SliMamba:十余K参数量刷新SOTA!高光谱分类的“降维打击“来了
java·人工智能·深度学习·算法·机器学习·分类·数据挖掘
Theodore_102217 小时前
深度学习(11):偏差与方差诊断、学习曲线
人工智能·笔记·深度学习·神经网络·机器学习·计算机视觉
Theodore_102219 小时前
深度学习(12)正则化线性回归中的偏差与方差调试
人工智能·深度学习·算法·机器学习·线性回归
链巨人19 小时前
理解L-平滑 (L-smoothness)和\mu-强凸 (\mu-strong convexity)并以此假设来证明梯度下降方法的收敛性
人工智能·机器学习
Zero1 天前
机器学习概率论与统计学--(2)统计学基础
机器学习·概率论·统计学
做科研的周师兄1 天前
巴音河中下游灌溉草地空间分布数据集(2020年)
大数据·人工智能·算法·机器学习·数据挖掘·聚类