随机变量及其分布:概率论的量化核心

标题

引言

随机变量是概率论的伟大发明------它将抽象的随机事件转化为具体的数学对象,让我们能用微积分工具研究不确定性。这一章将带你从随机变量的定义出发,直抵分布函数的核心,掌握描述随机现象的数学语言。

2 随机变量及其分布


2.1 随机变量

定义与分类

随机变量 是定义在样本空间S上的实值单值函数:
X : S → R X: S \rightarrow \mathbb{R} X:S→R

  • 离散型:取值有限或可列无限(如抛硬币次数)
  • 连续型:取值充满某个区间(如灯泡寿命)

示例

  • 抛硬币3次,X="正面出现次数" → X ∈ { 0 , 1 , 2 , 3 } X \in \{0,1,2,3\} X∈{0,1,2,3} (离散)
  • 测量某零件长度,Y="测量值" → Y ∈ [ 10 , 20 ] m m Y \in [10, 20]mm Y∈[10,20]mm (连续)

2.2 离散型随机变量:概率质量函数(PMF)

概率分布律

用表格或函数描述取值概率:

X X X x 1 x_1 x1 x 2 x_2 x2 ⋯ \cdots ⋯
P P P p 1 p_1 p1 p 2 p_2 p2 ⋯ \cdots ⋯

概率质量函数(分布律)
P ( X = x k ) = p k ( k = 1 , 2 , ⋯   ) P(X=x_k) = p_k \quad (k=1,2,\cdots) P(X=xk)=pk(k=1,2,⋯)

性质

  1. p k ≥ 0 p_k \geq 0 pk≥0
  2. ∑ k p k = 1 \sum_k p_k = 1 ∑kpk=1

经典分布

分布 符号 公式 应用场景
(0-1)分布 X ∼ B ( 1 , p ) X∼B(1,p) X∼B(1,p) P ( X = k ) = p k ( 1 − p ) 1 − k P(X=k)=p^k (1-p)^{1-k} P(X=k)=pk(1−p)1−k 只有两种可能结果的随机试验。
二项分布 X ∼ B ( n , p ) X∼B(n,p) X∼B(n,p) P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k)=C_n^k p^k (1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k n次独立伯努利试验成功次数
泊松分布 X ∼ π ( λ ) X \sim \pi (\lambda) X∼π(λ) P ( X = k ) = λ k e − λ k ! P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λke−λ 稀有事在固定时间/空间内发生次数

4. 各分布之间的关系

  • 二项分布 → 泊松分布 :当 n n n很大( ≥ 20 \geq 20 ≥20)、 p p p很小( ≤ 0.05 \leq 0.05 ≤0.05)且 λ = n p \lambda=np λ=np 固定时,二项分布可以用泊松分布近似。即
    P ( X = k ) = C n k p k ( 1 − p ) n − k ≈ λ k e − λ k ! P(X = k) = C_n^k p^k (1 - p)^{n - k} \approx \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=Cnkpk(1−p)n−k≈k!λke−λ

  • 伯努利分布是二项分布的特例 :即 B ( 1 , p ) B(1,p) B(1,p) 就是 B ( n = 1 , p ) B(n=1,p) B(n=1,p)


2.3 分布函数(CDF):统一描述工具

定义

F ( x ) = P ( X ≤ x ) ( − ∞ < x < ∞ ) F(x) = P(X \leq x) \quad (-\infty < x < \infty) F(x)=P(X≤x)(−∞<x<∞)

性质

  1. 单调不减 : x 1 < x 2 ⇒ F ( x 1 ) ≤ F ( x 2 ) x_1 < x_2 \Rightarrow F(x_1) \leq F(x_2) x1<x2⇒F(x1)≤F(x2)
    ( { X ≤ x 1 } ⊂ { X ≤ x 2 } \{X \leq x_1\} \subset \{X \leq x_2\} {X≤x1}⊂{X≤x2})

  2. 右连续 : lim ⁡ x → a + F ( x ) = F ( a ) \lim_{x \to a^+} F(x) = F(a) limx→a+F(x)=F(a)
    (由概率连续性公理保证)

  3. 极限性质
    lim ⁡ x → − ∞ F ( x ) = 0 , lim ⁡ x → + ∞ F ( x ) = 1 \lim_{x \to -\infty} F(x) = 0, \quad \lim_{x \to +\infty} F(x) = 1 x→−∞limF(x)=0,x→+∞limF(x)=1

离散型应用

对离散随机变量:
F ( x ) = P ( X ≤ x ) = ∑ x k ≤ x P ( X = x k ) F(x) = P(X \leq x) = \sum_{x_k \leq x} P(X=x_k) F(x)=P(X≤x)=xk≤x∑P(X=xk)

示例 :掷骰子分布函数
F ( x ) = { 0 x < 1 1 / 6 1 ≤ x < 2 2 / 6 2 ≤ x < 3 ⋮ 1 x ≥ 6 F(x) = \begin{cases} 0 & x < 1 \\ 1/6 & 1 \leq x < 2 \\ 2/6 & 2 \leq x < 3 \\ \vdots \\ 1 & x \geq 6 \end{cases} F(x)=⎩ ⎨ ⎧01/62/6⋮1x<11≤x<22≤x<3x≥6

阶梯状函数,跳跃点在取值点


2.4 连续型随机变量:概率密度函数(PDF)

定义

若存在非负可积函数 f ( x ) f(x) f(x),使得:
F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int_{-\infty}^x f(t) dt F(x)=∫−∞xf(t)dt

则称 f ( x ) f(x) f(x)为概率密度函数

性质

  1. f ( x ) ≥ 0 f(x) \geq 0 f(x)≥0
  2. ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x) dx = 1 ∫−∞∞f(x)dx=1
  3. P ( a < X ≤ b ) = ∫ a b f ( x ) d x P(a < X \leq b) = \int_a^b f(x) dx P(a<X≤b)=∫abf(x)dx
  4. 在 f ( x ) f(x) f(x)连续点, F ′ ( x ) = f ( x ) F'(x) = f(x) F′(x)=f(x)

重要区别 : P ( X = c ) = 0 P(X=c)=0 P(X=c)=0(单点概率为0),关注区间概率

经典分布

分布 符号 概率密度函数 分布函数 应用场景
均匀分布 X ∼ U ( a , b ) X \sim U(a,b) X∼U(a,b) f ( x ) = 1 b − a ( a ≤ x ≤ b ) f(x)=\frac{1}{b-a} \ (a \leq x \leq b) f(x)=b−a1 (a≤x≤b) F ( x ) = { 0 , x < a x − a b − a , a ≤ x < b 1 , x ≥ b F(x) = \begin{cases}\displaystyle 0, & x < a \\\displaystyle \frac{x - a}{b - a}, & a \leq x < b \\1, & x \geq b\end{cases} F(x)=⎩ ⎨ ⎧0,b−ax−a,1,x<aa≤x<bx≥b 四舍五入误差
指数分布 X ∼ Exp ( λ ) X \sim \text{Exp}(\lambda) X∼Exp(λ) f ( x ) = λ e − λ x ( x > 0 ) f(x)=\lambda e^{-\lambda x} \ (x>0) f(x)=λe−λx (x>0) F ( x ) = 1 − e − λ x , x ≥ 0 F(x) = 1 - e^{-\lambda x}, \quad x \geq 0 F(x)=1−e−λx,x≥0 设备寿命、等待时间
正态分布 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2) f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=σ2π 1e−2σ2(x−μ)2 F ( x ) = Φ ( x − μ σ ) , 其中 Φ ( z ) 是标准正态分布的 CDF F(x) = \Phi\left( \frac{x - \mu}{\sigma} \right), \quad \text{其中} \Phi(z) \text{是标准正态分布的 CDF} F(x)=Φ(σx−μ),其中Φ(z)是标准正态分布的 CDF 测量误差、自然现象
均匀分布

均匀分布在其定义区间内具有对称性,即在区间 [ a , b ] [a,b] [a,b] 上的概率密度函数是一个常数,表明所有取值在这个区间内的可能性是相同的。

对于任意两个子区间,只要它们的长度相等,则这两个子区间内随机变量落入的概率也是相等的。

指数分布

指数分布具有独特的无记忆性 ,即:
P ( X > s + t ∣ X > t ) = P ( X > s ) P(X > s + t \mid X > t) = P(X > s) P(X>s+t∣X>t)=P(X>s)

这意味着,如果一个随机变量 (X) 服从指数分布,那么无论已经等待了多长时间 (t),未来还需要等待的时间 (s) 的概率分布与之前已经等待的时间无关。例如,在考虑设备寿命时,若设备已经运行了一段时间而没有故障,那么其剩余寿命的分布与新设备相同。

正态分布
关键性质:
  1. : 若 X ∼ N ( μ , σ 2 ) X \sim N(μ, σ²) X∼N(μ,σ2),则 Z = ( X − μ ) / σ ∼ N ( 0 , 1 ) Z = (X - μ) / σ \sim N(0, 1) Z=(X−μ)/σ∼N(0,1)。这是计算任何正态分布概率的核心方法!

  2. 对称性: PDF 关于 x = μ x = μ x=μ 对称。因此:

    • ϕ ( − x ) = 1 − ϕ ( x ) \phi(-x)=1-\phi(x) ϕ(−x)=1−ϕ(x)
    • P ( X > μ ) = P ( X < μ ) = 0.5 P(X > μ) = P(X < μ) = 0.5 P(X>μ)=P(X<μ)=0.5
    • P ( μ − a < X < μ ) = P ( μ < X < μ + a ) P(μ - a < X < μ) = P(μ < X < μ + a) P(μ−a<X<μ)=P(μ<X<μ+a)
    • P ( ∣ X − μ ∣ < k σ ) = P ( − k < Z < k ) ( 常用 k = 1 , 2 , 3 ) P(|X - μ| < kσ) = P(-k < Z < k) (常用 k=1,2,3) P(∣X−μ∣<kσ)=P(−k<Z<k)(常用k=1,2,3)
  3. 线性变换: 若 X ∼ N ( μ , σ 2 ) X \sim N(μ, σ²) X∼N(μ,σ2), Y = a X + b ( a ≠ 0 ) Y = aX + b (a ≠ 0) Y=aX+b(a=0),则 Y ∼ N ( a μ + b , a 2 σ 2 ) Y \sim N(aμ + b, a²σ²) Y∼N(aμ+b,a2σ2)。

  4. 可加性 (独立): 若 X ∼ N ( μ 1 , σ 1 2 ) X \sim N(μ₁, σ₁²) X∼N(μ1,σ12), Y ∼ N ( μ 2 , σ 2 2 ) Y \sim N(μ₂, σ₂²) Y∼N(μ2,σ22),且 X X X 与 Y Y Y 独立,则:

    • X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) X + Y \sim N(μ₁ + μ₂, σ₁² + σ₂²) X+Y∼N(μ1+μ2,σ12+σ22)
    • X − Y ∼ N ( μ 1 − μ 2 , σ 1 2 + σ 2 2 ) X - Y \sim N(μ₁ - μ₂, σ₁² + σ₂²) X−Y∼N(μ1−μ2,σ12+σ22) (注意
正态分布的分位数(Quantiles)

设 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2),其分布函数为
F ( x ) = Φ ( x − μ σ ) F(x) = \Phi\left( \frac{x - \mu}{\sigma} \right) F(x)=Φ(σx−μ)

定义

对于给定概率 p ∈ ( 0 , 1 ) p \in (0, 1) p∈(0,1), α \alpha α-分位数 x α x_\alpha xα 满足:
F ( x p ) = p F(x_p) = p F(xp)=p

即:
x α = μ + σ ⋅ z α x_\alpha = \mu + \sigma \cdot z_\alpha xα=μ+σ⋅zα

其中 z α z_\alpha zα 是标准正态分布的 α \alpha α-分位数(查标准正态表可得)。

同样具有对称性: z 1 − α z_{1-\alpha} z1−α= − z α -z_\alpha −zα

2.5 随机变量函数的分布

问题:已知 X X X分布,求 Y = g ( X ) Y=g(X) Y=g(X)分布

解法框架

  1. 离散型 :直接映射
    P ( Y = y k ) = ∑ g ( x i ) = y k P ( X = x i ) P(Y=y_k) = \sum_{g(x_i)=y_k} P(X=x_i) P(Y=yk)=g(xi)=yk∑P(X=xi)

  2. 连续型

    • 步骤1:求 Y Y Y分布函数 F Y ( y ) = P ( g ( X ) ≤ y ) F_Y(y)=P(g(X)\leq y) FY(y)=P(g(X)≤y)
    • 步骤2:对 F Y ( y ) F_Y(y) FY(y)求导得 f Y ( y ) f_Y(y) fY(y)

重要公式(当 g g g严格单调)

若 y = g ( x ) y=g(x) y=g(x)可导且 g ′ ( x ) ≠ 0 g'(x)\neq 0 g′(x)=0,则:
f Y ( y ) = f X ( g − 1 ( y ) ) ∣ d d y g − 1 ( y ) ∣ f_Y(y) = f_X(g^{-1}(y)) \left| \frac{d}{dy}g^{-1}(y) \right| fY(y)=fX(g−1(y)) dydg−1(y)

示例 : Y = a X + b ( a ≠ 0 ) Y=aX+b \ (a\neq 0) Y=aX+b (a=0)
f Y ( y ) = 1 ∣ a ∣ f X ( y − b a ) f_Y(y) = \frac{1}{|a|}f_X\left(\frac{y-b}{a}\right) fY(y)=∣a∣1fX(ay−b)


核心公式

概念 离散型 连续型
概率计算 P ( X = x k ) = p k P(X=x_k)=p_k P(X=xk)=pk P ( a < X ≤ b ) = ∫ a b f ( x ) d x P(a<X≤b)=\int_a^b f(x)dx P(a<X≤b)=∫abf(x)dx
分布函数 F ( x ) = ∑ x k ≤ x p k F(x)=\sum_{x_k≤x} p_k F(x)=∑xk≤xpk F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^x f(t)dt F(x)=∫−∞xf(t)dt
归一性 ∑ k p k = 1 \sum_k p_k=1 ∑kpk=1 ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x)dx=1 ∫−∞∞f(x)dx=1
相关推荐
微小冷21 小时前
二关节机器人系统模型推导
线性代数·机器人·概率论·推导·拉格朗日函数·二关节机器人·机器人控制系统的设计
软件开发技术深度爱好者1 天前
概率中“都发生”和“至少一个”问题的解答
概率论·数学广角
FF-Studio3 天前
【硬核数学】3. AI如何应对不确定性?概率论为模型注入“灵魂”《从零构建机器学习、深度学习到LLM的数学认知》
大数据·人工智能·深度学习·机器学习·数学建模·自然语言处理·概率论
如果你想拥有什么先让自己配得上拥有13 天前
概率论中的生日问题,违背直觉?如何计算? 以及从人性金融的角度分析如何违背直觉的?
金融·概率论
云博客-资源宝14 天前
Excel函数大全
机器学习·excel·概率论
爱学习的capoo16 天前
【解析法与几何法在阻尼比设计】自控
线性代数·机器学习·概率论
TomcatLikeYou17 天前
概率论中的基本定义(事件,期望,信息量,香农熵等)
深度学习·机器学习·概率论
phoenix@Capricornus19 天前
期望最大化(EM)算法的推导——Q函数
算法·机器学习·概率论
Algo-hx20 天前
概率论的基本概念:开启不确定性世界的数学之旅
概率论