标题
- 引言
- [2 随机变量及其分布](#2 随机变量及其分布)
-
- [2.1 随机变量](#2.1 随机变量)
- [2.2 离散型随机变量:概率质量函数(PMF)](#2.2 离散型随机变量:概率质量函数(PMF))
- [2.3 分布函数(CDF):统一描述工具](#2.3 分布函数(CDF):统一描述工具)
- [2.4 连续型随机变量:概率密度函数(PDF)](#2.4 连续型随机变量:概率密度函数(PDF))
- [2.5 随机变量函数的分布](#2.5 随机变量函数的分布)
-
- [问题:已知 X X X分布,求 Y = g ( X ) Y=g(X) Y=g(X)分布](#问题:已知 X X X分布,求 Y = g ( X ) Y=g(X) Y=g(X)分布)
- 解法框架
- [重要公式(当 g g g严格单调)](#重要公式(当 g g g严格单调))
- 核心公式
引言
随机变量是概率论的伟大发明------它将抽象的随机事件转化为具体的数学对象,让我们能用微积分工具研究不确定性。这一章将带你从随机变量的定义出发,直抵分布函数的核心,掌握描述随机现象的数学语言。
2 随机变量及其分布
2.1 随机变量
定义与分类
随机变量 是定义在样本空间S上的实值单值函数:
X : S → R X: S \rightarrow \mathbb{R} X:S→R
- 离散型:取值有限或可列无限(如抛硬币次数)
- 连续型:取值充满某个区间(如灯泡寿命)
示例:
- 抛硬币3次,X="正面出现次数" → X ∈ { 0 , 1 , 2 , 3 } X \in \{0,1,2,3\} X∈{0,1,2,3} (离散)
- 测量某零件长度,Y="测量值" → Y ∈ [ 10 , 20 ] m m Y \in [10, 20]mm Y∈[10,20]mm (连续)
2.2 离散型随机变量:概率质量函数(PMF)
概率分布律
用表格或函数描述取值概率:
X X X | x 1 x_1 x1 | x 2 x_2 x2 | ⋯ \cdots ⋯ |
---|---|---|---|
P P P | p 1 p_1 p1 | p 2 p_2 p2 | ⋯ \cdots ⋯ |
概率质量函数(分布律) :
P ( X = x k ) = p k ( k = 1 , 2 , ⋯ ) P(X=x_k) = p_k \quad (k=1,2,\cdots) P(X=xk)=pk(k=1,2,⋯)
性质
- p k ≥ 0 p_k \geq 0 pk≥0
- ∑ k p k = 1 \sum_k p_k = 1 ∑kpk=1
经典分布
分布 | 符号 | 公式 | 应用场景 |
---|---|---|---|
(0-1)分布 | X ∼ B ( 1 , p ) X∼B(1,p) X∼B(1,p) | P ( X = k ) = p k ( 1 − p ) 1 − k P(X=k)=p^k (1-p)^{1-k} P(X=k)=pk(1−p)1−k | 只有两种可能结果的随机试验。 |
二项分布 | X ∼ B ( n , p ) X∼B(n,p) X∼B(n,p) | P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k)=C_n^k p^k (1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k | n次独立伯努利试验成功次数 |
泊松分布 | X ∼ π ( λ ) X \sim \pi (\lambda) X∼π(λ) | P ( X = k ) = λ k e − λ k ! P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λke−λ | 稀有事在固定时间/空间内发生次数 |
4. 各分布之间的关系
-
二项分布 → 泊松分布 :当 n n n很大( ≥ 20 \geq 20 ≥20)、 p p p很小( ≤ 0.05 \leq 0.05 ≤0.05)且 λ = n p \lambda=np λ=np 固定时,二项分布可以用泊松分布近似。即
P ( X = k ) = C n k p k ( 1 − p ) n − k ≈ λ k e − λ k ! P(X = k) = C_n^k p^k (1 - p)^{n - k} \approx \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=Cnkpk(1−p)n−k≈k!λke−λ -
伯努利分布是二项分布的特例 :即 B ( 1 , p ) B(1,p) B(1,p) 就是 B ( n = 1 , p ) B(n=1,p) B(n=1,p)
2.3 分布函数(CDF):统一描述工具
定义
F ( x ) = P ( X ≤ x ) ( − ∞ < x < ∞ ) F(x) = P(X \leq x) \quad (-\infty < x < \infty) F(x)=P(X≤x)(−∞<x<∞)
性质
-
单调不减 : x 1 < x 2 ⇒ F ( x 1 ) ≤ F ( x 2 ) x_1 < x_2 \Rightarrow F(x_1) \leq F(x_2) x1<x2⇒F(x1)≤F(x2)
( { X ≤ x 1 } ⊂ { X ≤ x 2 } \{X \leq x_1\} \subset \{X \leq x_2\} {X≤x1}⊂{X≤x2}) -
右连续 : lim x → a + F ( x ) = F ( a ) \lim_{x \to a^+} F(x) = F(a) limx→a+F(x)=F(a)
(由概率连续性公理保证) -
极限性质 :
lim x → − ∞ F ( x ) = 0 , lim x → + ∞ F ( x ) = 1 \lim_{x \to -\infty} F(x) = 0, \quad \lim_{x \to +\infty} F(x) = 1 x→−∞limF(x)=0,x→+∞limF(x)=1
离散型应用
对离散随机变量:
F ( x ) = P ( X ≤ x ) = ∑ x k ≤ x P ( X = x k ) F(x) = P(X \leq x) = \sum_{x_k \leq x} P(X=x_k) F(x)=P(X≤x)=xk≤x∑P(X=xk)
示例 :掷骰子分布函数
F ( x ) = { 0 x < 1 1 / 6 1 ≤ x < 2 2 / 6 2 ≤ x < 3 ⋮ 1 x ≥ 6 F(x) = \begin{cases} 0 & x < 1 \\ 1/6 & 1 \leq x < 2 \\ 2/6 & 2 \leq x < 3 \\ \vdots \\ 1 & x \geq 6 \end{cases} F(x)=⎩ ⎨ ⎧01/62/6⋮1x<11≤x<22≤x<3x≥6
阶梯状函数,跳跃点在取值点
2.4 连续型随机变量:概率密度函数(PDF)
定义
若存在非负可积函数 f ( x ) f(x) f(x),使得:
F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int_{-\infty}^x f(t) dt F(x)=∫−∞xf(t)dt
则称 f ( x ) f(x) f(x)为概率密度函数
性质
- f ( x ) ≥ 0 f(x) \geq 0 f(x)≥0
- ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x) dx = 1 ∫−∞∞f(x)dx=1
- P ( a < X ≤ b ) = ∫ a b f ( x ) d x P(a < X \leq b) = \int_a^b f(x) dx P(a<X≤b)=∫abf(x)dx
- 在 f ( x ) f(x) f(x)连续点, F ′ ( x ) = f ( x ) F'(x) = f(x) F′(x)=f(x)
重要区别 : P ( X = c ) = 0 P(X=c)=0 P(X=c)=0(单点概率为0),关注区间概率
经典分布
分布 | 符号 | 概率密度函数 | 分布函数 | 应用场景 |
---|---|---|---|---|
均匀分布 | X ∼ U ( a , b ) X \sim U(a,b) X∼U(a,b) | f ( x ) = 1 b − a ( a ≤ x ≤ b ) f(x)=\frac{1}{b-a} \ (a \leq x \leq b) f(x)=b−a1 (a≤x≤b) | F ( x ) = { 0 , x < a x − a b − a , a ≤ x < b 1 , x ≥ b F(x) = \begin{cases}\displaystyle 0, & x < a \\\displaystyle \frac{x - a}{b - a}, & a \leq x < b \\1, & x \geq b\end{cases} F(x)=⎩ ⎨ ⎧0,b−ax−a,1,x<aa≤x<bx≥b | 四舍五入误差 |
指数分布 | X ∼ Exp ( λ ) X \sim \text{Exp}(\lambda) X∼Exp(λ) | f ( x ) = λ e − λ x ( x > 0 ) f(x)=\lambda e^{-\lambda x} \ (x>0) f(x)=λe−λx (x>0) | F ( x ) = 1 − e − λ x , x ≥ 0 F(x) = 1 - e^{-\lambda x}, \quad x \geq 0 F(x)=1−e−λx,x≥0 | 设备寿命、等待时间 |
正态分布 | X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2) | f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=σ2π 1e−2σ2(x−μ)2 | F ( x ) = Φ ( x − μ σ ) , 其中 Φ ( z ) 是标准正态分布的 CDF F(x) = \Phi\left( \frac{x - \mu}{\sigma} \right), \quad \text{其中} \Phi(z) \text{是标准正态分布的 CDF} F(x)=Φ(σx−μ),其中Φ(z)是标准正态分布的 CDF | 测量误差、自然现象 |
均匀分布
均匀分布在其定义区间内具有对称性,即在区间 [ a , b ] [a,b] [a,b] 上的概率密度函数是一个常数,表明所有取值在这个区间内的可能性是相同的。
对于任意两个子区间,只要它们的长度相等,则这两个子区间内随机变量落入的概率也是相等的。
指数分布
指数分布具有独特的无记忆性 ,即:
P ( X > s + t ∣ X > t ) = P ( X > s ) P(X > s + t \mid X > t) = P(X > s) P(X>s+t∣X>t)=P(X>s)
这意味着,如果一个随机变量 (X) 服从指数分布,那么无论已经等待了多长时间 (t),未来还需要等待的时间 (s) 的概率分布与之前已经等待的时间无关。例如,在考虑设备寿命时,若设备已经运行了一段时间而没有故障,那么其剩余寿命的分布与新设备相同。
正态分布
关键性质:
-
: 若 X ∼ N ( μ , σ 2 ) X \sim N(μ, σ²) X∼N(μ,σ2),则 Z = ( X − μ ) / σ ∼ N ( 0 , 1 ) Z = (X - μ) / σ \sim N(0, 1) Z=(X−μ)/σ∼N(0,1)。这是计算任何正态分布概率的核心方法!
-
对称性: PDF 关于 x = μ x = μ x=μ 对称。因此:
- ϕ ( − x ) = 1 − ϕ ( x ) \phi(-x)=1-\phi(x) ϕ(−x)=1−ϕ(x)
- P ( X > μ ) = P ( X < μ ) = 0.5 P(X > μ) = P(X < μ) = 0.5 P(X>μ)=P(X<μ)=0.5
- P ( μ − a < X < μ ) = P ( μ < X < μ + a ) P(μ - a < X < μ) = P(μ < X < μ + a) P(μ−a<X<μ)=P(μ<X<μ+a)
- P ( ∣ X − μ ∣ < k σ ) = P ( − k < Z < k ) ( 常用 k = 1 , 2 , 3 ) P(|X - μ| < kσ) = P(-k < Z < k) (常用 k=1,2,3) P(∣X−μ∣<kσ)=P(−k<Z<k)(常用k=1,2,3)
-
线性变换: 若 X ∼ N ( μ , σ 2 ) X \sim N(μ, σ²) X∼N(μ,σ2), Y = a X + b ( a ≠ 0 ) Y = aX + b (a ≠ 0) Y=aX+b(a=0),则 Y ∼ N ( a μ + b , a 2 σ 2 ) Y \sim N(aμ + b, a²σ²) Y∼N(aμ+b,a2σ2)。
-
可加性 (独立): 若 X ∼ N ( μ 1 , σ 1 2 ) X \sim N(μ₁, σ₁²) X∼N(μ1,σ12), Y ∼ N ( μ 2 , σ 2 2 ) Y \sim N(μ₂, σ₂²) Y∼N(μ2,σ22),且 X X X 与 Y Y Y 独立,则:
- X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) X + Y \sim N(μ₁ + μ₂, σ₁² + σ₂²) X+Y∼N(μ1+μ2,σ12+σ22)
- X − Y ∼ N ( μ 1 − μ 2 , σ 1 2 + σ 2 2 ) X - Y \sim N(μ₁ - μ₂, σ₁² + σ₂²) X−Y∼N(μ1−μ2,σ12+σ22) (注意
正态分布的分位数(Quantiles)
设 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2),其分布函数为
F ( x ) = Φ ( x − μ σ ) F(x) = \Phi\left( \frac{x - \mu}{\sigma} \right) F(x)=Φ(σx−μ)
定义 :
对于给定概率 p ∈ ( 0 , 1 ) p \in (0, 1) p∈(0,1), α \alpha α-分位数 x α x_\alpha xα 满足:
F ( x p ) = p F(x_p) = p F(xp)=p
即:
x α = μ + σ ⋅ z α x_\alpha = \mu + \sigma \cdot z_\alpha xα=μ+σ⋅zα
其中 z α z_\alpha zα 是标准正态分布的 α \alpha α-分位数(查标准正态表可得)。
同样具有对称性: z 1 − α z_{1-\alpha} z1−α= − z α -z_\alpha −zα
2.5 随机变量函数的分布
问题:已知 X X X分布,求 Y = g ( X ) Y=g(X) Y=g(X)分布
解法框架
-
离散型 :直接映射
P ( Y = y k ) = ∑ g ( x i ) = y k P ( X = x i ) P(Y=y_k) = \sum_{g(x_i)=y_k} P(X=x_i) P(Y=yk)=g(xi)=yk∑P(X=xi) -
连续型:
- 步骤1:求 Y Y Y分布函数 F Y ( y ) = P ( g ( X ) ≤ y ) F_Y(y)=P(g(X)\leq y) FY(y)=P(g(X)≤y)
- 步骤2:对 F Y ( y ) F_Y(y) FY(y)求导得 f Y ( y ) f_Y(y) fY(y)
重要公式(当 g g g严格单调)
若 y = g ( x ) y=g(x) y=g(x)可导且 g ′ ( x ) ≠ 0 g'(x)\neq 0 g′(x)=0,则:
f Y ( y ) = f X ( g − 1 ( y ) ) ∣ d d y g − 1 ( y ) ∣ f_Y(y) = f_X(g^{-1}(y)) \left| \frac{d}{dy}g^{-1}(y) \right| fY(y)=fX(g−1(y)) dydg−1(y)
示例 : Y = a X + b ( a ≠ 0 ) Y=aX+b \ (a\neq 0) Y=aX+b (a=0)
f Y ( y ) = 1 ∣ a ∣ f X ( y − b a ) f_Y(y) = \frac{1}{|a|}f_X\left(\frac{y-b}{a}\right) fY(y)=∣a∣1fX(ay−b)
核心公式
概念 | 离散型 | 连续型 |
---|---|---|
概率计算 | P ( X = x k ) = p k P(X=x_k)=p_k P(X=xk)=pk | P ( a < X ≤ b ) = ∫ a b f ( x ) d x P(a<X≤b)=\int_a^b f(x)dx P(a<X≤b)=∫abf(x)dx |
分布函数 | F ( x ) = ∑ x k ≤ x p k F(x)=\sum_{x_k≤x} p_k F(x)=∑xk≤xpk | F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^x f(t)dt F(x)=∫−∞xf(t)dt |
归一性 | ∑ k p k = 1 \sum_k p_k=1 ∑kpk=1 | ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x)dx=1 ∫−∞∞f(x)dx=1 |