概率论基础
1. 集合论
样本空间和样本点是概率论中无定义的基本概念,如同几何中的点和直线的概念一般。
定义:事件
事件:事件是样本点的集合。
-
A = 0 A=0 A=0表示事件A不含任何样本点,即A是不可能事件。
A = 0 A=0 A=0是一个代数表达式而不是算术表达式,0在这里是一个符号。
-
样本空间中一切不属于事件A的点所构成的事件称为A的补事件。或称非事件。并以 A C A^C AC记之, S C = 0 S^C=0 SC=0
-
事件A、B、C的交,用 A ∩ B ∩ C A\cap B \cap C A∩B∩C表示,并用 A ∪ B ∪ C A \cup B \cup C A∪B∪C表示事件的并
-
A ⊂ B A\subset B A⊂B 称为A蕴涵B,意味着A的每一个点都在B中。
2 概率论基础
这里采用公理化的方法来定义 概率。至于如何解释概率,例如"事件的出现频率"(频率学派),或者是"对事件出现的信念"(贝叶斯学派),这里我们并不关心。
2.1 公理化基础
对于样本空间S的每一个事件A,我们希望给A赋一个0到1之间的数值P(A),称之为A的概率。
定义:σ代数/Borel域
S的一族子集如果满足下列三个性质,就称为一个σ代数 或一个Borel域 ,记作 B \mathcal{B} B:
- ∅ ∈ B \varnothing \in \mathcal{B} ∅∈B
- A ∈ B ⇒ A C ∈ B A \in \mathcal{B} \Rightarrow A^C \in \mathcal{B} A∈B⇒AC∈B
- A 1 , A 2 , ⋯ ∈ B ⇒ ⋃ i = 1 ∞ A i ∈ B \displaystyle A_1,A_2,\cdots \in \mathcal{B} \Rightarrow \bigcup_{i=1}^{\infty}{A_i} \in \mathcal{B} A1,A2,⋯∈B⇒i=1⋃∞Ai∈B
满足这样三条性质(空集存在,对补运算与并运算封闭)的σ代数有很多,这里讨论的是包含S中全体开集的最小σ代数。对于可数样本空间,通常是 B = { S 的全体子集,包括 S 本身 } \mathcal{B}=\{S的全体子集,包括S本身\} B={S的全体子集,包括S本身}。对于不可数的样本空间,例如 S = ( − ∞ , ∞ ) S=(-\infty,\infty) S=(−∞,∞)为实数轴,则可以取 B \mathcal{B} B为包含所有形如 [ a , b ] , ( a , b ] , [ a , b ) , ( a , b ) [a,b],(a,b],[a,b),(a,b) [a,b],(a,b],[a,b),(a,b)的集合,其中 a , b ∈ R a,b \in \mathbb{R} a,b∈R。
定义:概率函数
已知样本空间S和σ代数 B \mathcal{B} B,定义在 B \mathcal{B} B上且满足下列条件的函数P称为一个概率函数(probability fucntion)
- ∀ A ∈ B , P ( A ) ≥ 0 \forall A \in \mathcal{B}, P(A) \ge 0 ∀A∈B,P(A)≥0
- P ( S ) = 1 P(S) = 1 P(S)=1
- 若 A 1 , A 2 , ⋯ ∈ B A_1,A_2,\cdots \in \mathcal{B} A1,A2,⋯∈B两两不相交,则 P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) \displaystyle P(\bigcup_{i=1}^{\infty}{A_i}) = \sum_{i=1}^{\infty}{P(A_i)} P(i=1⋃∞Ai)=i=1∑∞P(Ai)
概率非负性,概率归一化,概率可数可加。这三条性质称为概率公理,或Kolmogorov公理。只要满足这三条公理,函数P就可以称为一个概率函数。
(PS:统计学家通常不接受可数可加公理,只接受其推论:有限可加性公理 P ( A ∪ B ) = P ( A ) + P ( B ) P(A\cup B)=P(A)+P(B) P(A∪B)=P(A)+P(B))
2.2 概率演算
定理:设P是一个概率函数, A , B ∈ B A,B \in \mathcal{B} A,B∈B 则
- P ( ∅ ) = 0 P(\varnothing) = 0 P(∅)=0
- P ( A ) ≤ 1 P(A) \le 1 P(A)≤1
- P ( A C ) = 1 − P ( A ) P(A^C) = 1- P(A) P(AC)=1−P(A)
- P ( B ∩ A C ) = P ( B ) − P ( A ∩ B ) P(B \cap A^C) = P(B)- P(A \cap B) P(B∩AC)=P(B)−P(A∩B)
- P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A \cup B) = P(A) + P(B)- P(A \cap B) P(A∪B)=P(A)+P(B)−P(A∩B)
- A ⊂ B ⇒ P ( A ) ≤ P ( B ) A \subset B \Rightarrow P(A) \le P(B) A⊂B⇒P(A)≤P(B)
- P ( A ∩ B ) ≥ P ( A ) + P ( B ) − 1 P(A \cap B) \ge P(A) + P(B) - 1 P(A∩B)≥P(A)+P(B)−1 ,Bonferroni不等式,用单个事件概率估算并发概率
- 对于任意划分 C 1 , C 2 , ⋯ C_1,C_2,\cdots C1,C2,⋯,都有 P ( A ) = ∑ i = 1 ∞ A ∩ C i \displaystyle P(A)= \sum_{i=1}^{\infty}{A \cap C_i} P(A)=i=1∑∞A∩Ci
- 对于任意集合 A 1 , A 2 , ⋯ A_1,A_2,\cdots A1,A2,⋯都有 P ( ⋃ i = 1 ∞ A ∩ C i ) ≤ ∑ i = 1 ∞ P ( A ∩ C i ) \displaystyle P(\bigcup_{i=1}^{\infty}{A \cap C_i}) \le \sum_{i=1}^{\infty}{P(A\cap C_i)} P(i=1⋃∞A∩Ci)≤i=1∑∞P(A∩Ci),Boole不等式。
2.3 计数
计数涉及到很多组合分析的知识,这些分析都基于这样一条定理:
定理:计数基本定理
如果一项工作由k个相互独立的子任务组成,其中第i个任务可以使用 n i n_i ni种方式完成,则正向工作可以用 n 1 × n 2 × ⋯ × n k n_1 \times n_2 \times \cdots \times n_k n1×n2×⋯×nk种方式组成。
该定理的证明可以由笛卡尔积运算的定义与性质得出。
计数的两个基本问题包括:
- 样本是否有序?
- 抽样是否放回?
定义:总体/子总体/有序样本
-
总体:我们用大小为n的总体表示一个由n个元素构成的集合。
因为总体是集合,所以总体是无序的,总体相同当且仅当两个总体含有相同的元素。
-
子总体:从大小为n的总体中选取r个元素,就构成了一个大小为r的子总体。
-
对子总体中的元素进行编号,可以得到大小为r的有序样本 。总共有 n ! n! n!种。
从n个对象中选取r个的全体可能方式的数目
无放回抽样 | 有放回抽样 | |
---|---|---|
有序样本 | n ! ( n − r ) ! = ( n r ) A r r \frac {n!} {(n-r)! } = \binom n r A_r^r (n−r)!n!=(rn)Arr | n r n^r nr |
无序子总体 | ( n r ) = n ! ( n − r ) ! r ! \binom n r = \frac {n!}{(n-r)!r!} (rn)=(n−r)!r!n! | ( n + r − 1 r ) \binom {n+r-1} r (rn+r−1) |
- 有序有放回最简单,每次n种可能,进行r次抽样,所以是 n r n^r nr
- 有序无放回从n个总体中选择出大小为r的有序样本,所以 ( n r ) A r r = ( n r ) r ! = n ! ( n − r ) ! \binom n r A_r^r = \binom n r r! = \frac {n!}{(n-r)!} (rn)Arr=(rn)r!=(n−r)!n!
- 无序无放回和有序无放回类似,只不过抽出的是一个大小为r的子总体而不是有序样本。
- 有放回的无序抽样最复杂。可以理解为在n个元素上放入r个标记。把元素的边界当成一个元素考虑,那么n个盒子共有n+1个边界,共有r个标记。现在除去两侧的边界,一共有n-1+r个空位。从这些空位中选出r个来放置标记。所以是 ( n − 1 + r r ) \binom {n-1+r} r (rn−1+r)
常见组合问题
-
大小为n的总体,有放回抽样出大小为r的有序样本:
n r \displaystyle n^r nr
-
大小为n的总体,无放回抽样出大小为r的有序样本:
( n ) r = n ( n − 1 ) ⋯ ( n − r + 1 ) = n ! ( n − r ) ! = C n r A n r = ( n r ) r ! \displaystyle (n)_r=n(n-1)\cdots(n-r+1)=\frac{n!}{(n-r)!} = C_n^r A_n^r = \binom n r r ! (n)r=n(n−1)⋯(n−r+1)=(n−r)!n!=CnrAnr=(rn)r!
-
大小为n的总体,有放回抽样出大小为r的子总体:
( n r ) = ( n ) r r ! = C n r = n ! ( n − r ) ! r ! \displaystyle \binom n r = \frac{(n)_r}{r!} = C_n^r = \frac{n!}{(n-r)!r!} (rn)=r!(n)r=Cnr=(n−r)!r!n!
-
大小为n的总体,无放回抽样出大小为r的子总体:
( n − 1 + r r ) \displaystyle \binom {n-1 +r} r (rn−1+r)
-
大小为n的总体划分为k组,每组个数为 r 1 , ⋯ , r k r_1,\cdots, r_k r1,⋯,rk:
n ! r 1 ! r 2 ! ⋯ r k ! \displaystyle \frac{n!} {r_1!r_2!\cdots r_k!} r1!r2!⋯rk!n!
-
大小为n的总体里有m个阳性样本,无放回抽样出大小为r的子总体,其中出现k个阳性样本的概率:
( m k ) ( n − m r − k ) ( n r ) \displaystyle \frac{\binom{m}{k} \binom{n-m}{r-k}}{\binom{n}{r}} (rn)(km)(r−kn−m)
3. 条件概率与独立性
定义:条件概率
设A,B为S重的时间,且 P ( B ) > 0 P(B) > 0 P(B)>0 ,则在事件B发生的条件下事件A发生的条件概率记作 P ( A ∣ B ) P(A |B) P(A∣B)表示为:
P ( A ∣ B ) = P ( A ∩ B ) P ( B ) \displaystyle P(A|B) = \frac {P(A \cap B) } {P(B)} P(A∣B)=P(B)P(A∩B)
直觉上很好理解,AB共同发生的概率等于B发生的概率 乘以B发生条件下A发生的概率: P ( A B ) = P ( A ∣ B ) P ( B ) P(AB) = P(A|B)P(B) P(AB)=P(A∣B)P(B)
自然而然,A在B条件下的发生概率为:AB共同发生概率 除以 B的发生概率。这里事件B的样本点构成了新的样本空间,而P(A|B)也一定满足概率三公理,构成新样本空间上的一个概率函数。
定理:Bayes公式
设 A 1 , A 2 , ⋯ A_1,A_2,\cdots A1,A2,⋯为样本空间的一个划分,B为任意集合,则对 i = 1 , 2 , ⋯ i=1,2,\cdots i=1,2,⋯,有:
P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) ∑ j = 1 ∞ P ( B ∣ A j ) P ( A j ) \displaystyle P(A_i | B) = \frac {P(B|A_i)P(A_i)} {\sum_{j=1}^{\infty}{P(B|A_j)P(A_j)}} P(Ai∣B)=∑j=1∞P(B∣Aj)P(Aj)P(B∣Ai)P(Ai)
定义:统计独立
称事件A,B统计独立(statistically independent),如果 P ( A ∩ B ) = P ( A ) P ( B ) P(A \cap B) = P(A)P(B) P(A∩B)=P(A)P(B)
称一系列事件 A 1 , ⋯ , A n A_1,\cdots, A_n A1,⋯,An相互独立(mutually independent),如果对于任意 A i 1 , ⋯ , A i k A_{i_1},\cdots,A_{i_k} Ai1,⋯,Aik都有:
P ( ⋂ j = 1 k A i j ) = ∏ j = 1 k P ( A i j ) \displaystyle P( \bigcap_{j=1}^{k}{A_{i_j}}) = \prod_{j=1}^{k}P(A_{i_j}) P(j=1⋂kAij)=j=1∏kP(Aij)
4. 随机变量
许多试验中存在一个具有概括作用的变量,它处理起来比原概率模型要简单的多。
例如:50个人表决的结果,样本空间为 2 50 2^{50} 250。其实我们感兴趣的只不过是有多少人赞成,那么定义变量X=赞成个数,样本空间就变成了整数集合: { s ∣ 0 ≤ s ≤ 50 ∧ s ∈ Z } \{s| 0 \le s \le 50 \wedge s \in \mathbb{Z} \} {s∣0≤s≤50∧s∈Z}
定义:随机变量
从样本空间映射到实数的函数称为随机变量(random variable)
定义了随机变量,也就定义了一个新的样本空间(随机变量的值域)。但更重要的是,我们要通过原来样本空间上定义的概率函数 ,定义出这个随机变量的概率函数 :诱导概率函数 P X P_X PX。
假设有样本空间 S = { s 1 , ⋯ , s n } S=\{s_1,\cdots, s_n\} S={s1,⋯,sn}以及概率函数P,定义随机变量X的值域为: X = { x 1 , ⋯ , x n } \mathcal{X} = \{x_1,\cdots, x_n\} X={x1,⋯,xn}。我们可以如下定义 X \mathcal{X} X上的概率函数 P X P_X PX:观测到事件 X = x i X=x_i X=xi发生当且仅当随机试验的结果 s j ∈ S s_j \in S sj∈S满足 X ( s j ) = x i X(s_j)=x_i X(sj)=xi,即:
P x ( X = x i ) = P ( { s j ∈ S : X ( S j ) = x i } ) \displaystyle P_x (X=x_i) = P(\{s_j \in S : X(S_j) =x_i\}) Px(X=xi)=P({sj∈S:X(Sj)=xi})
因为 P X P_X PX是通过已知的概率函数P得到的,所以称之为 X \mathcal{X} X上的诱导概率函数,易证该函数也满足概率公理。
对于连续的样本空间S,情况类似:
P x ( X ∈ A ) = P ( { s j ∈ S : X ( S j ) ∈ A } ) \displaystyle P_x (X \in A) = P(\{s_j \in S : X(S_j) \in A\}) Px(X∈A)=P({sj∈S:X(Sj)∈A})
5. 分布函数
对于任意随机变量,我们都可以构造一个函数:累积分布函数(cumulative distribution function),简称CDF。
定义:累积分布函数
随机变量X的累积分布函数,记作 F X ( x ) F_X(x) FX(x),表示: F X ( x ) = P X ( X ≤ x ) F_X(x) = P_X(X \le x) FX(x)=PX(X≤x)
X的分布为 F X F_X FX,可以简记作: X ∼ F X ( x ) X \sim F_X(x) X∼FX(x),其中"~"读作分布如。
例:掷硬币
同时投掷三枚硬币,令X=正面朝上的硬币数,则X的累积分布函数是一个阶梯函数:
F X ( x ) = { 0 − ∞ < x < 0 1 / 8 0 ≤ x < 1 1 / 2 1 ≤ x < 2 7 / 8 2 ≤ x < 3 1 3 ≤ x < ∞ \displaystyle F_X(x) = \left\{ \begin{aligned} 0 & & -\infty < x < 0 \\ 1/8 & & 0 \le x < 1 \\ 1/2 & & 1 \le x < 2\\ 7/8 & & 2 \le x < 3\\ 1 & & 3 \le x < \infty\\ \end{aligned} \right. FX(x)=⎩ ⎨ ⎧01/81/27/81−∞<x<00≤x<11≤x<22≤x<33≤x<∞
由累积分布函数的定义可知, F X ( x ) F_X(x) FX(x)是右连续的。
性质:累积分布函数
函数 F ( x ) F(x) F(x)是一个累积分布函数,当且仅当它同时满足下列三个条件。
- lim x → − ∞ F ( x ) = 0 \displaystyle \lim_{x\rightarrow -\infty}{F(x)} = 0 x→−∞limF(x)=0 且 lim x → ∞ F ( x ) = 1 \displaystyle \lim_{x\rightarrow \infty}{F(x)} = 1 x→∞limF(x)=1
- F ( x ) F(x) F(x)是 x x x的单调递增函数
- F ( x ) F(x) F(x)右连续: ∀ x 0 ( lim x → x 0 + F ( x ) = F ( x 0 ) ) \displaystyle \forall x_0 ( \lim_{x\rightarrow x_0^+}{F(x) } = F(x_0) ) ∀x0(x→x0+limF(x)=F(x0))
定义:离散/连续随机变量
设X为一随机变量,如果 F X ( x ) F_X(x) FX(x)是x的连续函数,则称X是连续的(continuous) ;如果 F X ( x ) F_X(x) FX(x)是x的阶梯函数,则称X是**离散(discrete)**的。
累积分布函数 F X F_X FX能够完全确定随机变量X的概率分布。所以引出了随机变量同分布的概念。
定义:随机变量同分布
称随机变量X和Y同分布(identically distributed) ,如果对任意集合 A ∈ B 1 A \in \mathcal{B}^1 A∈B1,都有 P ( X ∈ A ) = P ( Y ∈ A ) P(X\in A)=P(Y\in A) P(X∈A)=P(Y∈A)
注意两个同分布的随机变量并不表示 X = Y X=Y X=Y,比如令XY分别为连掷三次硬币正反面朝上的次数。
定理:同分布随机变量的性质
随机变量X与Y同分布,当且仅当 ∀ x ( F X ( x ) = F Y ( x ) ) \forall x ( F_X(x) = F_Y(x)) ∀x(FX(x)=FY(x))
6. 概率密度函数与概率质量函数
与随机变量X,累积分布函数 F X F_X FX相关的还有一个函数:若X是连续随机变量,该函数称作概率密度函数;若X是离散随机变量,该函数称作概率质量函数。它们关注的都是随机变量的"点概率"。
定义:概率质量函数(probability mass function) 简称pmf
离散随机变量X的概率质量函数定义为:
∀ x ( f X ( x ) = P X ( X = x ) ) \displaystyle \forall x (f_X(x) = P_X(X=x)) ∀x(fX(x)=PX(X=x))
概率质量函数的集合解释: P X ( X = x ) , i . e f X ( x ) P_X(X=x),i.e f_X(x) PX(X=x),i.efX(x)等于累积分布函数在x处的跃变高度。
推广到连续变量的情景,则有:
P ( X ≤ x ) = F X ( x ) = ∫ − ∞ x f X ( t ) d t \displaystyle P(X\le x) = F_X(x) = \int_{-\infty}^{x}{f_X(t)dt} P(X≤x)=FX(x)=∫−∞xfX(t)dt
定义:概率密度函数(probability density function),pdf
连续随机变量X的概率密度函数,是满足下式的函数:
F X ( x ) = ∫ − ∞ x f X ( t ) d t , x 任意 \displaystyle F_X(x) = \int_{-\infty}^{x}{f_X(t)dt}, x任意 FX(x)=∫−∞xfX(t)dt,x任意
定理:PDF/PMF的性质
函数 f X ( x ) f_X(x) fX(x)是随机变量X的概率密度函数(或概率质量函数),当且仅当它同时满足以下两个条件
- ∀ x ( f X ( x ) ≥ 0 ) \forall x ( f_X(x) \ge 0) ∀x(fX(x)≥0)
- ∑ x f X ( x ) = 1 \sum_x {f_X(x) = 1} ∑xfX(x)=1 (概率质量函数)或 ∫ − ∞ ∞ f X ( x ) d x = 1 \int_{-\infty}^{\infty}{f_X(x)dx} = 1 ∫−∞∞fX(x)dx=1 (概率密度函数)