学习笔记:概率期望

概率 & 期望

样本空间、随机事件

定义

一个随机现象中可能发生的不能再细分的结果被称为 样本点 。所有样本点的集合称为 样本空间 ,通常用 Ω \Omega Ω 来表示。

一个 随机事件 是样本空间 Ω \Omega Ω 的子集,它由若干样本点构成,用大写字母 A , B , C , ⋯ A, B, C, \cdots A,B,C,⋯ 表示。

对于一个随机现象的结果 ω \omega ω 和一个随机事件 A A A,我们称事件 A A A 发生了 当且仅当 ω ∈ A \omega \in A ω∈A。

例如,掷一次骰子得到的点数是一个随机现象,其样本空间可以表示为 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega=\{1,2,3,4,5,6\} Ω={1,2,3,4,5,6}。设随机事件 A A A 为「获得的点数大于 4 4 4」,则 A = { 5 , 6 } A = \{ 5, 6 \} A={5,6}。若某次掷骰子得到的点数 ω = 3 \omega = 3 ω=3,由于 ω ∉ A \omega \notin A ω∈/A,故事件 A A A 没有发生。

事件的运算

由于我们将随机事件定义为了样本空间 Ω \Omega Ω 的子集,故我们可以将集合的运算(如和、差、交、并、补等)移植到随机事件上。记号与集合运算保持一致。

特别的,事件的并 A ∪ B A \cup B A∪B 也可记作 A + B A + B A+B,事件的交 A ∩ B A \cap B A∩B 也可记作 A B AB AB,此时也可分别称作 和事件积事件

因为事件在一定程度上是以集合的含义定义的,因此可以把事件当作集合来对待。

和事件 :相当于 并集 。若干个事件中只要其中之一发生,就算发生了它们的和事件。

积事件 :相当于 交集 。若干个事件必须全部发生,才算发生了它们的积事件。

事件域

研究具体的随机现象时我们需要明确哪些事件是我们感兴趣的。根据随机事件的定义,显然有 F ⊂ 2 Ω \mathcal{F} \subset 2^{\Omega} F⊂2Ω(记号 2 Ω 2^{\Omega} 2Ω 表示由 Ω \Omega Ω 的所有子集组成的集合族),但 F = 2 Ω \mathcal{F} = 2^{\Omega} F=2Ω 却不是必须的。这在样本空间 Ω \Omega Ω 有限时可能有些难以理解,毕竟 2 Ω 2^{\Omega} 2Ω 尽管更大了但仍然有限。而当 Ω \Omega Ω 为无穷集时, 2 Ω 2^{\Omega} 2Ω 的势变得更大,其中也难免会出现一些「性质不太好」且我们不关心的事件,这时为了兼顾这些事件而放弃一些性质就显得得不偿失了。

尽管 F = 2 Ω \mathcal{F} = 2^{\Omega} F=2Ω 不是必须的,这并不代表 2 Ω 2^{\Omega} 2Ω 的任一子集都能成为事件域。我们通常会对一些事件进行运算得到的结果事件的概率感兴趣,因此我们希望事件域 F \mathcal{F} F 满足下列条件:

  • ∅ ∈ F \varnothing \in \mathcal{F} ∅∈F;
  • 若 A ∈ F A \in \mathcal{F} A∈F,则补事件 A ˉ ∈ F \bar{A} \in \mathcal{F} Aˉ∈F;
  • 若有一列事件 A n ∈ F , n = 1 , 2 , 3 ... A_n \in \mathcal{F}, n = 1, 2, 3\dots An∈F,n=1,2,3...,则 ⋃ A n ∈ F \bigcup A_n \in \mathcal{F} ⋃An∈F。

简言之,就是事件域 F \mathcal{F} F 对在补运算、和可数并下是封闭的,且包含元素 ∅ \varnothing ∅。

可以证明满足上述三个条件的事件域 F \mathcal{F} F 对可数交也是封闭的。

以掷骰子为例,当样本空间记为 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega=\{1,2,3,4,5,6\} Ω={1,2,3,4,5,6} 时,以下两个集合能够成为事件域:

  • F 1 = { ∅ , Ω } \mathcal{F}_1 = \{ \varnothing, \Omega \} F1={∅,Ω}
  • F 2 = { ∅ , { 1 , 3 , 5 } , { 2 , 4 , 6 } , Ω } \mathcal{F}_2 = \{ \varnothing, \{1, 3, 5\}, \{2, 4, 6\}, \Omega \} F2={∅,{1,3,5},{2,4,6},Ω}

但以下两个集合则不能:

  • F 3 = { ∅ , { 1 } , Ω } \mathcal{F}_3 = \{ \varnothing, \{1\}, \Omega \} F3={∅,{1},Ω}(对补不封闭)
  • F 4 = { { 1 , 3 , 5 } , { 2 , 4 , 6 } } \mathcal{F}_4 = \{ \{1, 3, 5\}, \{2, 4, 6\} \} F4={{1,3,5},{2,4,6}}(不含有 ∅ \varnothing ∅ 且对并不封闭)

概率

引入

假设狗狗 Emissary 在一周内偷卷被 tsqtsqtsq 发现了 10 10 10 次,而它这周总共打了 20 20 20 次,则狗狗 Emissary 在一周内偷卷被 tsqtsqtsq 发现的概率为 1 2 \displaystyle\frac{1}{2} 21,形式化地讲:

令狗狗 Emissary 在偷卷被 tsqtsqtsq 发现为事件 A A A,则易知:
P ( A ) = 10 20 = 1 2 \displaystyle P(A)=\frac{10}{20}=\frac{1}{2} P(A)=2010=21

以此类推,假如狗狗 Emissary 在一个月内打了 100 100 100 次,那么不难估计狗狗 Emissary 在一周内偷卷被 tsqtsqtsq 发现的次数大概为 50 50 50 次。

定义

古典定义

在概率论早期实践中,由于涉及到的随机现象都比较简单,具体表现为样本空间 Ω \Omega Ω 是有限集,且直观上所有样本点是等可能出现的,因此人们便总结出了下述定义:

如果一个随机现象满足:

  • 只有有限个基本结果;
  • 每个基本结果出现的可能性是一样的;

那么对于每个事件 A A A,定义它的概率为

P ( A ) = c a r d ( A ) c a r d ( Ω ) P(A)=\frac{card(A)}{card(\Omega)} P(A)=card(Ω)card(A)

其中 c a r d ( ) card() card() 表示对随机事件(一个集合)大小的度量。

统计定义

如果在一定条件下,进行了 n n n 次试验,事件 A A A 发生了 N ( A ) N(A) N(A) 次,如果随着 n n n 逐渐增大,频率 N A N \displaystyle\frac{N_A}{N} NNA 逐渐稳定在某一数值 p p p 附近,那么数值 p p p 称为事件 A A A 在该条件下发生的概率,记做 P ( A ) = p P(A)=p P(A)=p。

公理化定义

概率函数 P P P 是一个从事件域 F \mathcal{F} F 到闭区间 [ 0 , 1 ] [0, 1] [0,1] 的映射,且满足:

  • 规范性 :事件 Ω \Omega Ω 的概率值为 1 1 1,即 P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1。
  • 可数可加性 :若一列事件 A 1 , A 2 , ⋯ A_1, A_2, \cdots A1,A2,⋯ 两两不交,则 P ( ⋃ i ≥ 1 A i ) = ∑ i ≥ 1 P ( A i ) \displaystyle P\left( \bigcup_{i \geq 1} A_i \right) = \sum_{i \geq 1} P(A_i) P(i≥1⋃Ai)=i≥1∑P(Ai)。

概率函数的性质

对于任意随机事件 A , B ∈ F A, B \in \mathcal{F} A,B∈F,有

  • 单调性 :若 A ⊂ B A \subset B A⊂B,则有 P ( A ) ≤ P ( B ) P(A) \leq P(B) P(A)≤P(B)。
  • 容斥原理 : P ( A + B ) = P ( A ) + P ( B ) − P ( A B ) P(A+B) = P(A) + P(B) - P(AB) P(A+B)=P(A)+P(B)−P(AB)。
  • P ( A − B ) = P ( A ) − P ( A B ) P(A - B) = P(A) - P(AB) P(A−B)=P(A)−P(AB),这里 A − B A - B A−B 表示差集。

条件概率

定义

若已知事件 A A A 发生,在此条件下事件 B B B 发生的概率称为 条件概率 ,记作 P ( B ∣ A ) P(B|A) P(B∣A)。

在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P) 中,若事件 A ∈ F A \in \mathcal{F} A∈F 满足 P ( A ) > 0 P(A) > 0 P(A)>0,则条件概率 P ( B ∣ A ) P(B|A) P(B∣A) 定义为

P ( B ∣ A ) = P ( A B ) P ( A ) ∀ B ∈ F P(B|A) = \frac{P(AB)}{P(A)} \qquad \forall B \in \mathcal{F} P(B∣A)=P(A)P(AB)∀B∈F

可以验证根据上式定义出的 P ( B ∣ A ) P(B|A) P(B∣A) 是 ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F) 上的概率函数。

根据条件概率的定义可以直接推出下面两个等式:

  • 概率乘法公式 :在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P) 中,若 P ( A ) > 0 P(A) > 0 P(A)>0,则对任意事件 B B B 都有

P ( A B ) = P ( A ) P ( B ∣ A ) P(AB) = P(A)P(B|A) P(AB)=P(A)P(B∣A)

  • 全概率公式 :在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P) 中,若一组事件 A 1 , ⋯   , A n A_1, \cdots, A_n A1,⋯,An 两两不交且和为 Ω \Omega Ω,则对任意事件 B B B 都有

P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum_{i=1}^{n} P(A_i)P(B|A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)

Bayes 公式

一般来说,设可能导致事件 B B B 发生的原因为 A 1 , A 2 , ⋯   , A n A_1, A_2, \cdots, A_n A1,A2,⋯,An,则在 P ( A i ) P(A_i) P(Ai) 和 P ( B ∣ A i ) P(B|A_i) P(B∣Ai) 已知时可以通过全概率公式计算事件 B B B 发生的概率。但在很多情况下,我们需要根据「事件 B B B 发生」这一结果反推其各个原因事件的发生概率。于是有

P ( A i ∣ B ) = P ( A i B ) P ( B ) = P ( A i ) P ( B ∣ A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) P(A_i|B) = \frac{P(A_iB)}{P(B)} = \frac{P(A_i)P(B|A_i)}{\displaystyle\sum_{j=1}^{n} P(A_j)P(B|A_j)} P(Ai∣B)=P(B)P(AiB)=j=1∑nP(Aj)P(B∣Aj)P(Ai)P(B∣Ai)

上式即 Bayes 公式。

事件的独立性

在研究条件概率的过程中,可能会出现 P ( B ∣ A ) = P ( B ) P(B|A) = P(B) P(B∣A)=P(B) 的情况。从直观上讲就是事件 B B B 是否发生并不会告诉我们关于事件 A A A 的任何信息,即事件 B B B 与事件 A A A「无关」。于是我们就有了下面的定义

定义

若同一概率空间中的事件 A A A, B B B 满足

P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P(AB)=P(A)P(B)

则称 A A A, B B B 独立 。对于多个事件 A 1 , A 2 , ⋯   , A n A_1, A_2, \cdots, A_n A1,A2,⋯,An,我们称其独立,当且仅当对任意一组事件 { A i k : 1 ≤ i 1 < i 2 < ⋯ < i k ≤ n } \{ A_{i_k} : 1 \leq i_1 < i_2 < \cdots < i_k \leq n \} {Aik:1≤i1<i2<⋯<ik≤n} 都有

P ( A i 1 A i 2 ⋯ A i r ) = ∏ k = 1 r P ( A i k ) P( A_{i_1}A_{i_2} \cdots A_{i_r} ) = \prod_{k=1}^{r} P(A_{i_k}) P(Ai1Ai2⋯Air)=k=1∏rP(Aik)

直观地说,我们认为两个东西独立,当它们在某种意义上互不影响。例如,一个人出生的年月日和他的性别,这两件事是独立的;但一个人出生的年月日和他现在的头发总量,这两件事就不是独立的,因为一个人往往年纪越大头发越少。数学中的独立性与这种直观理解大体相似,但不尽相同。

多个事件的独立性

对于多个事件,一般不能从两两独立推出这些事件独立。考虑以下反例:

有一个正四面体骰子,其中三面被分别涂成红色、绿色、蓝色,另一面则三色皆有。现在扔一次该骰子,令事件 A A A, B B B, C C C 分别表示与桌面接触的一面包含红色、绿色、蓝色。

不难计算 P ( A ) = P ( B ) = P ( C ) = 1 2 P(A) = P(B) = P(C) = \displaystyle\frac{1}{2} P(A)=P(B)=P(C)=21,而 P ( A B ) = P ( B C ) = P ( C A ) = P ( A B C ) = 1 4 P(AB) = P(BC) = P(CA) = P(ABC) = \displaystyle\frac{1}{4} P(AB)=P(BC)=P(CA)=P(ABC)=41。

显然 A , B , C A, B, C A,B,C 两两独立,但由于 P ( A B C ) ≠ P ( A ) P ( B ) P ( C ) P(ABC) \neq P(A)P(B)P(C) P(ABC)=P(A)P(B)P(C),故 A , B , C A, B, C A,B,C 不独立。

随机事件的独立性

我们称两个事件 A A A, B B B 独立 ,当 P ( A ∩ B ) = P ( A ) ⋅ P ( B ) P(A \cap B) = P(A) \cdot P(B) P(A∩B)=P(A)⋅P(B)。

我们称若干个事件 A 1 , ... , n A_{1,\dots,n} A1,...,n 互相独立,当对于其中的任何一个子集,该子集中的事件同时发生的概率,等于其中每个事件发生的概率的乘积。形象化的说:

P ( ⋂ E ∈ T E ) = ∏ E ∈ T P ( E ) . ∀ T ⊆ { A 1 , A 2 , ... , A n } P(\bigcap_{E \in T} E) = \prod_{E \in T} P(E). \forall T \subseteq \{A_1,A_2,\dots,A_n\} P(E∈T⋂E)=E∈T∏P(E).∀T⊆{A1,A2,...,An}

由此可见,若干事件 两两独立互相独立 是不同的概念。

随机变量的独立性

一下用 I ( X ) I(X) I(X) 表示随机变量 X X X 的取值范围。即,如果把 X X X 看做一个映射,则 I ( X ) I(X) I(X) 看做它的值域。

我们称两个随机变量 X , Y X,Y X,Y 独立 ,当 P ( ( X = α ) ∩ ( Y = β ) ) = P ( X = α ) P ( Y = β ) P((X = \alpha) \cap (Y = \beta)) = P(X = \alpha) P(Y = \beta) P((X=α)∩(Y=β))=P(X=α)P(Y=β), ∀ ∈ I ( X ) , β ∈ I ( Y ) \forall\in I(X),\beta\in I(Y) ∀∈I(X),β∈I(Y),即 ( X , Y ) (X,Y) (X,Y) 取任意一组值得概率,等于 X X X 和 Y Y Y 分别取对应值得概率的乘积。

我们称若干个随机变量 X 1 , ... , n X_{1,\dots,n} X1,...,n 互相独立 ,当 ( X 1 , X 2 , ... , X n ) (X_1,X_2,\dots,X_n) (X1,X2,...,Xn) 取任意一组值得概率,等于每个 X i X_i Xi 分别取对应值的概率的乘积。形式化的说:

P ( ⋂ i = 1 n X i = F i ) = ∏ i = 1 n P ( X i = F i ) , ∀ F 1 , ... , n s . t . F i ∈ I ( X i ) P\Big(\bigcap_{i = 1}^n X_i = F_i\Big) = \prod_{i = 1}^{n} P(X_i = F_i), \forall F_{1,\dots,n} s.t. F_i \in I(X_i) P(i=1⋂nXi=Fi)=i=1∏nP(Xi=Fi),∀F1,...,ns.t.Fi∈I(Xi)

由此可见,若干随机变量 两两独立互相独立 是不同的概念。

概率的计算

  • 广义加法公式 :对于任意两个事件 A , B A,B A,B 有 P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) \displaystyle P(A \cup B) = P(A) + P(B) - P(A \cap B) P(A∪B)=P(A)+P(B)−P(A∩B)。

  • 条件概率 :记 P ( B ∣ A ) P(B \mid A) P(B∣A) 表示在 A A A 事件发生的前提下, B B B 事件发生的概率。则 P ( B ∣ A ) = P ( A B ) P ( A ) \displaystyle P(B \mid A) = \frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB),其中 P ( A B ) P(AB) P(AB) 为事件 A A A 和事件 B B B 同时发生的概率。

  • 乘法公式 : P ( A B ) = P ( A ) ⋅ P ( B ∣ A ) = P ( B ) ⋅ P ( A ∣ B ) P(AB) = P(A) \cdot P(B \mid A) = P(B) \cdot P(A \mid B) P(AB)=P(A)⋅P(B∣A)=P(B)⋅P(A∣B)。

  • 全概率公式 :若事件 A 1 , A 2 , A 3 . ... , A n A_1,A_2,A_3.\dots,A_n A1,A2,A3....,An 构成一组完备的事件且都有正概率,即 $\forall i,j,A_i \cap A_j = \varnothing $ 且 ∑ i = 1 n A i = 1 \displaystyle \sum_{i = 1}^n A_i = 1 i=1∑nAi=1, 则有 P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) \displaystyle P(B) = \sum_{i=1} ^nP(A_i)P(B \mid A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)。

  • 贝叶斯定理 : P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) \displaystyle P(B_i \mid A) = \frac{P(B_i) P(A \mid B_i)}{\displaystyle \sum_{j = 1}^n P(B_j) P(A \mid B_j)} P(Bi∣A)=j=1∑nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)

随机变量

直观地说,一个随机变量,是一个取值由随机事件决定的变量。

如果基于概率的公理化定义,那么一个随机变量。形式化地说------是一个从样本空间 S S S 到实数集 R \R R(或者 R \R R 的某个子集)的映射 X X X 。如果 X ( A ) = α X(A) = \alpha X(A)=α,你可以直观理解为:当随机实验 E E E 取结果 A A A 时,该随机变量取值 α \alpha α。

由此可以看到,"随机变量 X X X 取值 α \alpha α "(简记为 X = α X = \alpha X=α)也对应着一个能实现该命题的单位事件集合,因此它也是一个事件,于是也有与之对应的概率 P ( X = α ) P(X = \alpha) P(X=α)。

期望

引入

想象一下这样一个场景:狗狗 Emissary 想找 tsqtsqtsqslay,但是 tsqtsqtsq 今天想搞卷,于是他想出了这样个办法:

  • 如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 300 pts,tsqtsqtsq 就会陪它打三小时。
  • 如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 200 pts,tsqtsqtsq 就会陪它打两小时。
  • 如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 100 pts,tsqtsqtsq 就会陪它打一小时。
  • 如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 0 pts,tsqtsqtsq 就会陪它打半小时。

因为狗狗 Emissary 很强,所以它不会保龄。

试求 tsqtsqtsq 陪狗狗 Emissaryslay 的期望时长。

我们首先根据条件列出下面这张表格:

分数 时长 概率
( 300 , 400 ] (300,400] (300,400] 3 3 3 小时 1 4 \displaystyle\frac{1}{4} 41
( 200 , 300 ] (200,300] (200,300] 2 2 2 小时 1 4 \displaystyle\frac{1}{4} 41
( 100 , 200 ] (100,200] (100,200] 1 1 1 小时 1 4 \displaystyle\frac{1}{4} 41
( 0 , 100 ] (0,100] (0,100] 0.5 0.5 0.5 小时 1 4 \displaystyle\frac{1}{4} 41

令狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 300 pts为事件 A A A。以此类推,其余三种事件分别为 B B B, C C C, D D D,不难求出期望时长为:
E ( X ) = 1 4 × 3 + 1 4 × 2 + 1 4 × 1 + 1 4 × 0.5 = 13 8 = 1.625 \displaystyle E(X)=\frac{1}{4}\times 3+\frac{1}{4}\times 2+\frac{1}{4}\times 1+\frac{1}{4}\times 0.5=\frac{13}{8}=1.625 E(X)=41×3+41×2+41×1+41×0.5=813=1.625

所以 tsqtsqtsq 陪狗狗 Emissaryslay 的期望时长为 1.625 1.625 1.625 小时,即 97.5 97.5 97.5 分钟。

大数定律表明,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值,即令第 i i i 次 clg round \texttt{clg round} clg round 后 tsqtsqtsq 陪狗狗 Emissaryslay 的时长为 f i f_i fi,总共有 x x x 次 clg round \texttt{clg round} clg round,则有:
lim ⁡ x → ∞ ∑ i = 1 x f i x = E ( X ) \lim_{x\rightarrow\infty}\frac{\displaystyle\sum_{i=1}^{x}f_i}{x}=E(X) x→∞limxi=1∑xfi=E(X)

所以在打了不知道多少场 clg round \texttt{clg round} clg round 之后 tsqtsqtsq 陪狗狗 Emissaryslay 的时长肯定会趋近于这个期望时长。

定义

如果一个随机变量的取值个数有限(比如一个表示骰子示数的随机变量),或可能的取值可以一一列举出来(比如取值范围为全体正整数),则它称为 离散型随机变量

形式化地说,一个随机变量被称为离散型随机变量,当它的值域大小 有限 或者为 可列无穷大

一个离散性随机变量 X X X 的 数学期望 是其每个取值乘以该取值对应概率的总和,记为 $E(X) $。

E ( X ) = ∑ α ∈ I ( X ) α ⋅ P ( X = α ) = ∑ ω ∈ S X ( ω ) ⋅ Y ( ω ) E(X) = \sum_{\alpha \in I(X)} \alpha \cdot P(X = \alpha) = \sum_{\omega \in S} X(\omega) \cdot Y(\omega) E(X)=α∈I(X)∑α⋅P(X=α)=ω∈S∑X(ω)⋅Y(ω)

其中 I ( X ) I(X) I(X) 表示随机变量 X X X 的值域, S S S 表示 X X X 所在概率空间的样本集合。

性质

  • 全期望公式 : E ( Y ) = ∑ α ∈ I ( X ) P ( X = α ) ⋅ E ( Y ∣ ( X = α ) ) \displaystyle E(Y)=\sum_{\alpha\in I(X)}P(X=\alpha)\cdot E(Y\mid(X=\alpha)) E(Y)=α∈I(X)∑P(X=α)⋅E(Y∣(X=α)),其中 X , Y X,Y X,Y 是随机变量, E ( Y ∣ A ) E(Y\mid A) E(Y∣A) 是在 A A A 条件成立下 Y Y Y 的期望(即"条件期望")。可由全概率公式证明。
  • 期望的线性性 :对于任意两个随机变量 X . Y X.Y X.Y (不要求相互独立 ),有 E ( λ X + μ Y ) = λ E ( X ) + μ E ( Y ) E(\lambda X+\mu Y) = \lambda E(X) + \mu E(Y) E(λX+μY)=λE(X)+μE(Y) 。利用这个性质,可以将一个变量拆分成若干个互相独立的变量,分别求这些变量的期望值,最后相加得到所求变量的值。
  • 乘积的期望 : 当两个随机变量 X , Y X,Y X,Y 相互独立时,有 E ( X Y ) = E ( X ) ⋅ E ( Y ) E(XY) = E(X) \cdot E(Y) E(XY)=E(X)⋅E(Y) 。

期望与概率的转化

对于随机事件 A A A,考虑其示性函数 I A I_A IA:

I A ( ω ) = { 1 , ω ∈ A 0 , ω ∉ A I_A(\omega) = \begin{cases} 1, & \omega \in A \\ 0, & \omega \notin A \end{cases} IA(ω)={1,0,ω∈Aω∈/A

根据定义可以求得其期望 E I A = P ( A ) EI_A = P(A) EIA=P(A)。这一转化在实际应用中非常常见。

条件分布与条件期望

我们之前研究过条件概率,类似的也可以提出所谓条件期望的概念。

定义

对于两个随机变量 X X X, Y Y Y,在已知 Y = y Y = y Y=y 的条件下 X X X 的概率分布(密度函数)称之为 条件概率分布(条件概率密度),分别记作

P ( X = x i ∣ Y = y ) f X ∣ Y ( x ∣ y ) P( X = x_i | Y = y ) \qquad f_{X|Y}(x|y) P(X=xi∣Y=y)fX∣Y(x∣y)

在此条件下, X X X 的期望称为 条件期望 ,记作 E [ X ∣ Y = y ] E[X|Y=y] E[X∣Y=y]。

条件期望的性质

条件期望的诸多性质可由条件概率推知,在此不做赘述。

值得一提的是 E [ X ∣ Y ] E[X | Y] E[X∣Y] 一般是随机变量 Y Y Y 的函数,且这个函数通常不是线性的。但实际上有

E [ E [ X ∣ Y ] ] = E X E[E[X|Y]] = EX E[E[X∣Y]]=EX

上式称作 全期望公式

常用的套路以及技巧

∑ i = 0 n x i = 1 = x n + 1 1 − x \sum_{i=0}^nx^i=\frac{1=x^{n+1}}{1-x} i=0∑nxi=1−x1=xn+1

当 n → ∞ n \rightarrow \infty n→∞ 时:
∑ i = 0 ∞ x i = 1 1 − x \sum_{i=0}^{\infty}x^i=\frac{1}{1-x} i=0∑∞xi=1−x1

前缀和技巧

对于离散变量, P ( X = K ) = P ( X ≤ K ) − P ( x ≤ k − 1 ) P(X = K) = P(X \leq K ) - P(x \leq k - 1) P(X=K)=P(X≤K)−P(x≤k−1)。

例 1

有 n n n 个随机变量 X 1 , ... , n X_{1,\dots,n} X1,...,n,每个随机变量都是从 [ 1 , S ] \lbrack 1,S \rbrack [1,S] 中随机一个整数,求 max ⁡ ( X 1 , ... , n ) \max(X_{1,\dots,n}) max(X1,...,n) 的期望。
E ( max ⁡ ) = ∑ i = 1 S P ( max ⁡ = i ) ⋅ i = ∑ i = 1 S ( P ( max ⁡ ≤ i ) − P ( max ⁡ ≤ i − 1 ) ) − 1 = ∑ i = 1 S ( i n S n − ( i − 1 ) n S n ) ⋅ i \begin{aligned} E(\max) &= \sum_{i = 1}^S P(\max = i) \cdot i\\ &= \sum_{i=1}^S (P(\max \leq i) - P(\max \leq i - 1)) - 1\\ &= \sum_{i=1}^S \Big(\frac{i^n}{S^n} - \frac{(i-1)^n}{S^n} \Big) \cdot i \end{aligned} E(max)=i=1∑SP(max=i)⋅i=i=1∑S(P(max≤i)−P(max≤i−1))−1=i=1∑S(Snin−Sn(i−1)n)⋅i

例 2

概率为 p p p 的事件期望 1 p \displaystyle\frac{1}{p} p1 次之后发生。

这不是显然吗?
E ( X ) = ∑ i P ( X = i ) i = ∑ i P ( X ≥ i ) − P ( X ≥ i + 1 ) ⋅ i = ∑ i ( ( 1 − p ) i − 1 − ( 1 − p ) i ) ⋯ i = [ ( 1 − p ) 0 − ( 1 − p ) ] + [ ( 1 − p ) − ( 1 − p ) 2 ] + ... = ∑ i = 0 ∞ ( 1 − p ) i = 1 1 − ( 1 − p ) = 1 p \begin{aligned} E(X) &= \sum_i P(X = i) i \\ &= \sum_{i} P(X \ge i) - P(X \ge i + 1) \cdot i\\ &= \sum_{i} ((1 - p)^{i-1} - (1 - p) ^i) \cdots i \\ &= [(1 - p)^0 - (1-p)] + [(1-p)-(1-p)^2] + \dots \\ &= \sum_{i = 0} ^{\infty}(1-p)^i = \frac{1}{1-(1-p)} = \frac{1}{p} \end{aligned} E(X)=i∑P(X=i)i=i∑P(X≥i)−P(X≥i+1)⋅i=i∑((1−p)i−1−(1−p)i)⋯i=[(1−p)0−(1−p)]+[(1−p)−(1−p)2]+...=i=0∑∞(1−p)i=1−(1−p)1=p1

拿球问题

例 1

箱子里有 i i i 个球 1 ... n 1 \dots n 1...n,你要从里面拿 m m m 次球,拿了后不放回,求取出的数字之和的期望。


∑ i = 1 n P ( i ) × i = ∑ i = 1 n m n × i = m n × n × ( n + 1 ) 2 = m × ( n + 1 ) 2 \sum_{i=1}^n P(i) \times i = \sum_{i = 1}^n\frac{m}{n} \times i= \frac{m}{n} \times \frac{n\times (n+1)}{2} = \frac{m \times (n + 1)}{2} i=1∑nP(i)×i=i=1∑nnm×i=nm×2n×(n+1)=2m×(n+1)

例 2

箱子里有 i i i 个球 1 ... n 1 \dots n 1...n,你要从里面拿 m m m 次球,拿了后放回,求取出的数字之和的期望。

放不放回概率是一样的,所以:
a n s = m × ( n + 1 ) 2 ans = \frac{m\times (n + 1)}{2} ans=2m×(n+1)

例 3

箱子里有 n n n 个球 1 ... n 1 \dots n 1...n,你要从里边拿 m m m 次球,拿了之后有 1 p 1 \displaystyle\frac{1}{p_1} p11 的概率放回,求取出的球上数字和的期望。

从拿了第一个球和第二个球来看,如果题目中没有要求有概率放回,如果是典例 1 1 1 的那种情况,第一次取得时候每一个球被取中的概率为 1 n \displaystyle\frac{1}{n} n1,第二次取得时候每个球被取中的概率为 1 n − 1 \displaystyle\frac{1}{n-1} n−11。

如果加上限制,分别看两种情况。

看拿了第一个球之后,放回的概率就是 1 p 1 \displaystyle\frac{1}{p_1} p11,这个时候再拿第二个球每个球被取中的概率为 1 p 1 × 1 n = 1 P 1 n \displaystyle\frac{1}{p_1}\times\frac{1}{n}=\frac{1}{P_1n} p11×n1=P1n1。

我们把不放回的概率设为 p 1 − 1 p 1 \displaystyle \frac{p_1-1}{p_1} p1p1−1,如果不放回,取到每一个球的概率就是 n − 1 n × 1 n − 1 \displaystyle\frac{n-1}{n}\times\frac{1}{n-1} nn−1×n−11,前后乘起来就是: p 1 − 1 p 1 n \displaystyle\frac{p_1-1}{p_1n} p1np1−1。

两种情况算期望的时候为 P 1 × i + P 2 × i P_1 \times i + P_2 \times i P1×i+P2×i,会发现合并起来就是 1 n × i \displaystyle\frac{1}{n} \times i n1×i ,和上边的一样,所以选 m m m 次的概率,选中 i i i 的概率还是 m n \displaystyle\frac{m}{n} nm。

a n s = m × n + 1 2 ans = \frac{m \times {n + 1}}{2} ans=2m×n+1

游走问题

例 1

在一条 n n n 个点的链上游走,求从一端走到另一端的概率。
解:

用 X i X_i Xi 表示 i i i 走到 i + 1 i + 1 i+1 期望走多少步。
E ( n ) = ∑ i = 1 n E ( X i ) E ( X i ) = 1 2 + 1 2 × ( 1 + E ( X i − 1 ) + E ( X i ) ) E ( X i ) = 1 2 + 1 2 + 1 2 × E ( X i − 1 ) + 1 2 × E ( X i ) E ( X i ) = E ( X i − 1 ) + 2 E ( n ) = 1 + 3 + 5 + ⋯ + 2 × n − 3 = ( n − 1 ) 3 \begin{aligned} E(n) &= \sum_{i = 1}^n E(X_i) \\ E(X_i) &= \frac{1}{2} + \frac{1}{2} \times \Big(1 + E(X_{i - 1}) +E(X_i)\Big) \\ E(X_i) &= \frac{1}{2} + \frac{1}{2} + \frac{1}{2} \times E(X_{i - 1}) + \frac{1}{2} \times E(X_i) \\ E(X_i) &= E(X_{i - 1}) + 2 \\ E(n) &= 1 + 3 + 5 + \dots + 2 \times n - 3 = (n - 1) ^ 3 \end{aligned} E(n)E(Xi)E(Xi)E(Xi)E(n)=i=1∑nE(Xi)=21+21×(1+E(Xi−1)+E(Xi))=21+21+21×E(Xi−1)+21×E(Xi)=E(Xi−1)+2=1+3+5+⋯+2×n−3=(n−1)3

例 2

在一个 n n n 个点的完全图上游走,求期望走多少步才能走到另一个点。
解:

每个点到其他点的概率都是 1 n − 1 \displaystyle\frac{1}{n - 1} n−11,所以期望就是 n − 1 n - 1 n−1 次成功。

例 3

在一张 2 × n 2 \times n 2×n 个点的完全二分图上游走,求从一个点走到另一个点的概率。
解:

左边等价,右边等价。

  • 两点在同侧: 1 n + n − 1 n × ( 2 + A ) \displaystyle\frac{1}{n} + \frac{n - 1}{n} \times (2 + A) n1+nn−1×(2+A)。
  • 两点在异侧: 1 + A 1 + A 1+A。
例 4

在一张 n n n 个点的菊花图上游走,求一个点走到另一个点的概率。

解:

  • A.根到叶: 1 n − 1 + n − 2 n − 1 × ( 2 + A ) \displaystyle\frac{1}{n - 1} + \frac{n - 2}{n - 1} \times (2 + A) n−11+n−1n−2×(2+A)。
  • B.叶到根: 1 1 1。
  • C.叶到叶: A + 1 A + 1 A+1。
例 5

在一棵 n n n 个点的树上游走,求从根节点走到 x x x 的期望步数。

解:

X i X_i Xi 表示从 i 点游走,走到 f a t h e r i father_i fatheri 的期望步数, d i d_i di 为 i i i 的入度。
f x = 1 d x + 1 d x × ∑ i = 1 d x ( 1 + f s o n x + f x ) f_x = \frac{1}{d_x} + \frac{1}{d_x} \times \sum_{i = 1}^{d_x} (1 + f_{son_x} + f_x) fx=dx1+dx1×i=1∑dx(1+fsonx+fx)

经典问题

例 1

每次随机取一个 [ 1 , n ] [1,n] [1,n] 的整数,问期望多少次能够凑齐所有的数。
解: 考虑每次取得时候取中以前没取过的数的概率,显然是 ∑ i = 1 n n − i n \displaystyle\sum_{i=1}^n\frac{n-i}{n} i=1∑nnn−i。

上边那个东西也等于 ∑ i = 1 i n \displaystyle\sum_{i=1}\frac{i}{n} i=1∑ni,期望就是 ∑ i = 1 n i \displaystyle\sum_{i=1}\frac{n}{i} i=1∑in 。

例 2

随机一个长度为 n n n 的排列 p p p,求 P 1 . ... , P i P_1.\dots, P_i P1....,Pi 中的最大值为 P i P_i Pi 的概率。

解:
∑ i = 1 n 1 n \displaystyle \sum_{i = 1}^n \frac{1}{n} i=1∑nn1。

每个前缀中,最大值都有 i i i 个位置可以选,所以是 1 i \displaystyle\frac{1}{i} i1。

例 3

随机一个长度为 n n n 的排列 p p p,求 i i i 在 j j j 后边的概率。

解:
1 2 \displaystyle\frac{1}{2} 21,挺显然的。

例 4

随机一个长度为 n n n 的排列 p p p,求它包含 w i , i ∈ [ 1 , m ] w_{i}, i \in [1,m] wi,i∈[1,m] 为子序列 / 子串的概率。

  • 子序列, ( n m ) × ( n − m ) ! n ! = 1 m ! \left(\begin{array}{c}n\\m\end{array}\right)\displaystyle\times\frac{(n - m)!}{n!}=\frac{1}{m!} (nm)×n!(n−m)!=m!1,把他想想象成很多方块,每个方块都能放一个数,因为是子序列,就从里边选 m m m 个块,放这个子序列,剩下的可以随便放,挺显然的。
  • 子串, ( n − m + 1 ) × ( n − m ) ! n ! = ( n − m + 1 ) ! n ! \displaystyle (n - m + 1) \times \frac{(n - m)!}{n!} = \frac{(n - m + 1)!}{n!} (n−m+1)×n!(n−m)!=n!(n−m+1)!,考虑剩下的 n − m n-m n−m 个数都放好了,有 ( n − m ) ! n ! \displaystyle\frac{(n - m)!}{n!} n!(n−m)! 种方案,然后从 n − m + 1 n - m + 1 n−m+1 个空中任选一个插入长度为 m m m 的子串,就是上边那个式子。
相关推荐
丫头,冲鸭!!!7 分钟前
B树(B-Tree)和B+树(B+ Tree)
笔记·算法
Re.不晚11 分钟前
Java入门15——抽象类
java·开发语言·学习·算法·intellij-idea
听忆.27 分钟前
手机屏幕上进行OCR识别方案
笔记
幼儿园老大*1 小时前
走进 Go 语言基础语法
开发语言·后端·学习·golang·go
Selina K1 小时前
shell脚本知识点记录
笔记·shell
1 小时前
开源竞争-数据驱动成长-11/05-大专生的思考
人工智能·笔记·学习·算法·机器学习
ctrey_1 小时前
2024-11-4 学习人工智能的Day21 openCV(3)
人工智能·opencv·学习
啦啦右一2 小时前
前端 | MYTED单篇TED词汇学习功能优化
前端·学习
霍格沃兹测试开发学社测试人社区2 小时前
软件测试学习笔记丨Flask操作数据库-数据库和表的管理
软件测试·笔记·测试开发·学习·flask
今天我又学废了2 小时前
Scala学习记录,List
学习