学习笔记：概率期望

概率 & 期望

样本空间、随机事件

定义

一个随机现象中可能发生的不能再细分的结果被称为 样本点 。所有样本点的集合称为 样本空间 ，通常用 Ω \Omega Ω 来表示。

一个 随机事件 是样本空间 Ω \Omega Ω 的子集，它由若干样本点构成，用大写字母 A , B , C , ⋯ A, B, C, \cdots A,B,C,⋯ 表示。

对于一个随机现象的结果 ω \omega ω 和一个随机事件 A A A，我们称事件 A A A 发生了 当且仅当 ω ∈ A \omega \in A ω∈A。

例如，掷一次骰子得到的点数是一个随机现象，其样本空间可以表示为 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega=\{1,2,3,4,5,6\} Ω={1,2,3,4,5,6}。设随机事件 A A A 为「获得的点数大于 4 4 4」，则 A = { 5 , 6 } A = \{ 5, 6 \} A={5,6}。若某次掷骰子得到的点数 ω = 3 \omega = 3 ω=3，由于 ω ∉ A \omega \notin A ω∈/A，故事件 A A A 没有发生。

事件的运算

由于我们将随机事件定义为了样本空间 Ω \Omega Ω 的子集，故我们可以将集合的运算（如和、差、交、并、补等）移植到随机事件上。记号与集合运算保持一致。

特别的，事件的并 A ∪ B A \cup B A∪B 也可记作 A + B A + B A+B，事件的交 A ∩ B A \cap B A∩B 也可记作 A B AB AB，此时也可分别称作 和事件 和 积事件。

因为事件在一定程度上是以集合的含义定义的，因此可以把事件当作集合来对待。

和事件 ：相当于并集。若干个事件中只要其中之一发生，就算发生了它们的和事件。

积事件 ：相当于交集。若干个事件必须全部发生，才算发生了它们的积事件。

事件域

研究具体的随机现象时我们需要明确哪些事件是我们感兴趣的。根据随机事件的定义，显然有 F ⊂ 2 Ω \mathcal{F} \subset 2^{\Omega} F⊂2Ω（记号 2 Ω 2^{\Omega} 2Ω 表示由 Ω \Omega Ω 的所有子集组成的集合族），但 F = 2 Ω \mathcal{F} = 2^{\Omega} F=2Ω 却不是必须的。这在样本空间 Ω \Omega Ω 有限时可能有些难以理解，毕竟 2 Ω 2^{\Omega} 2Ω 尽管更大了但仍然有限。而当 Ω \Omega Ω 为无穷集时， 2 Ω 2^{\Omega} 2Ω 的势变得更大，其中也难免会出现一些「性质不太好」且我们不关心的事件，这时为了兼顾这些事件而放弃一些性质就显得得不偿失了。

尽管 F = 2 Ω \mathcal{F} = 2^{\Omega} F=2Ω 不是必须的，这并不代表 2 Ω 2^{\Omega} 2Ω 的任一子集都能成为事件域。我们通常会对一些事件进行运算得到的结果事件的概率感兴趣，因此我们希望事件域 F \mathcal{F} F 满足下列条件：

∅ ∈ F \varnothing \in \mathcal{F} ∅∈F；
若 A ∈ F A \in \mathcal{F} A∈F，则补事件 A ˉ ∈ F \bar{A} \in \mathcal{F} Aˉ∈F；
若有一列事件 A n ∈ F , n = 1 , 2 , 3 ... A_n \in \mathcal{F}, n = 1, 2, 3\dots An∈F,n=1,2,3...，则 ⋃ A n ∈ F \bigcup A_n \in \mathcal{F} ⋃An∈F。

简言之，就是事件域 F \mathcal{F} F 对在补运算、和可数并下是封闭的，且包含元素 ∅ \varnothing ∅。

可以证明满足上述三个条件的事件域 F \mathcal{F} F 对可数交也是封闭的。

以掷骰子为例，当样本空间记为 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega=\{1,2,3,4,5,6\} Ω={1,2,3,4,5,6} 时，以下两个集合能够成为事件域：

F 1 = { ∅ , Ω } \mathcal{F}_1 = \{ \varnothing, \Omega \} F1={∅,Ω}
F 2 = { ∅ , { 1 , 3 , 5 } , { 2 , 4 , 6 } , Ω } \mathcal{F}_2 = \{ \varnothing, \{1, 3, 5\}, \{2, 4, 6\}, \Omega \} F2={∅,{1,3,5},{2,4,6},Ω}

但以下两个集合则不能：

F 3 = { ∅ , { 1 } , Ω } \mathcal{F}_3 = \{ \varnothing, \{1\}, \Omega \} F3={∅,{1},Ω}（对补不封闭）
F 4 = { { 1 , 3 , 5 } , { 2 , 4 , 6 } } \mathcal{F}_4 = \{ \{1, 3, 5\}, \{2, 4, 6\} \} F4={{1,3,5},{2,4,6}}（不含有 ∅ \varnothing ∅ 且对并不封闭）

概率

引入

假设狗狗 Emissary 在一周内偷卷被 tsqtsqtsq 发现了 10 10 10 次，而它这周总共打了 20 20 20 次，则狗狗 Emissary 在一周内偷卷被 tsqtsqtsq 发现的概率为 1 2 \displaystyle\frac{1}{2} 21，形式化地讲：

令狗狗 Emissary 在偷卷被 tsqtsqtsq 发现为事件 A A A，则易知：
P ( A ) = 10 20 = 1 2 \displaystyle P(A)=\frac{10}{20}=\frac{1}{2} P(A)=2010=21

以此类推，假如狗狗 Emissary 在一个月内打了 100 100 100 次，那么不难估计狗狗 Emissary 在一周内偷卷被 tsqtsqtsq 发现的次数大概为 50 50 50 次。

定义

古典定义

在概率论早期实践中，由于涉及到的随机现象都比较简单，具体表现为样本空间 Ω \Omega Ω 是有限集，且直观上所有样本点是等可能出现的，因此人们便总结出了下述定义：

如果一个随机现象满足：

只有有限个基本结果；
每个基本结果出现的可能性是一样的；

那么对于每个事件 A A A，定义它的概率为

P ( A ) = c a r d ( A ) c a r d ( Ω ) P(A)=\frac{card(A)}{card(\Omega)} P(A)=card(Ω)card(A)

其中 c a r d ( ) card() card() 表示对随机事件（一个集合）大小的度量。

统计定义

如果在一定条件下，进行了 n n n 次试验，事件 A A A 发生了 N ( A ) N(A) N(A) 次，如果随着 n n n 逐渐增大，频率 N A N \displaystyle\frac{N_A}{N} NNA 逐渐稳定在某一数值 p p p 附近，那么数值 p p p 称为事件 A A A 在该条件下发生的概率，记做 P ( A ) = p P(A)=p P(A)=p。

公理化定义

概率函数 P P P 是一个从事件域 F \mathcal{F} F 到闭区间 [ 0 , 1 ] [0, 1] [0,1] 的映射，且满足：

规范性 ：事件 Ω \Omega Ω 的概率值为 1 1 1，即 P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1。
可数可加性 ：若一列事件 A 1 , A 2 , ⋯ A_1, A_2, \cdots A1,A2,⋯ 两两不交，则 P ( ⋃ i ≥ 1 A i ) = ∑ i ≥ 1 P ( A i ) \displaystyle P\left( \bigcup_{i \geq 1} A_i \right) = \sum_{i \geq 1} P(A_i) P(i≥1⋃Ai)=i≥1∑P(Ai)。

概率函数的性质

对于任意随机事件 A , B ∈ F A, B \in \mathcal{F} A,B∈F，有

单调性 ：若 A ⊂ B A \subset B A⊂B，则有 P ( A ) ≤ P ( B ) P(A) \leq P(B) P(A)≤P(B)。
容斥原理 ： P ( A + B ) = P ( A ) + P ( B ) − P ( A B ) P(A+B) = P(A) + P(B) - P(AB) P(A+B)=P(A)+P(B)−P(AB)。
P ( A − B ) = P ( A ) − P ( A B ) P(A - B) = P(A) - P(AB) P(A−B)=P(A)−P(AB)，这里 A − B A - B A−B 表示差集。

条件概率

定义

若已知事件 A A A 发生，在此条件下事件 B B B 发生的概率称为 条件概率 ，记作 P ( B ∣ A ) P(B|A) P(B∣A)。

在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P) 中，若事件 A ∈ F A \in \mathcal{F} A∈F 满足 P ( A ) > 0 P(A) > 0 P(A)>0，则条件概率 P ( B ∣ A ) P(B|A) P(B∣A) 定义为

P ( B ∣ A ) = P ( A B ) P ( A ) ∀ B ∈ F P(B|A) = \frac{P(AB)}{P(A)} \qquad \forall B \in \mathcal{F} P(B∣A)=P(A)P(AB)∀B∈F

可以验证根据上式定义出的 P ( B ∣ A ) P(B|A) P(B∣A) 是 ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F) 上的概率函数。

根据条件概率的定义可以直接推出下面两个等式：

概率乘法公式 ：在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P) 中，若 P ( A ) > 0 P(A) > 0 P(A)>0，则对任意事件 B B B 都有

P ( A B ) = P ( A ) P ( B ∣ A ) P(AB) = P(A)P(B|A) P(AB)=P(A)P(B∣A)

全概率公式 ：在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P) 中，若一组事件 A 1 , ⋯ , A n A_1, \cdots, A_n A1,⋯,An 两两不交且和为 Ω \Omega Ω，则对任意事件 B B B 都有

P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum_{i=1}^{n} P(A_i)P(B|A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)

Bayes 公式

一般来说，设可能导致事件 B B B 发生的原因为 A 1 , A 2 , ⋯ , A n A_1, A_2, \cdots, A_n A1,A2,⋯,An，则在 P ( A i ) P(A_i) P(Ai) 和 P ( B ∣ A i ) P(B|A_i) P(B∣Ai) 已知时可以通过全概率公式计算事件 B B B 发生的概率。但在很多情况下，我们需要根据「事件 B B B 发生」这一结果反推其各个原因事件的发生概率。于是有

P ( A i ∣ B ) = P ( A i B ) P ( B ) = P ( A i ) P ( B ∣ A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) P(A_i|B) = \frac{P(A_iB)}{P(B)} = \frac{P(A_i)P(B|A_i)}{\displaystyle\sum_{j=1}^{n} P(A_j)P(B|A_j)} P(Ai∣B)=P(B)P(AiB)=j=1∑nP(Aj)P(B∣Aj)P(Ai)P(B∣Ai)

上式即 Bayes 公式。

事件的独立性

在研究条件概率的过程中，可能会出现 P ( B ∣ A ) = P ( B ) P(B|A) = P(B) P(B∣A)=P(B) 的情况。从直观上讲就是事件 B B B 是否发生并不会告诉我们关于事件 A A A 的任何信息，即事件 B B B 与事件 A A A「无关」。于是我们就有了下面的定义

定义

若同一概率空间中的事件 A A A, B B B 满足

P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P(AB)=P(A)P(B)

则称 A A A, B B B 独立。对于多个事件 A 1 , A 2 , ⋯ , A n A_1, A_2, \cdots, A_n A1,A2,⋯,An，我们称其独立，当且仅当对任意一组事件 { A i k : 1 ≤ i 1 < i 2 < ⋯ < i k ≤ n } \{ A_{i_k} : 1 \leq i_1 < i_2 < \cdots < i_k \leq n \} {Aik:1≤i1<i2<⋯<ik≤n} 都有

P ( A i 1 A i 2 ⋯ A i r ) = ∏ k = 1 r P ( A i k ) P( A_{i_1}A_{i_2} \cdots A_{i_r} ) = \prod_{k=1}^{r} P(A_{i_k}) P(Ai1Ai2⋯Air)=k=1∏rP(Aik)

直观地说，我们认为两个东西独立，当它们在某种意义上互不影响。例如，一个人出生的年月日和他的性别，这两件事是独立的；但一个人出生的年月日和他现在的头发总量，这两件事就不是独立的，因为一个人往往年纪越大头发越少。数学中的独立性与这种直观理解大体相似，但不尽相同。

多个事件的独立性

对于多个事件，一般不能从两两独立推出这些事件独立。考虑以下反例：

有一个正四面体骰子，其中三面被分别涂成红色、绿色、蓝色，另一面则三色皆有。现在扔一次该骰子，令事件 A A A, B B B, C C C 分别表示与桌面接触的一面包含红色、绿色、蓝色。

不难计算 P ( A ) = P ( B ) = P ( C ) = 1 2 P(A) = P(B) = P(C) = \displaystyle\frac{1}{2} P(A)=P(B)=P(C)=21，而 P ( A B ) = P ( B C ) = P ( C A ) = P ( A B C ) = 1 4 P(AB) = P(BC) = P(CA) = P(ABC) = \displaystyle\frac{1}{4} P(AB)=P(BC)=P(CA)=P(ABC)=41。

显然 A , B , C A, B, C A,B,C 两两独立，但由于 P ( A B C ) ≠ P ( A ) P ( B ) P ( C ) P(ABC) \neq P(A)P(B)P(C) P(ABC)=P(A)P(B)P(C)，故 A , B , C A, B, C A,B,C 不独立。

随机事件的独立性

我们称两个事件 A A A， B B B 独立，当 P ( A ∩ B ) = P ( A ) ⋅ P ( B ) P(A \cap B) = P(A) \cdot P(B) P(A∩B)=P(A)⋅P(B)。

我们称若干个事件 A 1 , ... , n A_{1,\dots,n} A1,...,n 互相独立，当对于其中的任何一个子集，该子集中的事件同时发生的概率，等于其中每个事件发生的概率的乘积。形象化的说：

P ( ⋂ E ∈ T E ) = ∏ E ∈ T P ( E ) . ∀ T ⊆ { A 1 , A 2 , ... , A n } P(\bigcap_{E \in T} E) = \prod_{E \in T} P(E). \forall T \subseteq \{A_1,A_2,\dots,A_n\} P(E∈T⋂E)=E∈T∏P(E).∀T⊆{A1,A2,...,An}

由此可见，若干事件 两两独立 和 互相独立 是不同的概念。

随机变量的独立性

一下用 I ( X ) I(X) I(X) 表示随机变量 X X X 的取值范围。即，如果把 X X X 看做一个映射，则 I ( X ) I(X) I(X) 看做它的值域。

我们称两个随机变量 X , Y X,Y X,Y 独立，当 P ( ( X = α ) ∩ ( Y = β ) ) = P ( X = α ) P ( Y = β ) P((X = \alpha) \cap (Y = \beta)) = P(X = \alpha) P(Y = \beta) P((X=α)∩(Y=β))=P(X=α)P(Y=β), ∀ ∈ I ( X ) , β ∈ I ( Y ) \forall\in I(X),\beta\in I(Y) ∀∈I(X),β∈I(Y)，即 ( X , Y ) (X,Y) (X,Y) 取任意一组值得概率，等于 X X X 和 Y Y Y 分别取对应值得概率的乘积。

我们称若干个随机变量 X 1 , ... , n X_{1,\dots,n} X1,...,n 互相独立 ，当 ( X 1 , X 2 , ... , X n ) (X_1,X_2,\dots,X_n) (X1,X2,...,Xn) 取任意一组值得概率，等于每个 X i X_i Xi 分别取对应值的概率的乘积。形式化的说：

P ( ⋂ i = 1 n X i = F i ) = ∏ i = 1 n P ( X i = F i ) , ∀ F 1 , ... , n s . t . F i ∈ I ( X i ) P\Big(\bigcap_{i = 1}^n X_i = F_i\Big) = \prod_{i = 1}^{n} P(X_i = F_i), \forall F_{1,\dots,n} s.t. F_i \in I(X_i) P(i=1⋂nXi=Fi)=i=1∏nP(Xi=Fi),∀F1,...,ns.t.Fi∈I(Xi)

由此可见，若干随机变量 两两独立 和 互相独立 是不同的概念。

概率的计算

广义加法公式 ：对于任意两个事件 A , B A,B A,B 有 P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) \displaystyle P(A \cup B) = P(A) + P(B) - P(A \cap B) P(A∪B)=P(A)+P(B)−P(A∩B)。
条件概率 ：记 P ( B ∣ A ) P(B \mid A) P(B∣A) 表示在 A A A 事件发生的前提下， B B B 事件发生的概率。则 P ( B ∣ A ) = P ( A B ) P ( A ) \displaystyle P(B \mid A) = \frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)，其中 P ( A B ) P(AB) P(AB) 为事件 A A A 和事件 B B B 同时发生的概率。
乘法公式 ： P ( A B ) = P ( A ) ⋅ P ( B ∣ A ) = P ( B ) ⋅ P ( A ∣ B ) P(AB) = P(A) \cdot P(B \mid A) = P(B) \cdot P(A \mid B) P(AB)=P(A)⋅P(B∣A)=P(B)⋅P(A∣B)。
全概率公式 ：若事件 A 1 , A 2 , A 3 . ... , A n A_1,A_2,A_3.\dots,A_n A1,A2,A3....,An 构成一组完备的事件且都有正概率，即 $\\forall i,j,A_i \\cap A_j = \\varnothing$ 且 ∑ i = 1 n A i = 1 \displaystyle \sum_{i = 1}^n A_i = 1 i=1∑nAi=1，则有 P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) \displaystyle P(B) = \sum_{i=1} ^nP(A_i)P(B \mid A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)。
贝叶斯定理 ： P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) \displaystyle P(B_i \mid A) = \frac{P(B_i) P(A \mid B_i)}{\displaystyle \sum_{j = 1}^n P(B_j) P(A \mid B_j)} P(Bi∣A)=j=1∑nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)

随机变量

直观地说，一个随机变量，是一个取值由随机事件决定的变量。

如果基于概率的公理化定义，那么一个随机变量。形式化地说------是一个从样本空间 S S S 到实数集 R \R R（或者 R \R R 的某个子集）的映射 X X X 。如果 X ( A ) = α X(A) = \alpha X(A)=α，你可以直观理解为：当随机实验 E E E 取结果 A A A 时，该随机变量取值 α \alpha α。

由此可以看到，"随机变量 X X X 取值 α \alpha α "（简记为 X = α X = \alpha X=α）也对应着一个能实现该命题的单位事件集合，因此它也是一个事件，于是也有与之对应的概率 P ( X = α ) P(X = \alpha) P(X=α)。

期望

引入

想象一下这样一个场景：狗狗 Emissary 想找 tsqtsqtsq 打 slay，但是 tsqtsqtsq 今天想搞卷，于是他想出了这样个办法：

如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 300 pts，tsqtsqtsq 就会陪它打三小时。
如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 200 pts，tsqtsqtsq 就会陪它打两小时。
如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 100 pts，tsqtsqtsq 就会陪它打一小时。
如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 0 pts，tsqtsqtsq 就会陪它打半小时。

因为狗狗 Emissary 很强，所以它不会保龄。

试求 tsqtsqtsq 陪狗狗 Emissary 打 slay 的期望时长。

我们首先根据条件列出下面这张表格：

分数	时长	概率
( 300 , 400 ] (300,400] (300,400]	3 3 3 小时	1 4 \displaystyle\frac{1}{4} 41
( 200 , 300 ] (200,300] (200,300]	2 2 2 小时	1 4 \displaystyle\frac{1}{4} 41
( 100 , 200 ] (100,200] (100,200]	1 1 1 小时	1 4 \displaystyle\frac{1}{4} 41
( 0 , 100 ] (0,100] (0,100]	0.5 0.5 0.5 小时	1 4 \displaystyle\frac{1}{4} 41

令狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 300 pts为事件 A A A。以此类推，其余三种事件分别为 B B B， C C C， D D D，不难求出期望时长为：
E ( X ) = 1 4 × 3 + 1 4 × 2 + 1 4 × 1 + 1 4 × 0.5 = 13 8 = 1.625 \displaystyle E(X)=\frac{1}{4}\times 3+\frac{1}{4}\times 2+\frac{1}{4}\times 1+\frac{1}{4}\times 0.5=\frac{13}{8}=1.625 E(X)=41×3+41×2+41×1+41×0.5=813=1.625

所以 tsqtsqtsq 陪狗狗 Emissary 打 slay 的期望时长为 1.625 1.625 1.625 小时，即 97.5 97.5 97.5 分钟。

大数定律表明，随着重复次数接近无穷大，数值的算术平均值几乎肯定地收敛于期望值，即令第 i i i 次 clg round \texttt{clg round} clg round 后 tsqtsqtsq 陪狗狗 Emissary 打 slay 的时长为 f i f_i fi，总共有 x x x 次 clg round \texttt{clg round} clg round，则有：
lim ⁡ x → ∞ ∑ i = 1 x f i x = E ( X ) \lim_{x\rightarrow\infty}\frac{\displaystyle\sum_{i=1}^{x}f_i}{x}=E(X) x→∞limxi=1∑xfi=E(X)

所以在打了不知道多少场 clg round \texttt{clg round} clg round 之后 tsqtsqtsq 陪狗狗 Emissary 打 slay 的时长肯定会趋近于这个期望时长。

定义

如果一个随机变量的取值个数有限（比如一个表示骰子示数的随机变量），或可能的取值可以一一列举出来（比如取值范围为全体正整数），则它称为 离散型随机变量 。

形式化地说，一个随机变量被称为离散型随机变量，当它的值域大小有限或者为 可列无穷大 。

一个离散性随机变量 X X X 的 数学期望 是其每个取值乘以该取值对应概率的总和，记为 $E(X)$ 。

E ( X ) = ∑ α ∈ I ( X ) α ⋅ P ( X = α ) = ∑ ω ∈ S X ( ω ) ⋅ Y ( ω ) E(X) = \sum_{\alpha \in I(X)} \alpha \cdot P(X = \alpha) = \sum_{\omega \in S} X(\omega) \cdot Y(\omega) E(X)=α∈I(X)∑α⋅P(X=α)=ω∈S∑X(ω)⋅Y(ω)

其中 I ( X ) I(X) I(X) 表示随机变量 X X X 的值域， S S S 表示 X X X 所在概率空间的样本集合。

性质

全期望公式 ： E ( Y ) = ∑ α ∈ I ( X ) P ( X = α ) ⋅ E ( Y ∣ ( X = α ) ) \displaystyle E(Y)=\sum_{\alpha\in I(X)}P(X=\alpha)\cdot E(Y\mid(X=\alpha)) E(Y)=α∈I(X)∑P(X=α)⋅E(Y∣(X=α))，其中 X , Y X,Y X,Y 是随机变量， E ( Y ∣ A ) E(Y\mid A) E(Y∣A) 是在 A A A 条件成立下 Y Y Y 的期望（即"条件期望"）。可由全概率公式证明。
期望的线性性 ：对于任意两个随机变量 X . Y X.Y X.Y （不要求相互独立 ），有 E ( λ X + μ Y ) = λ E ( X ) + μ E ( Y ) E(\lambda X+\mu Y) = \lambda E(X) + \mu E(Y) E(λX+μY)=λE(X)+μE(Y) 。利用这个性质，可以将一个变量拆分成若干个互相独立的变量，分别求这些变量的期望值，最后相加得到所求变量的值。
乘积的期望 : 当两个随机变量 X , Y X,Y X,Y 相互独立时，有 E ( X Y ) = E ( X ) ⋅ E ( Y ) E(XY) = E(X) \cdot E(Y) E(XY)=E(X)⋅E(Y) 。

期望与概率的转化

对于随机事件 A A A，考虑其示性函数 I A I_A IA：

I A ( ω ) = { 1 , ω ∈ A 0 , ω ∉ A I_A(\omega) = \begin{cases} 1, & \omega \in A \\ 0, & \omega \notin A \end{cases} IA(ω)={1,0,ω∈Aω∈/A

根据定义可以求得其期望 E I A = P ( A ) EI_A = P(A) EIA=P(A)。这一转化在实际应用中非常常见。

条件分布与条件期望

我们之前研究过条件概率，类似的也可以提出所谓条件期望的概念。

定义

对于两个随机变量 X X X, Y Y Y，在已知 Y = y Y = y Y=y 的条件下 X X X 的概率分布（密度函数）称之为 条件概率分布（条件概率密度），分别记作

P ( X = x i ∣ Y = y ) f X ∣ Y ( x ∣ y ) P( X = x_i | Y = y ) \qquad f_{X|Y}(x|y) P(X=xi∣Y=y)fX∣Y(x∣y)

在此条件下， X X X 的期望称为 条件期望 ，记作 E [ X ∣ Y = y ] E[X|Y=y] E[X∣Y=y]。

条件期望的性质

条件期望的诸多性质可由条件概率推知，在此不做赘述。

值得一提的是 E [ X ∣ Y ] E[X | Y] E[X∣Y] 一般是随机变量 Y Y Y 的函数，且这个函数通常不是线性的。但实际上有

E [ E [ X ∣ Y ] ] = E X E[E[X|Y]] = EX E[E[X∣Y]]=EX

上式称作 全期望公式。

常用的套路以及技巧

∑ i = 0 n x i = 1 = x n + 1 1 − x \sum_{i=0}^nx^i=\frac{1=x^{n+1}}{1-x} i=0∑nxi=1−x1=xn+1

当 n → ∞ n \rightarrow \infty n→∞ 时：
∑ i = 0 ∞ x i = 1 1 − x \sum_{i=0}^{\infty}x^i=\frac{1}{1-x} i=0∑∞xi=1−x1

前缀和技巧

对于离散变量， P ( X = K ) = P ( X ≤ K ) − P ( x ≤ k − 1 ) P(X = K) = P(X \leq K ) - P(x \leq k - 1) P(X=K)=P(X≤K)−P(x≤k−1)。

例 1

有 n n n 个随机变量 X 1 , ... , n X_{1,\dots,n} X1,...,n，每个随机变量都是从 [ 1 , S ] \lbrack 1,S \rbrack [1,S] 中随机一个整数，求 max ⁡ ( X 1 , ... , n ) \max(X_{1,\dots,n}) max(X1,...,n) 的期望。
E ( max ⁡ ) = ∑ i = 1 S P ( max ⁡ = i ) ⋅ i = ∑ i = 1 S ( P ( max ⁡ ≤ i ) − P ( max ⁡ ≤ i − 1 ) ) − 1 = ∑ i = 1 S ( i n S n − ( i − 1 ) n S n ) ⋅ i \begin{aligned} E(\max) &= \sum_{i = 1}^S P(\max = i) \cdot i\\ &= \sum_{i=1}^S (P(\max \leq i) - P(\max \leq i - 1)) - 1\\ &= \sum_{i=1}^S \Big(\frac{i^n}{S^n} - \frac{(i-1)^n}{S^n} \Big) \cdot i \end{aligned} E(max)=i=1∑SP(max=i)⋅i=i=1∑S(P(max≤i)−P(max≤i−1))−1=i=1∑S(Snin−Sn(i−1)n)⋅i

例 2

概率为 p p p 的事件期望 1 p \displaystyle\frac{1}{p} p1 次之后发生。

这不是显然吗？
E ( X ) = ∑ i P ( X = i ) i = ∑ i P ( X ≥ i ) − P ( X ≥ i + 1 ) ⋅ i = ∑ i ( ( 1 − p ) i − 1 − ( 1 − p ) i ) ⋯ i = [ ( 1 − p ) 0 − ( 1 − p ) ] + [ ( 1 − p ) − ( 1 − p ) 2 ] + ... = ∑ i = 0 ∞ ( 1 − p ) i = 1 1 − ( 1 − p ) = 1 p \begin{aligned} E(X) &= \sum_i P(X = i) i \\ &= \sum_{i} P(X \ge i) - P(X \ge i + 1) \cdot i\\ &= \sum_{i} ((1 - p)^{i-1} - (1 - p) ^i) \cdots i \\ &= [(1 - p)^0 - (1-p)] + [(1-p)-(1-p)^2] + \dots \\ &= \sum_{i = 0} ^{\infty}(1-p)^i = \frac{1}{1-(1-p)} = \frac{1}{p} \end{aligned} E(X)=i∑P(X=i)i=i∑P(X≥i)−P(X≥i+1)⋅i=i∑((1−p)i−1−(1−p)i)⋯i=[(1−p)0−(1−p)]+[(1−p)−(1−p)2]+...=i=0∑∞(1−p)i=1−(1−p)1=p1

拿球问题

例 1

箱子里有 i i i 个球 1 ... n 1 \dots n 1...n，你要从里面拿 m m m 次球，拿了后不放回，求取出的数字之和的期望。

解：
∑ i = 1 n P ( i ) × i = ∑ i = 1 n m n × i = m n × n × ( n + 1 ) 2 = m × ( n + 1 ) 2 \sum_{i=1}^n P(i) \times i = \sum_{i = 1}^n\frac{m}{n} \times i= \frac{m}{n} \times \frac{n\times (n+1)}{2} = \frac{m \times (n + 1)}{2} i=1∑nP(i)×i=i=1∑nnm×i=nm×2n×(n+1)=2m×(n+1)

例 2

箱子里有 i i i 个球 1 ... n 1 \dots n 1...n，你要从里面拿 m m m 次球，拿了后放回，求取出的数字之和的期望。

解

放不放回概率是一样的，所以：
a n s = m × ( n + 1 ) 2 ans = \frac{m\times (n + 1)}{2} ans=2m×(n+1)

例 3

箱子里有 n n n 个球 1 ... n 1 \dots n 1...n，你要从里边拿 m m m 次球，拿了之后有 1 p 1 \displaystyle\frac{1}{p_1} p11 的概率放回，求取出的球上数字和的期望。

解：

从拿了第一个球和第二个球来看，如果题目中没有要求有概率放回，如果是典例 1 1 1 的那种情况，第一次取得时候每一个球被取中的概率为 1 n \displaystyle\frac{1}{n} n1，第二次取得时候每个球被取中的概率为 1 n − 1 \displaystyle\frac{1}{n-1} n−11。

如果加上限制，分别看两种情况。

看拿了第一个球之后，放回的概率就是 1 p 1 \displaystyle\frac{1}{p_1} p11，这个时候再拿第二个球每个球被取中的概率为 1 p 1 × 1 n = 1 P 1 n \displaystyle\frac{1}{p_1}\times\frac{1}{n}=\frac{1}{P_1n} p11×n1=P1n1。

我们把不放回的概率设为 p 1 − 1 p 1 \displaystyle \frac{p_1-1}{p_1} p1p1−1，如果不放回，取到每一个球的概率就是 n − 1 n × 1 n − 1 \displaystyle\frac{n-1}{n}\times\frac{1}{n-1} nn−1×n−11，前后乘起来就是： p 1 − 1 p 1 n \displaystyle\frac{p_1-1}{p_1n} p1np1−1。

两种情况算期望的时候为 P 1 × i + P 2 × i P_1 \times i + P_2 \times i P1×i+P2×i，会发现合并起来就是 1 n × i \displaystyle\frac{1}{n} \times i n1×i ，和上边的一样，所以选 m m m 次的概率，选中 i i i 的概率还是 m n \displaystyle\frac{m}{n} nm。

a n s = m × n + 1 2 ans = \frac{m \times {n + 1}}{2} ans=2m×n+1

游走问题

例 1

在一条 n n n 个点的链上游走，求从一端走到另一端的概率。
解：

用 X i X_i Xi 表示 i i i 走到 i + 1 i + 1 i+1 期望走多少步。
E ( n ) = ∑ i = 1 n E ( X i ) E ( X i ) = 1 2 + 1 2 × ( 1 + E ( X i − 1 ) + E ( X i ) ) E ( X i ) = 1 2 + 1 2 + 1 2 × E ( X i − 1 ) + 1 2 × E ( X i ) E ( X i ) = E ( X i − 1 ) + 2 E ( n ) = 1 + 3 + 5 + ⋯ + 2 × n − 3 = ( n − 1 ) 3 \begin{aligned} E(n) &= \sum_{i = 1}^n E(X_i) \\ E(X_i) &= \frac{1}{2} + \frac{1}{2} \times \Big(1 + E(X_{i - 1}) +E(X_i)\Big) \\ E(X_i) &= \frac{1}{2} + \frac{1}{2} + \frac{1}{2} \times E(X_{i - 1}) + \frac{1}{2} \times E(X_i) \\ E(X_i) &= E(X_{i - 1}) + 2 \\ E(n) &= 1 + 3 + 5 + \dots + 2 \times n - 3 = (n - 1) ^ 3 \end{aligned} E(n)E(Xi)E(Xi)E(Xi)E(n)=i=1∑nE(Xi)=21+21×(1+E(Xi−1)+E(Xi))=21+21+21×E(Xi−1)+21×E(Xi)=E(Xi−1)+2=1+3+5+⋯+2×n−3=(n−1)3

例 2

在一个 n n n 个点的完全图上游走，求期望走多少步才能走到另一个点。
解：

每个点到其他点的概率都是 1 n − 1 \displaystyle\frac{1}{n - 1} n−11，所以期望就是 n − 1 n - 1 n−1 次成功。

例 3

在一张 2 × n 2 \times n 2×n 个点的完全二分图上游走，求从一个点走到另一个点的概率。
解：

左边等价，右边等价。

两点在同侧： 1 n + n − 1 n × ( 2 + A ) \displaystyle\frac{1}{n} + \frac{n - 1}{n} \times (2 + A) n1+nn−1×(2+A)。
两点在异侧： 1 + A 1 + A 1+A。

例 4

在一张 n n n 个点的菊花图上游走，求一个点走到另一个点的概率。

解：

A.根到叶： 1 n − 1 + n − 2 n − 1 × ( 2 + A ) \displaystyle\frac{1}{n - 1} + \frac{n - 2}{n - 1} \times (2 + A) n−11+n−1n−2×(2+A)。
B.叶到根： 1 1 1。
C.叶到叶： A + 1 A + 1 A+1。

例 5

在一棵 n n n 个点的树上游走，求从根节点走到 x x x 的期望步数。

解：

X i X_i Xi 表示从 i 点游走，走到 f a t h e r i father_i fatheri 的期望步数， d i d_i di 为 i i i 的入度。
f x = 1 d x + 1 d x × ∑ i = 1 d x ( 1 + f s o n x + f x ) f_x = \frac{1}{d_x} + \frac{1}{d_x} \times \sum_{i = 1}^{d_x} (1 + f_{son_x} + f_x) fx=dx1+dx1×i=1∑dx(1+fsonx+fx)

经典问题

例 1

每次随机取一个 [ 1 , n ] [1,n] [1,n] 的整数，问期望多少次能够凑齐所有的数。
解：考虑每次取得时候取中以前没取过的数的概率，显然是 ∑ i = 1 n n − i n \displaystyle\sum_{i=1}^n\frac{n-i}{n} i=1∑nnn−i。

上边那个东西也等于 ∑ i = 1 i n \displaystyle\sum_{i=1}\frac{i}{n} i=1∑ni，期望就是 ∑ i = 1 n i \displaystyle\sum_{i=1}\frac{n}{i} i=1∑in 。

例 2

随机一个长度为 n n n 的排列 p p p，求 P 1 . ... , P i P_1.\dots, P_i P1....,Pi 中的最大值为 P i P_i Pi 的概率。

解：
∑ i = 1 n 1 n \displaystyle \sum_{i = 1}^n \frac{1}{n} i=1∑nn1。

每个前缀中，最大值都有 i i i 个位置可以选，所以是 1 i \displaystyle\frac{1}{i} i1。

例 3

随机一个长度为 n n n 的排列 p p p，求 i i i 在 j j j 后边的概率。

解：
1 2 \displaystyle\frac{1}{2} 21，挺显然的。

例 4

随机一个长度为 n n n 的排列 p p p，求它包含 w i , i ∈ [ 1 , m ] w_{i}, i \in [1,m] wi,i∈[1,m] 为子序列 / 子串的概率。

子序列， ( n m ) × ( n − m ) ! n ! = 1 m ! \left(\begin{array}{c}n\\m\end{array}\right)\displaystyle\times\frac{(n - m)!}{n!}=\frac{1}{m!} (nm)×n!(n−m)!=m!1，把他想想象成很多方块，每个方块都能放一个数，因为是子序列，就从里边选 m m m 个块，放这个子序列，剩下的可以随便放，挺显然的。
子串， ( n − m + 1 ) × ( n − m ) ! n ! = ( n − m + 1 ) ! n ! \displaystyle (n - m + 1) \times \frac{(n - m)!}{n!} = \frac{(n - m + 1)!}{n!} (n−m+1)×n!(n−m)!=n!(n−m+1)!，考虑剩下的 n − m n-m n−m 个数都放好了，有 ( n − m ) ! n ! \displaystyle\frac{(n - m)!}{n!} n!(n−m)! 种方案，然后从 n − m + 1 n - m + 1 n−m+1 个空中任选一个插入长度为 m m m 的子串，就是上边那个式子。