学习笔记:概率期望

概率 & 期望

样本空间、随机事件

定义

一个随机现象中可能发生的不能再细分的结果被称为 样本点 。所有样本点的集合称为 样本空间 ,通常用 Ω \Omega Ω 来表示。

一个 随机事件 是样本空间 Ω \Omega Ω 的子集,它由若干样本点构成,用大写字母 A , B , C , ⋯ A, B, C, \cdots A,B,C,⋯ 表示。

对于一个随机现象的结果 ω \omega ω 和一个随机事件 A A A,我们称事件 A A A 发生了 当且仅当 ω ∈ A \omega \in A ω∈A。

例如,掷一次骰子得到的点数是一个随机现象,其样本空间可以表示为 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega=\{1,2,3,4,5,6\} Ω={1,2,3,4,5,6}。设随机事件 A A A 为「获得的点数大于 4 4 4」,则 A = { 5 , 6 } A = \{ 5, 6 \} A={5,6}。若某次掷骰子得到的点数 ω = 3 \omega = 3 ω=3,由于 ω ∉ A \omega \notin A ω∈/A,故事件 A A A 没有发生。

事件的运算

由于我们将随机事件定义为了样本空间 Ω \Omega Ω 的子集,故我们可以将集合的运算(如和、差、交、并、补等)移植到随机事件上。记号与集合运算保持一致。

特别的,事件的并 A ∪ B A \cup B A∪B 也可记作 A + B A + B A+B,事件的交 A ∩ B A \cap B A∩B 也可记作 A B AB AB,此时也可分别称作 和事件积事件

因为事件在一定程度上是以集合的含义定义的,因此可以把事件当作集合来对待。

和事件 :相当于 并集 。若干个事件中只要其中之一发生,就算发生了它们的和事件。

积事件 :相当于 交集 。若干个事件必须全部发生,才算发生了它们的积事件。

事件域

研究具体的随机现象时我们需要明确哪些事件是我们感兴趣的。根据随机事件的定义,显然有 F ⊂ 2 Ω \mathcal{F} \subset 2^{\Omega} F⊂2Ω(记号 2 Ω 2^{\Omega} 2Ω 表示由 Ω \Omega Ω 的所有子集组成的集合族),但 F = 2 Ω \mathcal{F} = 2^{\Omega} F=2Ω 却不是必须的。这在样本空间 Ω \Omega Ω 有限时可能有些难以理解,毕竟 2 Ω 2^{\Omega} 2Ω 尽管更大了但仍然有限。而当 Ω \Omega Ω 为无穷集时, 2 Ω 2^{\Omega} 2Ω 的势变得更大,其中也难免会出现一些「性质不太好」且我们不关心的事件,这时为了兼顾这些事件而放弃一些性质就显得得不偿失了。

尽管 F = 2 Ω \mathcal{F} = 2^{\Omega} F=2Ω 不是必须的,这并不代表 2 Ω 2^{\Omega} 2Ω 的任一子集都能成为事件域。我们通常会对一些事件进行运算得到的结果事件的概率感兴趣,因此我们希望事件域 F \mathcal{F} F 满足下列条件:

  • ∅ ∈ F \varnothing \in \mathcal{F} ∅∈F;
  • 若 A ∈ F A \in \mathcal{F} A∈F,则补事件 A ˉ ∈ F \bar{A} \in \mathcal{F} Aˉ∈F;
  • 若有一列事件 A n ∈ F , n = 1 , 2 , 3 ... A_n \in \mathcal{F}, n = 1, 2, 3\dots An∈F,n=1,2,3...,则 ⋃ A n ∈ F \bigcup A_n \in \mathcal{F} ⋃An∈F。

简言之,就是事件域 F \mathcal{F} F 对在补运算、和可数并下是封闭的,且包含元素 ∅ \varnothing ∅。

可以证明满足上述三个条件的事件域 F \mathcal{F} F 对可数交也是封闭的。

以掷骰子为例,当样本空间记为 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega=\{1,2,3,4,5,6\} Ω={1,2,3,4,5,6} 时,以下两个集合能够成为事件域:

  • F 1 = { ∅ , Ω } \mathcal{F}_1 = \{ \varnothing, \Omega \} F1={∅,Ω}
  • F 2 = { ∅ , { 1 , 3 , 5 } , { 2 , 4 , 6 } , Ω } \mathcal{F}_2 = \{ \varnothing, \{1, 3, 5\}, \{2, 4, 6\}, \Omega \} F2={∅,{1,3,5},{2,4,6},Ω}

但以下两个集合则不能:

  • F 3 = { ∅ , { 1 } , Ω } \mathcal{F}_3 = \{ \varnothing, \{1\}, \Omega \} F3={∅,{1},Ω}(对补不封闭)
  • F 4 = { { 1 , 3 , 5 } , { 2 , 4 , 6 } } \mathcal{F}_4 = \{ \{1, 3, 5\}, \{2, 4, 6\} \} F4={{1,3,5},{2,4,6}}(不含有 ∅ \varnothing ∅ 且对并不封闭)

概率

引入

假设狗狗 Emissary 在一周内偷卷被 tsqtsqtsq 发现了 10 10 10 次,而它这周总共打了 20 20 20 次,则狗狗 Emissary 在一周内偷卷被 tsqtsqtsq 发现的概率为 1 2 \displaystyle\frac{1}{2} 21,形式化地讲:

令狗狗 Emissary 在偷卷被 tsqtsqtsq 发现为事件 A A A,则易知:
P ( A ) = 10 20 = 1 2 \displaystyle P(A)=\frac{10}{20}=\frac{1}{2} P(A)=2010=21

以此类推,假如狗狗 Emissary 在一个月内打了 100 100 100 次,那么不难估计狗狗 Emissary 在一周内偷卷被 tsqtsqtsq 发现的次数大概为 50 50 50 次。

定义

古典定义

在概率论早期实践中,由于涉及到的随机现象都比较简单,具体表现为样本空间 Ω \Omega Ω 是有限集,且直观上所有样本点是等可能出现的,因此人们便总结出了下述定义:

如果一个随机现象满足:

  • 只有有限个基本结果;
  • 每个基本结果出现的可能性是一样的;

那么对于每个事件 A A A,定义它的概率为

P ( A ) = c a r d ( A ) c a r d ( Ω ) P(A)=\frac{card(A)}{card(\Omega)} P(A)=card(Ω)card(A)

其中 c a r d ( ) card() card() 表示对随机事件(一个集合)大小的度量。

统计定义

如果在一定条件下,进行了 n n n 次试验,事件 A A A 发生了 N ( A ) N(A) N(A) 次,如果随着 n n n 逐渐增大,频率 N A N \displaystyle\frac{N_A}{N} NNA 逐渐稳定在某一数值 p p p 附近,那么数值 p p p 称为事件 A A A 在该条件下发生的概率,记做 P ( A ) = p P(A)=p P(A)=p。

公理化定义

概率函数 P P P 是一个从事件域 F \mathcal{F} F 到闭区间 [ 0 , 1 ] [0, 1] [0,1] 的映射,且满足:

  • 规范性 :事件 Ω \Omega Ω 的概率值为 1 1 1,即 P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1。
  • 可数可加性 :若一列事件 A 1 , A 2 , ⋯ A_1, A_2, \cdots A1,A2,⋯ 两两不交,则 P ( ⋃ i ≥ 1 A i ) = ∑ i ≥ 1 P ( A i ) \displaystyle P\left( \bigcup_{i \geq 1} A_i \right) = \sum_{i \geq 1} P(A_i) P(i≥1⋃Ai)=i≥1∑P(Ai)。

概率函数的性质

对于任意随机事件 A , B ∈ F A, B \in \mathcal{F} A,B∈F,有

  • 单调性 :若 A ⊂ B A \subset B A⊂B,则有 P ( A ) ≤ P ( B ) P(A) \leq P(B) P(A)≤P(B)。
  • 容斥原理 : P ( A + B ) = P ( A ) + P ( B ) − P ( A B ) P(A+B) = P(A) + P(B) - P(AB) P(A+B)=P(A)+P(B)−P(AB)。
  • P ( A − B ) = P ( A ) − P ( A B ) P(A - B) = P(A) - P(AB) P(A−B)=P(A)−P(AB),这里 A − B A - B A−B 表示差集。

条件概率

定义

若已知事件 A A A 发生,在此条件下事件 B B B 发生的概率称为 条件概率 ,记作 P ( B ∣ A ) P(B|A) P(B∣A)。

在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P) 中,若事件 A ∈ F A \in \mathcal{F} A∈F 满足 P ( A ) > 0 P(A) > 0 P(A)>0,则条件概率 P ( B ∣ A ) P(B|A) P(B∣A) 定义为

P ( B ∣ A ) = P ( A B ) P ( A ) ∀ B ∈ F P(B|A) = \frac{P(AB)}{P(A)} \qquad \forall B \in \mathcal{F} P(B∣A)=P(A)P(AB)∀B∈F

可以验证根据上式定义出的 P ( B ∣ A ) P(B|A) P(B∣A) 是 ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F) 上的概率函数。

根据条件概率的定义可以直接推出下面两个等式:

  • 概率乘法公式 :在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P) 中,若 P ( A ) > 0 P(A) > 0 P(A)>0,则对任意事件 B B B 都有

P ( A B ) = P ( A ) P ( B ∣ A ) P(AB) = P(A)P(B|A) P(AB)=P(A)P(B∣A)

  • 全概率公式 :在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) (Ω,F,P) 中,若一组事件 A 1 , ⋯   , A n A_1, \cdots, A_n A1,⋯,An 两两不交且和为 Ω \Omega Ω,则对任意事件 B B B 都有

P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum_{i=1}^{n} P(A_i)P(B|A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)

Bayes 公式

一般来说,设可能导致事件 B B B 发生的原因为 A 1 , A 2 , ⋯   , A n A_1, A_2, \cdots, A_n A1,A2,⋯,An,则在 P ( A i ) P(A_i) P(Ai) 和 P ( B ∣ A i ) P(B|A_i) P(B∣Ai) 已知时可以通过全概率公式计算事件 B B B 发生的概率。但在很多情况下,我们需要根据「事件 B B B 发生」这一结果反推其各个原因事件的发生概率。于是有

P ( A i ∣ B ) = P ( A i B ) P ( B ) = P ( A i ) P ( B ∣ A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) P(A_i|B) = \frac{P(A_iB)}{P(B)} = \frac{P(A_i)P(B|A_i)}{\displaystyle\sum_{j=1}^{n} P(A_j)P(B|A_j)} P(Ai∣B)=P(B)P(AiB)=j=1∑nP(Aj)P(B∣Aj)P(Ai)P(B∣Ai)

上式即 Bayes 公式。

事件的独立性

在研究条件概率的过程中,可能会出现 P ( B ∣ A ) = P ( B ) P(B|A) = P(B) P(B∣A)=P(B) 的情况。从直观上讲就是事件 B B B 是否发生并不会告诉我们关于事件 A A A 的任何信息,即事件 B B B 与事件 A A A「无关」。于是我们就有了下面的定义

定义

若同一概率空间中的事件 A A A, B B B 满足

P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P(AB)=P(A)P(B)

则称 A A A, B B B 独立 。对于多个事件 A 1 , A 2 , ⋯   , A n A_1, A_2, \cdots, A_n A1,A2,⋯,An,我们称其独立,当且仅当对任意一组事件 { A i k : 1 ≤ i 1 < i 2 < ⋯ < i k ≤ n } \{ A_{i_k} : 1 \leq i_1 < i_2 < \cdots < i_k \leq n \} {Aik:1≤i1<i2<⋯<ik≤n} 都有

P ( A i 1 A i 2 ⋯ A i r ) = ∏ k = 1 r P ( A i k ) P( A_{i_1}A_{i_2} \cdots A_{i_r} ) = \prod_{k=1}^{r} P(A_{i_k}) P(Ai1Ai2⋯Air)=k=1∏rP(Aik)

直观地说,我们认为两个东西独立,当它们在某种意义上互不影响。例如,一个人出生的年月日和他的性别,这两件事是独立的;但一个人出生的年月日和他现在的头发总量,这两件事就不是独立的,因为一个人往往年纪越大头发越少。数学中的独立性与这种直观理解大体相似,但不尽相同。

多个事件的独立性

对于多个事件,一般不能从两两独立推出这些事件独立。考虑以下反例:

有一个正四面体骰子,其中三面被分别涂成红色、绿色、蓝色,另一面则三色皆有。现在扔一次该骰子,令事件 A A A, B B B, C C C 分别表示与桌面接触的一面包含红色、绿色、蓝色。

不难计算 P ( A ) = P ( B ) = P ( C ) = 1 2 P(A) = P(B) = P(C) = \displaystyle\frac{1}{2} P(A)=P(B)=P(C)=21,而 P ( A B ) = P ( B C ) = P ( C A ) = P ( A B C ) = 1 4 P(AB) = P(BC) = P(CA) = P(ABC) = \displaystyle\frac{1}{4} P(AB)=P(BC)=P(CA)=P(ABC)=41。

显然 A , B , C A, B, C A,B,C 两两独立,但由于 P ( A B C ) ≠ P ( A ) P ( B ) P ( C ) P(ABC) \neq P(A)P(B)P(C) P(ABC)=P(A)P(B)P(C),故 A , B , C A, B, C A,B,C 不独立。

随机事件的独立性

我们称两个事件 A A A, B B B 独立 ,当 P ( A ∩ B ) = P ( A ) ⋅ P ( B ) P(A \cap B) = P(A) \cdot P(B) P(A∩B)=P(A)⋅P(B)。

我们称若干个事件 A 1 , ... , n A_{1,\dots,n} A1,...,n 互相独立,当对于其中的任何一个子集,该子集中的事件同时发生的概率,等于其中每个事件发生的概率的乘积。形象化的说:

P ( ⋂ E ∈ T E ) = ∏ E ∈ T P ( E ) . ∀ T ⊆ { A 1 , A 2 , ... , A n } P(\bigcap_{E \in T} E) = \prod_{E \in T} P(E). \forall T \subseteq \{A_1,A_2,\dots,A_n\} P(E∈T⋂E)=E∈T∏P(E).∀T⊆{A1,A2,...,An}

由此可见,若干事件 两两独立互相独立 是不同的概念。

随机变量的独立性

一下用 I ( X ) I(X) I(X) 表示随机变量 X X X 的取值范围。即,如果把 X X X 看做一个映射,则 I ( X ) I(X) I(X) 看做它的值域。

我们称两个随机变量 X , Y X,Y X,Y 独立 ,当 P ( ( X = α ) ∩ ( Y = β ) ) = P ( X = α ) P ( Y = β ) P((X = \alpha) \cap (Y = \beta)) = P(X = \alpha) P(Y = \beta) P((X=α)∩(Y=β))=P(X=α)P(Y=β), ∀ ∈ I ( X ) , β ∈ I ( Y ) \forall\in I(X),\beta\in I(Y) ∀∈I(X),β∈I(Y),即 ( X , Y ) (X,Y) (X,Y) 取任意一组值得概率,等于 X X X 和 Y Y Y 分别取对应值得概率的乘积。

我们称若干个随机变量 X 1 , ... , n X_{1,\dots,n} X1,...,n 互相独立 ,当 ( X 1 , X 2 , ... , X n ) (X_1,X_2,\dots,X_n) (X1,X2,...,Xn) 取任意一组值得概率,等于每个 X i X_i Xi 分别取对应值的概率的乘积。形式化的说:

P ( ⋂ i = 1 n X i = F i ) = ∏ i = 1 n P ( X i = F i ) , ∀ F 1 , ... , n s . t . F i ∈ I ( X i ) P\Big(\bigcap_{i = 1}^n X_i = F_i\Big) = \prod_{i = 1}^{n} P(X_i = F_i), \forall F_{1,\dots,n} s.t. F_i \in I(X_i) P(i=1⋂nXi=Fi)=i=1∏nP(Xi=Fi),∀F1,...,ns.t.Fi∈I(Xi)

由此可见,若干随机变量 两两独立互相独立 是不同的概念。

概率的计算

  • 广义加法公式 :对于任意两个事件 A , B A,B A,B 有 P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) \displaystyle P(A \cup B) = P(A) + P(B) - P(A \cap B) P(A∪B)=P(A)+P(B)−P(A∩B)。

  • 条件概率 :记 P ( B ∣ A ) P(B \mid A) P(B∣A) 表示在 A A A 事件发生的前提下, B B B 事件发生的概率。则 P ( B ∣ A ) = P ( A B ) P ( A ) \displaystyle P(B \mid A) = \frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB),其中 P ( A B ) P(AB) P(AB) 为事件 A A A 和事件 B B B 同时发生的概率。

  • 乘法公式 : P ( A B ) = P ( A ) ⋅ P ( B ∣ A ) = P ( B ) ⋅ P ( A ∣ B ) P(AB) = P(A) \cdot P(B \mid A) = P(B) \cdot P(A \mid B) P(AB)=P(A)⋅P(B∣A)=P(B)⋅P(A∣B)。

  • 全概率公式 :若事件 A 1 , A 2 , A 3 . ... , A n A_1,A_2,A_3.\dots,A_n A1,A2,A3....,An 构成一组完备的事件且都有正概率,即 \\forall i,j,A_i \\cap A_j = \\varnothing 且 ∑ i = 1 n A i = 1 \displaystyle \sum_{i = 1}^n A_i = 1 i=1∑nAi=1, 则有 P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) \displaystyle P(B) = \sum_{i=1} ^nP(A_i)P(B \mid A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)。

  • 贝叶斯定理 : P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) \displaystyle P(B_i \mid A) = \frac{P(B_i) P(A \mid B_i)}{\displaystyle \sum_{j = 1}^n P(B_j) P(A \mid B_j)} P(Bi∣A)=j=1∑nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)

随机变量

直观地说,一个随机变量,是一个取值由随机事件决定的变量。

如果基于概率的公理化定义,那么一个随机变量。形式化地说------是一个从样本空间 S S S 到实数集 R \R R(或者 R \R R 的某个子集)的映射 X X X 。如果 X ( A ) = α X(A) = \alpha X(A)=α,你可以直观理解为:当随机实验 E E E 取结果 A A A 时,该随机变量取值 α \alpha α。

由此可以看到,"随机变量 X X X 取值 α \alpha α "(简记为 X = α X = \alpha X=α)也对应着一个能实现该命题的单位事件集合,因此它也是一个事件,于是也有与之对应的概率 P ( X = α ) P(X = \alpha) P(X=α)。

期望

引入

想象一下这样一个场景:狗狗 Emissary 想找 tsqtsqtsqslay,但是 tsqtsqtsq 今天想搞卷,于是他想出了这样个办法:

  • 如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 300 pts,tsqtsqtsq 就会陪它打三小时。
  • 如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 200 pts,tsqtsqtsq 就会陪它打两小时。
  • 如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 100 pts,tsqtsqtsq 就会陪它打一小时。
  • 如果狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 0 pts,tsqtsqtsq 就会陪它打半小时。

因为狗狗 Emissary 很强,所以它不会保龄。

试求 tsqtsqtsq 陪狗狗 Emissaryslay 的期望时长。

我们首先根据条件列出下面这张表格:

分数 时长 概率
( 300 , 400 ] (300,400] (300,400] 3 3 3 小时 1 4 \displaystyle\frac{1}{4} 41
( 200 , 300 ] (200,300] (200,300] 2 2 2 小时 1 4 \displaystyle\frac{1}{4} 41
( 100 , 200 ] (100,200] (100,200] 1 1 1 小时 1 4 \displaystyle\frac{1}{4} 41
( 0 , 100 ] (0,100] (0,100] 0.5 0.5 0.5 小时 1 4 \displaystyle\frac{1}{4} 41

令狗狗 Emissary 在今天的 clg round \texttt{clg round} clg round 中获得大于 300 pts为事件 A A A。以此类推,其余三种事件分别为 B B B, C C C, D D D,不难求出期望时长为:
E ( X ) = 1 4 × 3 + 1 4 × 2 + 1 4 × 1 + 1 4 × 0.5 = 13 8 = 1.625 \displaystyle E(X)=\frac{1}{4}\times 3+\frac{1}{4}\times 2+\frac{1}{4}\times 1+\frac{1}{4}\times 0.5=\frac{13}{8}=1.625 E(X)=41×3+41×2+41×1+41×0.5=813=1.625

所以 tsqtsqtsq 陪狗狗 Emissaryslay 的期望时长为 1.625 1.625 1.625 小时,即 97.5 97.5 97.5 分钟。

大数定律表明,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值,即令第 i i i 次 clg round \texttt{clg round} clg round 后 tsqtsqtsq 陪狗狗 Emissaryslay 的时长为 f i f_i fi,总共有 x x x 次 clg round \texttt{clg round} clg round,则有:
lim ⁡ x → ∞ ∑ i = 1 x f i x = E ( X ) \lim_{x\rightarrow\infty}\frac{\displaystyle\sum_{i=1}^{x}f_i}{x}=E(X) x→∞limxi=1∑xfi=E(X)

所以在打了不知道多少场 clg round \texttt{clg round} clg round 之后 tsqtsqtsq 陪狗狗 Emissaryslay 的时长肯定会趋近于这个期望时长。

定义

如果一个随机变量的取值个数有限(比如一个表示骰子示数的随机变量),或可能的取值可以一一列举出来(比如取值范围为全体正整数),则它称为 离散型随机变量

形式化地说,一个随机变量被称为离散型随机变量,当它的值域大小 有限 或者为 可列无穷大

一个离散性随机变量 X X X 的 数学期望 是其每个取值乘以该取值对应概率的总和,记为 E(X)

E ( X ) = ∑ α ∈ I ( X ) α ⋅ P ( X = α ) = ∑ ω ∈ S X ( ω ) ⋅ Y ( ω ) E(X) = \sum_{\alpha \in I(X)} \alpha \cdot P(X = \alpha) = \sum_{\omega \in S} X(\omega) \cdot Y(\omega) E(X)=α∈I(X)∑α⋅P(X=α)=ω∈S∑X(ω)⋅Y(ω)

其中 I ( X ) I(X) I(X) 表示随机变量 X X X 的值域, S S S 表示 X X X 所在概率空间的样本集合。

性质

  • 全期望公式 : E ( Y ) = ∑ α ∈ I ( X ) P ( X = α ) ⋅ E ( Y ∣ ( X = α ) ) \displaystyle E(Y)=\sum_{\alpha\in I(X)}P(X=\alpha)\cdot E(Y\mid(X=\alpha)) E(Y)=α∈I(X)∑P(X=α)⋅E(Y∣(X=α)),其中 X , Y X,Y X,Y 是随机变量, E ( Y ∣ A ) E(Y\mid A) E(Y∣A) 是在 A A A 条件成立下 Y Y Y 的期望(即"条件期望")。可由全概率公式证明。
  • 期望的线性性 :对于任意两个随机变量 X . Y X.Y X.Y (不要求相互独立 ),有 E ( λ X + μ Y ) = λ E ( X ) + μ E ( Y ) E(\lambda X+\mu Y) = \lambda E(X) + \mu E(Y) E(λX+μY)=λE(X)+μE(Y) 。利用这个性质,可以将一个变量拆分成若干个互相独立的变量,分别求这些变量的期望值,最后相加得到所求变量的值。
  • 乘积的期望 : 当两个随机变量 X , Y X,Y X,Y 相互独立时,有 E ( X Y ) = E ( X ) ⋅ E ( Y ) E(XY) = E(X) \cdot E(Y) E(XY)=E(X)⋅E(Y) 。

期望与概率的转化

对于随机事件 A A A,考虑其示性函数 I A I_A IA:

I A ( ω ) = { 1 , ω ∈ A 0 , ω ∉ A I_A(\omega) = \begin{cases} 1, & \omega \in A \\ 0, & \omega \notin A \end{cases} IA(ω)={1,0,ω∈Aω∈/A

根据定义可以求得其期望 E I A = P ( A ) EI_A = P(A) EIA=P(A)。这一转化在实际应用中非常常见。

条件分布与条件期望

我们之前研究过条件概率,类似的也可以提出所谓条件期望的概念。

定义

对于两个随机变量 X X X, Y Y Y,在已知 Y = y Y = y Y=y 的条件下 X X X 的概率分布(密度函数)称之为 条件概率分布(条件概率密度),分别记作

P ( X = x i ∣ Y = y ) f X ∣ Y ( x ∣ y ) P( X = x_i | Y = y ) \qquad f_{X|Y}(x|y) P(X=xi∣Y=y)fX∣Y(x∣y)

在此条件下, X X X 的期望称为 条件期望 ,记作 E [ X ∣ Y = y ] E[X|Y=y] E[X∣Y=y]。

条件期望的性质

条件期望的诸多性质可由条件概率推知,在此不做赘述。

值得一提的是 E [ X ∣ Y ] E[X | Y] E[X∣Y] 一般是随机变量 Y Y Y 的函数,且这个函数通常不是线性的。但实际上有

E [ E [ X ∣ Y ] ] = E X E[E[X|Y]] = EX E[E[X∣Y]]=EX

上式称作 全期望公式

常用的套路以及技巧

∑ i = 0 n x i = 1 = x n + 1 1 − x \sum_{i=0}^nx^i=\frac{1=x^{n+1}}{1-x} i=0∑nxi=1−x1=xn+1

当 n → ∞ n \rightarrow \infty n→∞ 时:
∑ i = 0 ∞ x i = 1 1 − x \sum_{i=0}^{\infty}x^i=\frac{1}{1-x} i=0∑∞xi=1−x1

前缀和技巧

对于离散变量, P ( X = K ) = P ( X ≤ K ) − P ( x ≤ k − 1 ) P(X = K) = P(X \leq K ) - P(x \leq k - 1) P(X=K)=P(X≤K)−P(x≤k−1)。

例 1

有 n n n 个随机变量 X 1 , ... , n X_{1,\dots,n} X1,...,n,每个随机变量都是从 [ 1 , S ] \lbrack 1,S \rbrack [1,S] 中随机一个整数,求 max ⁡ ( X 1 , ... , n ) \max(X_{1,\dots,n}) max(X1,...,n) 的期望。
E ( max ⁡ ) = ∑ i = 1 S P ( max ⁡ = i ) ⋅ i = ∑ i = 1 S ( P ( max ⁡ ≤ i ) − P ( max ⁡ ≤ i − 1 ) ) − 1 = ∑ i = 1 S ( i n S n − ( i − 1 ) n S n ) ⋅ i \begin{aligned} E(\max) &= \sum_{i = 1}^S P(\max = i) \cdot i\\ &= \sum_{i=1}^S (P(\max \leq i) - P(\max \leq i - 1)) - 1\\ &= \sum_{i=1}^S \Big(\frac{i^n}{S^n} - \frac{(i-1)^n}{S^n} \Big) \cdot i \end{aligned} E(max)=i=1∑SP(max=i)⋅i=i=1∑S(P(max≤i)−P(max≤i−1))−1=i=1∑S(Snin−Sn(i−1)n)⋅i

例 2

概率为 p p p 的事件期望 1 p \displaystyle\frac{1}{p} p1 次之后发生。

这不是显然吗?
E ( X ) = ∑ i P ( X = i ) i = ∑ i P ( X ≥ i ) − P ( X ≥ i + 1 ) ⋅ i = ∑ i ( ( 1 − p ) i − 1 − ( 1 − p ) i ) ⋯ i = [ ( 1 − p ) 0 − ( 1 − p ) ] + [ ( 1 − p ) − ( 1 − p ) 2 ] + ... = ∑ i = 0 ∞ ( 1 − p ) i = 1 1 − ( 1 − p ) = 1 p \begin{aligned} E(X) &= \sum_i P(X = i) i \\ &= \sum_{i} P(X \ge i) - P(X \ge i + 1) \cdot i\\ &= \sum_{i} ((1 - p)^{i-1} - (1 - p) ^i) \cdots i \\ &= [(1 - p)^0 - (1-p)] + [(1-p)-(1-p)^2] + \dots \\ &= \sum_{i = 0} ^{\infty}(1-p)^i = \frac{1}{1-(1-p)} = \frac{1}{p} \end{aligned} E(X)=i∑P(X=i)i=i∑P(X≥i)−P(X≥i+1)⋅i=i∑((1−p)i−1−(1−p)i)⋯i=[(1−p)0−(1−p)]+[(1−p)−(1−p)2]+...=i=0∑∞(1−p)i=1−(1−p)1=p1

拿球问题

例 1

箱子里有 i i i 个球 1 ... n 1 \dots n 1...n,你要从里面拿 m m m 次球,拿了后不放回,求取出的数字之和的期望。


∑ i = 1 n P ( i ) × i = ∑ i = 1 n m n × i = m n × n × ( n + 1 ) 2 = m × ( n + 1 ) 2 \sum_{i=1}^n P(i) \times i = \sum_{i = 1}^n\frac{m}{n} \times i= \frac{m}{n} \times \frac{n\times (n+1)}{2} = \frac{m \times (n + 1)}{2} i=1∑nP(i)×i=i=1∑nnm×i=nm×2n×(n+1)=2m×(n+1)

例 2

箱子里有 i i i 个球 1 ... n 1 \dots n 1...n,你要从里面拿 m m m 次球,拿了后放回,求取出的数字之和的期望。

放不放回概率是一样的,所以:
a n s = m × ( n + 1 ) 2 ans = \frac{m\times (n + 1)}{2} ans=2m×(n+1)

例 3

箱子里有 n n n 个球 1 ... n 1 \dots n 1...n,你要从里边拿 m m m 次球,拿了之后有 1 p 1 \displaystyle\frac{1}{p_1} p11 的概率放回,求取出的球上数字和的期望。

从拿了第一个球和第二个球来看,如果题目中没有要求有概率放回,如果是典例 1 1 1 的那种情况,第一次取得时候每一个球被取中的概率为 1 n \displaystyle\frac{1}{n} n1,第二次取得时候每个球被取中的概率为 1 n − 1 \displaystyle\frac{1}{n-1} n−11。

如果加上限制,分别看两种情况。

看拿了第一个球之后,放回的概率就是 1 p 1 \displaystyle\frac{1}{p_1} p11,这个时候再拿第二个球每个球被取中的概率为 1 p 1 × 1 n = 1 P 1 n \displaystyle\frac{1}{p_1}\times\frac{1}{n}=\frac{1}{P_1n} p11×n1=P1n1。

我们把不放回的概率设为 p 1 − 1 p 1 \displaystyle \frac{p_1-1}{p_1} p1p1−1,如果不放回,取到每一个球的概率就是 n − 1 n × 1 n − 1 \displaystyle\frac{n-1}{n}\times\frac{1}{n-1} nn−1×n−11,前后乘起来就是: p 1 − 1 p 1 n \displaystyle\frac{p_1-1}{p_1n} p1np1−1。

两种情况算期望的时候为 P 1 × i + P 2 × i P_1 \times i + P_2 \times i P1×i+P2×i,会发现合并起来就是 1 n × i \displaystyle\frac{1}{n} \times i n1×i ,和上边的一样,所以选 m m m 次的概率,选中 i i i 的概率还是 m n \displaystyle\frac{m}{n} nm。

a n s = m × n + 1 2 ans = \frac{m \times {n + 1}}{2} ans=2m×n+1

游走问题

例 1

在一条 n n n 个点的链上游走,求从一端走到另一端的概率。
解:

用 X i X_i Xi 表示 i i i 走到 i + 1 i + 1 i+1 期望走多少步。
E ( n ) = ∑ i = 1 n E ( X i ) E ( X i ) = 1 2 + 1 2 × ( 1 + E ( X i − 1 ) + E ( X i ) ) E ( X i ) = 1 2 + 1 2 + 1 2 × E ( X i − 1 ) + 1 2 × E ( X i ) E ( X i ) = E ( X i − 1 ) + 2 E ( n ) = 1 + 3 + 5 + ⋯ + 2 × n − 3 = ( n − 1 ) 3 \begin{aligned} E(n) &= \sum_{i = 1}^n E(X_i) \\ E(X_i) &= \frac{1}{2} + \frac{1}{2} \times \Big(1 + E(X_{i - 1}) +E(X_i)\Big) \\ E(X_i) &= \frac{1}{2} + \frac{1}{2} + \frac{1}{2} \times E(X_{i - 1}) + \frac{1}{2} \times E(X_i) \\ E(X_i) &= E(X_{i - 1}) + 2 \\ E(n) &= 1 + 3 + 5 + \dots + 2 \times n - 3 = (n - 1) ^ 3 \end{aligned} E(n)E(Xi)E(Xi)E(Xi)E(n)=i=1∑nE(Xi)=21+21×(1+E(Xi−1)+E(Xi))=21+21+21×E(Xi−1)+21×E(Xi)=E(Xi−1)+2=1+3+5+⋯+2×n−3=(n−1)3

例 2

在一个 n n n 个点的完全图上游走,求期望走多少步才能走到另一个点。
解:

每个点到其他点的概率都是 1 n − 1 \displaystyle\frac{1}{n - 1} n−11,所以期望就是 n − 1 n - 1 n−1 次成功。

例 3

在一张 2 × n 2 \times n 2×n 个点的完全二分图上游走,求从一个点走到另一个点的概率。
解:

左边等价,右边等价。

  • 两点在同侧: 1 n + n − 1 n × ( 2 + A ) \displaystyle\frac{1}{n} + \frac{n - 1}{n} \times (2 + A) n1+nn−1×(2+A)。
  • 两点在异侧: 1 + A 1 + A 1+A。
例 4

在一张 n n n 个点的菊花图上游走,求一个点走到另一个点的概率。

解:

  • A.根到叶: 1 n − 1 + n − 2 n − 1 × ( 2 + A ) \displaystyle\frac{1}{n - 1} + \frac{n - 2}{n - 1} \times (2 + A) n−11+n−1n−2×(2+A)。
  • B.叶到根: 1 1 1。
  • C.叶到叶: A + 1 A + 1 A+1。
例 5

在一棵 n n n 个点的树上游走,求从根节点走到 x x x 的期望步数。

解:

X i X_i Xi 表示从 i 点游走,走到 f a t h e r i father_i fatheri 的期望步数, d i d_i di 为 i i i 的入度。
f x = 1 d x + 1 d x × ∑ i = 1 d x ( 1 + f s o n x + f x ) f_x = \frac{1}{d_x} + \frac{1}{d_x} \times \sum_{i = 1}^{d_x} (1 + f_{son_x} + f_x) fx=dx1+dx1×i=1∑dx(1+fsonx+fx)

经典问题

例 1

每次随机取一个 [ 1 , n ] [1,n] [1,n] 的整数,问期望多少次能够凑齐所有的数。
解: 考虑每次取得时候取中以前没取过的数的概率,显然是 ∑ i = 1 n n − i n \displaystyle\sum_{i=1}^n\frac{n-i}{n} i=1∑nnn−i。

上边那个东西也等于 ∑ i = 1 i n \displaystyle\sum_{i=1}\frac{i}{n} i=1∑ni,期望就是 ∑ i = 1 n i \displaystyle\sum_{i=1}\frac{n}{i} i=1∑in 。

例 2

随机一个长度为 n n n 的排列 p p p,求 P 1 . ... , P i P_1.\dots, P_i P1....,Pi 中的最大值为 P i P_i Pi 的概率。

解:
∑ i = 1 n 1 n \displaystyle \sum_{i = 1}^n \frac{1}{n} i=1∑nn1。

每个前缀中,最大值都有 i i i 个位置可以选,所以是 1 i \displaystyle\frac{1}{i} i1。

例 3

随机一个长度为 n n n 的排列 p p p,求 i i i 在 j j j 后边的概率。

解:
1 2 \displaystyle\frac{1}{2} 21,挺显然的。

例 4

随机一个长度为 n n n 的排列 p p p,求它包含 w i , i ∈ [ 1 , m ] w_{i}, i \in [1,m] wi,i∈[1,m] 为子序列 / 子串的概率。

  • 子序列, ( n m ) × ( n − m ) ! n ! = 1 m ! \left(\begin{array}{c}n\\m\end{array}\right)\displaystyle\times\frac{(n - m)!}{n!}=\frac{1}{m!} (nm)×n!(n−m)!=m!1,把他想想象成很多方块,每个方块都能放一个数,因为是子序列,就从里边选 m m m 个块,放这个子序列,剩下的可以随便放,挺显然的。
  • 子串, ( n − m + 1 ) × ( n − m ) ! n ! = ( n − m + 1 ) ! n ! \displaystyle (n - m + 1) \times \frac{(n - m)!}{n!} = \frac{(n - m + 1)!}{n!} (n−m+1)×n!(n−m)!=n!(n−m+1)!,考虑剩下的 n − m n-m n−m 个数都放好了,有 ( n − m ) ! n ! \displaystyle\frac{(n - m)!}{n!} n!(n−m)! 种方案,然后从 n − m + 1 n - m + 1 n−m+1 个空中任选一个插入长度为 m m m 的子串,就是上边那个式子。
相关推荐
qiuiuiu4137 小时前
正点原子RK3568学习日志12-注册字符设备
linux·开发语言·单片机·学习·ubuntu
聪明的笨猪猪8 小时前
Java JVM “内存(1)”面试清单(含超通俗生活案例与深度理解)
java·经验分享·笔记·面试
_dindong8 小时前
Linux网络编程:Socket编程TCP
linux·服务器·网络·笔记·学习·tcp/ip
金士顿8 小时前
ethercat网络拓扑详细学习
学习
知识分享小能手9 小时前
uni-app 入门学习教程,从入门到精通,uni-app组件 —— 知识点详解与实战案例(4)
前端·javascript·学习·微信小程序·小程序·前端框架·uni-app
wahkim9 小时前
Flutter 学习资源及视频
学习
摇滚侠9 小时前
Spring Boot 3零基础教程,WEB 开发 Thymeleaf 属性优先级 行内写法 变量选择 笔记42
java·spring boot·笔记
摇滚侠9 小时前
Spring Boot 3零基础教程,WEB 开发 Thymeleaf 总结 热部署 常用配置 笔记44
java·spring boot·笔记
小白要努力sgy10 小时前
待学习--中间件
学习·中间件
rechol10 小时前
汇编与底层编程笔记
汇编·arm开发·笔记