(概率)波利亚的罐子

文章目录


写在前面

三个多月没更新啦,今天介绍概率中的一个基本模型------波利亚罐子模型。


一、波利亚罐子模型

⭐什么是波利亚罐子模型?

[初步感知]

波利亚罐子模型(Polya's urn scheme)是一种"强化型抽样模型":

  • 设罐子中有 a a a 个白球和 b b b 个黑球;
  • 每次随机取出一个球后,把原来的球放回,再放回 c c c 个同色球与 d d d 个异色球。

为什么说"强化"?因为越多次取到某颜色的球,这个颜色的球就会越多,后续再取到它的概率也会被 "强化"(提高)。

对于这个模型,有几个特殊情况,我们初步感知一下:

  • c > 0 c>0 c>0, d = 0 d=0 d=0:这是一个传染病模型。每次发现一个传染病患者,以后都会增加再传染的概率。
  • c = 0 c=0 c=0, d > 0 d>0 d>0:这是一个安全模型。每当发生事故(比如黑球被取出),放进白球,下次再发生事故的概率会减少;而当没有事故发生时,放进黑球,发生事故的概率会增大。
  • c = d = 0 c=d=0 c=d=0:这是放回抽样
  • c = − 1 c=-1 c=−1, d = 0 d=0 d=0:这是不放回抽样

对于这个模型,我们一般会研究:

  • 如果一共取了 n n n 次球,其中在第 1 ≤ j 1 < j 2 < ⋯ < j k ≤ n 1\le j_1< j_2<\cdots<j_k\le n 1≤j1<j2<⋯<jk≤n 次取球时取到了白球,其他时候均取到黑球,这个事件发生的概率。简单地来说,也就是求"某几次取到指定颜色球"这一事件的概率。

其实,通过研究上面的这个问题,我们还可以解决其它相关的问题:

  • 第 n n n 次拿某种颜色球的概率;
  • 在已知若干次取球情况的条件下,某次取某种颜色球的条件概率。

由于篇幅问题和难度问题 ,这篇文章先暂不考虑 d d d 个异色球的情况(注:当考虑异色球时,概率会与黑球或白球出现的顺序有关),即下面研究的问题中, d = 0 d=0 d=0。

那么,带着这几个问题,我们来一起探究波利亚罐子模型的相关性质。


⭐波利亚罐子模型有什么性质?

[探索性质]

为了方便描述,我们记:

  • 事件 A m A_m Am 表示表示第 m m m 次拿白球, A ‾ m \overline A_m Am 表示第 m m m 次拿黑球;

  • A ~ m ∈ { A m , A ‾ m } \widetilde A_m\in\{A_m,\overline A_m\} A m∈{Am,Am},也就是记号 A ~ m \widetilde A_m A m 表示 A m A_m Am 和 A ‾ m \overline A_m Am 任选其一。

    为啥用这个记号呢?

    因为这个记号可以代表任意的组合,也就是说,如果把每个 { A m , A ‾ m } \{A_m,\overline A_m\} {Am,Am} 都看成一组"基本事件"的话,那么后续的 A ~ 1 A ~ 2 ⋯ A ~ n \widetilde A_1\widetilde A_2\cdots\widetilde A_n A 1A 2⋯A n 就可以表示前 n n n 次取球的任意组合了,每次要么是取白球,要么是取黑球,正好能够对应上"基本事件"。

注意,下面问题中若无特殊说明,均为最初条件,即初始条件与规则,罐子中 a a a 个白球, b b b 个黑球。放回 c c c 个同色球

性质1:"可交换性"

在波利亚罐子模型中,如果在前面若干次取球的过程中,已知了取白球和黑球的次数,那么就可以定出某次取到白球或者黑球的概率了。

如果把"定性"的说法换成"数学语言"的话,也就是说:一共取了 m m m 次球,其中, A ~ 1 , A ~ 2 , ⋯   , A ~ n \widetilde A_1,\widetilde A_2,\cdots, \widetilde A_n A 1,A 2,⋯,A n 这 n n n 个事件中,有 k k k 个事件代表"在第 1 ≤ j 1 < j 2 < ⋯ < j k ≤ n 1\le j_1< j_2<\cdots<j_k\le n 1≤j1<j2<⋯<jk≤n 次取球时取到白球",其他的 ( n − k ) (n-k) (n−k) 个事件,表示"在其他的时候均取到黑球",那么 P ( A ~ 1 A ~ 2 ⋯ A ~ n ) P(\widetilde A_1\widetilde A_2\cdots\widetilde A_n) P(A 1A 2⋯A n) 的值其实仅和 A ~ 1 , A ~ 2 , ⋯ A ~ n \widetilde A_1,\widetilde A_2,\cdots\widetilde A_n A 1,A 2,⋯A n 中取白球的次数有关,而和 { j 1 , j 2 , ⋯   , j n } \{j_1,j_2,\cdots,j_n\} {j1,j2,⋯,jn} 是无关的!

而这个值具体是多少呢?我们有 P ( ⋂ j ∈ { j 1 , j 2 , ⋯   , j k } A j ⋂ i ∉ { j 1 , j 2 , ⋯   , j k } A ‾ i ) = P ( ⋂ j = 1 k A j ⋂ i = k + 1 n A ‾ i ) . P(\bigcap_{j\in\{j_1,j_2,\cdots,j_k\}}A_j\bigcap_{i\notin\{j_1,j_2,\cdots,j_k\}}\overline A_i)=P(\bigcap_{j=1}^k A_j\bigcap_{i=k+1}^n\overline A_i). P(j∈{j1,j2,⋯,jk}⋂Aji∈/{j1,j2,⋯,jk}⋂Ai)=P(j=1⋂kAji=k+1⋂nAi).

  • 具体的"可交换"就体现在下标上。

看起来很神奇,要想解释为什么是这样,我们其实只需要整体考虑

  • 整体看分母: P ( A ~ 1 A ~ 2 ⋯ A ~ n ) P(\widetilde A_1\widetilde A_2\cdots\widetilde A_n) P(A 1A 2⋯A n) 的分母一定是 ( a + b ) ( a + b + c ) ⋯ [ a + b + ( n − 1 ) c ] (a+b)(a+b+c)\cdots[a+b+(n-1)c] (a+b)(a+b+c)⋯[a+b+(n−1)c],因为分母是每次取球的总球数乘积

  • 整体看分子:分子是每次取到对应颜色的球数乘积

    • 第一次取白球时,白球的个数一定是 a a a;
    • 第二次取白球时,白球的个数一定是 a + c a+c a+c;
      ......
    • 第 k k k 次取白球时,白球的个数一定是 a + ( k − 1 ) c a+(k-1)c a+(k−1)c 。
    • 同样,第 ( n − k ) (n-k) (n−k) 次取黑球时,黑球的个数一定是 b + ( n − k − 1 ) c b+(n-k-1)c b+(n−k−1)c 。
    • 因此,分子一定是 a ( a + c ) ⋯ [ a + ( k − 1 ) c ] ⋅ b ( b + c ) ⋯ [ b + ( n − k − 1 ) c ] a(a+c)\cdots[a+(k-1)c]\cdot b(b+c)\cdots[b+(n-k-1)c] a(a+c)⋯[a+(k−1)c]⋅b(b+c)⋯[b+(n−k−1)c]

分子和分母都是"定"的,因此整个概率也就定下来了。


性质2:"比例不变性"

通过可交换性 ,可以证明波利亚罐子模型的另一个重要性质:"比例不变性"(个人觉得也可以算性质1的一个推论,但是由于这个性质很重要,并且也有很多证明方法并不基于性质1,所以单独把它列成一个性质)。

什么意思呢?比方说,罐子中有 a a a 个白球和 b b b 个黑球,那么任意一次取到白球的概率都是 a a + b \dfrac a{a+b} a+ba。也就是说,哪怕前面摸了很多次球,单次摸到某种白球的概率也不会变。第 n n n 次取到白球的概率和第一次取到白球的概率是一样的,即 P ( A n ) = P ( A 1 ) P(A_n)=P(A_1) P(An)=P(A1)。这是这个模型反直觉但很重要的性质之一。

我们可以举个栗子🌰感受一下,比方说:

  • P ( A 3 ) P(A_3) P(A3) 为什么等于 P ( A 1 ) P(A_1) P(A1) ?

我们可以通过把单个事件 A 1 A_1 A1 和 A 3 A_3 A3 都拆分成"互斥事件的并集",再利用上面已经证得的可交换性证明对应项概率相等。 A 1 = A 1 ⋅ ( A 2 ∪ A ‾ 2 ) ⋅ ( A 3 ∪ A ‾ 3 ) = ( A 1 A 2 A 3 ) ∪ ( A 1 A 2 A ‾ 3 ) ∪ ( A 1 A ‾ 2 A 3 ) ∪ ( A 1 A ‾ 2 A ‾ 3 ) \begin{aligned}A_1&=A_1\cdot(A_2\cup\overline A_2)\cdot(A_3\cup\overline A_3)\\&=(A_1A_2A_3)\cup(A_1A_2\overline A_3)\cup(A_1\overline A_2 A_3)\cup(A_1\overline A_2\overline A_3)\end{aligned} A1=A1⋅(A2∪A2)⋅(A3∪A3)=(A1A2A3)∪(A1A2A3)∪(A1A2A3)∪(A1A2A3) 这里" ⋅ \cdot ⋅"是"同时发生",而 A i ∪ A ‾ i A_i\cup\overline A_i Ai∪Ai 表示要么事件 A i A_i Ai 发生,要么事件 A ‾ i \overline A_i Ai 发生,是必然事件。

因此 P ( A 1 ) = P ( A 1 A 2 A 3 ) + P ( A 1 A 2 A ‾ 3 ) + P ( A 1 A ‾ 2 A 3 ) + P ( A 1 A ‾ 2 A ‾ 3 ) P(A_1)=P(A_1A_2A_3)+P(A_1 A_2\overline A_3)+P(A_1\overline A_2 A_3)+P(A_1\overline A_2\overline A_3) P(A1)=P(A1A2A3)+P(A1A2A3)+P(A1A2A3)+P(A1A2A3) 。

同理 P ( A 3 ) = P ( A 1 A 2 A 3 ) + P ( A 1 A ‾ 2 A 3 ) + P ( A ‾ 1 A 2 A 3 ) + P ( A ‾ 1 A ‾ 2 A 3 ) P(A_3)=P(A_1A_2A_3)+P(A_1 \overline A_2A_3)+P(\overline A_1A_2A_3)+P(\overline A_1\overline A_2A_3) P(A3)=P(A1A2A3)+P(A1A2A3)+P(A1A2A3)+P(A1A2A3) 。

根据可交换性 ,可知 P ( A 1 ) P(A_1) P(A1) 和 P ( A 3 ) P(A_3) P(A3) 所拆成的四项对应相等(因为只需要看取出的白球次数与黑球次数,次数相等即可推出概率相等)。

我们再来看一般化的证明:

由 A n = ( A 1 ∪ A ‾ 1 ) ⋅ ( A 2 ∪ A ‾ 2 ) ⋯ ( A n − 1 ∪ A ‾ n − 1 ) ⋅ A n A_n=(A_1\cup\overline A_1)\cdot(A_2\cup\overline A_2)\cdots(A_{n-1}\cup\overline A_{n-1})\cdot A_n An=(A1∪A1)⋅(A2∪A2)⋯(An−1∪An−1)⋅An

可得 P ( A k ) = ∑ A ~ i ∈ { A i , A ‾ i } 1 ≤ i ≤ n − 1 P ( A ~ 1 A ~ 2 ⋯ A ~ n − 1 A n ) . P(A_k)=\sum_{\substack{\widetilde A_i\in\{A_i,\overline A_i\}\\1\le i\le n-1}}P(\widetilde A_1\widetilde A_2\cdots\widetilde A_{n-1}A_n). P(Ak)=A i∈{Ai,Ai}1≤i≤n−1∑P(A 1A 2⋯A n−1An). 注意到 P ( A ‾ 1 A ~ 2 ⋯ A ~ n − 1 A n ) = P ( A 1 A ~ 2 ⋯ A ~ n − 1 A ‾ n ) P(\overline A_1\widetilde A_2\cdots\widetilde A_{n-1}A_n)=P(A_1\widetilde A_2\cdots\widetilde A_{n-1}\overline A_n) P(A1A 2⋯A n−1An)=P(A1A 2⋯A n−1An),[这一步就运用了波利亚罐子模型的可交换性 ]

因此 P ( A n ) = ∑ A ~ i ∈ { A i , A ‾ i } 2 ≤ i ≤ n P ( A 1 A ~ 2 ⋯ A ~ n ) = P ( A 1 ) = a a + b . P(A_n)=\sum_{\substack{\widetilde A_i\in\{A_i,\overline A_i\}\\2\le i\le n}}P(A_1\widetilde A_2\cdots\widetilde A_n)=P(A_1)=\dfrac a{a+b}. P(An)=A i∈{Ai,Ai}2≤i≤n∑P(A1A 2⋯A n)=P(A1)=a+ba.

*这种方法的好处就是中间不需要任何计算,只要运用可交换性就可以推导证明,而且可以一般化(下面再说)。

当然,这种概率还有很多方法可以计算,下面再给出两种方法:

建立递推式

假设取球 n n n 次后有 a n + 1 a_{n+1} an+1 个白球和 b n + 1 b_{n+1} bn+1 个黑球,一共有球 a + b + n c a+b+nc a+b+nc 个,第 n n n 次取到白球的概率为 p n p_n pn,则有 { p n + 1 = a n + 1 a + b + n c a n + 1 = a n + c ⋅ p n . \begin{cases}p_{n+1}=\dfrac{a_{n+1}}{a+b+nc}\\ a_{n+1}=a_n+c\cdot p_n\end{cases}. {pn+1=a+b+ncan+1an+1=an+c⋅pn. [这里的 a n + 1 a_{n+1} an+1和 b n + 1 b_{n+1} bn+1 指的是第 n n n 次操作后,白球和黑球的数学期望。因为取球是随机的,白球和黑球的数目都不确定,所以我们使用数学期望推导概率的。当然,总球数是个确定值,因为每次操作必加 c c c]

因此 p n + 1 ( a + b + n c ) = a n + 1 = a n + c ⋅ p n p_{n+1}(a+b+nc)=a_{n+1}=a_n+c\cdot p_n pn+1(a+b+nc)=an+1=an+c⋅pn,

即 p n + 1 ( a + b + n c ) = p n [ a + b + ( n − 1 ) c ] + c ⋅ p n = p n ( a + b + n c ) p_{n+1}(a+b+nc)=p_n[a+b+(n-1)c]+c\cdot p_n=p_n(a+b+nc) pn+1(a+b+nc)=pn[a+b+(n−1)c]+c⋅pn=pn(a+b+nc)

所以 p n + 1 = p n p_{n+1}=p_n pn+1=pn

所以 p n = p 1 = a a + b p_n=p_1=\dfrac a{a+b} pn=p1=a+ba。

*这个方法不需要用到"拆集合"的方式,但需要注意到 p n + 1 = p n p_{n+1}=p_n pn+1=pn。而且这里建立的 a n a_n an 递推式是"第 n n n 次操作后的白球数期望",可能不太好想,但也不失为一种比较巧妙的方法。

数学归纳法

我们用数学归纳法证明,任何一次取球时,取到白球的概率都是 a a + b \dfrac a{a+b} a+ba 。
n = 2 n=2 n=2 时:

由 P ( A 1 A 2 ) = a ( a + c ) ( a + b ) ( a + b + c ) P(A_1A_2)=\dfrac{a(a+c)}{(a+b)(a+b+c)} P(A1A2)=(a+b)(a+b+c)a(a+c) 和 P ( A ‾ 1 A 2 ) = b a ( a + b ) ( a + b + c ) P(\overline A_1A_2)=\dfrac{ba}{(a+b)(a+b+c)} P(A1A2)=(a+b)(a+b+c)ba,

可得 P ( A 2 ) = P ( A 1 A 2 ) + P ( A ‾ 1 A 2 ) = a ( a + c ) + a b ( a + b ) ( a + b + c ) = a a + b P(A_2)=P(A_1A_2)+P(\overline A_1A_2)=\dfrac{a(a+c)+ab}{(a+b)(a+b+c)}=\dfrac a{a+b} P(A2)=P(A1A2)+P(A1A2)=(a+b)(a+b+c)a(a+c)+ab=a+ba 。

因此 n = 2 n=2 n=2 时结论成立。

假设 n = k n=k n=k 时成立, n = k n=k n=k 时:

要想求出 P ( A k ) P(A_k) P(Ak) 的值,我们需要对它前面的情况进行讨论。

如果第一次取到白球,那么这次操作以后,罐子里就有 a + c a+c a+c 个白球与 b b b 个黑球。从这个罐子中再取 k − 1 k-1 k−1 次球,由归纳假设,就有 P ( A k ∣ A 1 ) = a + c a + b + c P(A_k|A_1)=\dfrac{a+c}{a+b+c} P(Ak∣A1)=a+b+ca+c。

同理,如果第一次取到黑球,那么 P ( A k ∣ A ‾ 1 ) = a a + b + c P(A_k|\overline A_1)=\dfrac a{a+b+c} P(Ak∣A1)=a+b+ca。

由全概率公式,可得 P ( A k ) = P ( A 1 ) P ( A k ∣ A 1 ) + P ( A ‾ 1 ) P ( A k ∣ A ‾ 1 ) = a a + b ⋅ a + c a + b + c + b a + b ⋅ a a + b + c = a a + b P(A_k)=P(A_1)P(A_k|A_1)+P(\overline A_1)P(A_k|\overline A_1)=\dfrac a{a+b}\cdot\dfrac{a+c}{a+b+c}+\dfrac b{a+b}\cdot\dfrac a{a+b+c}=\dfrac a{a+b} P(Ak)=P(A1)P(Ak∣A1)+P(A1)P(Ak∣A1)=a+ba⋅a+b+ca+c+a+bb⋅a+b+ca=a+ba。

故结论对所有正整数 n n n 都成立。

*相对来说,这种方法比较易懂,但也仍需注意到 P ( A n ) = P ( A 1 ) P(A_n)=P(A_1) P(An)=P(A1),才能归纳证明,而这并非易事。

➡️最后:

实际上,通过"比例不变性"的证明,我们已经证出: P ( A n ) = P ( A 1 ) P(A_n)=P(A_1) P(An)=P(A1),也就轻松愉快地解决了"第 n n n 次取某种颜色球的概率"的问题了。


性质3:"状态更新性"

通过这个性质,我们可以解决"条件概率"的问题。

这个"状态更新"是什么意思呢?"状态"当然指的是"取球的状态",也就是说,如果我已经知道了某次取出了白球,那么我后面摸到白球的概率,就会更新为那次摸到白球之后的白球的比例。

我们可以证明:当 1 ≤ k < n 1\le k <n 1≤k<n 时,已知第 k k k 次取到了白球,后续第 n n n 次摸到白球的概率,就会更新为 a + c a + b + c \dfrac{a+c}{a+b+c} a+b+ca+c,也就是 P ( A n ∣ A k ) = a + c a + b + c P(A_n|A_k)=\dfrac{a+c}{a+b+c} P(An∣Ak)=a+b+ca+c。

怎么证?我们基于上面已经得到的性质来证明。

P ( A n ∣ A k ) = P ( A k A n ) P ( A k ) P(A_n|A_k)=\dfrac{P(A_kA_n)}{P(A_k)} P(An∣Ak)=P(Ak)P(AkAn)
P ( A k A n ) = ∑ A ~ i ∈ { A i , A ‾ i } i ≠ k , n P ( A ~ 1 ⋯ A ~ k − 1 A k A ~ k + 1 ⋯ A ~ n − 1 A n ) = ∑ A ~ i ∈ { A i , A ‾ i } i ≠ k , n P ( A 1 A ~ 2 ⋯ A ~ k − 1 A ~ k A ~ k + 1 ⋯ A ~ n − 1 A n ) = P ( A 1 A n ) = P ( A 1 ) ⋅ P ( A n ∣ A 1 ) . \begin{align*}P(A_kA_n)&=\sum_{\substack{\widetilde A_i\in\{A_i,\overline A_i\}\\ i\neq k,n}}P(\widetilde A_1\cdots\widetilde A_{k-1}A_k\widetilde A_{k+1}\cdots\widetilde A_{n-1}A_n)\\&=\sum_{\substack{\widetilde A_i\in\{A_i,\overline A_i\}\\ i\neq k,n}}P(A_1\widetilde A_2\cdots\widetilde A_{k-1}\widetilde A_k\widetilde A_{k+1}\cdots\widetilde A_{n-1}A_n)\\&=P(A_1A_n)=P(A_1)\cdot P(A_n|A_1)\end{align*}. P(AkAn)=A i∈{Ai,Ai}i=k,n∑P(A 1⋯A k−1AkA k+1⋯A n−1An)=A i∈{Ai,Ai}i=k,n∑P(A1A 2⋯A k−1A kA k+1⋯A n−1An)=P(A1An)=P(A1)⋅P(An∣A1). 在事件 A 1 A_1 A1 发生的条件下,白球有 a + c a+c a+c 个,黑球有 b b b 个,因此,由波利亚罐子模型的比例不变性可以知道 P ( A n ∣ A 1 ) = a + c a + b + c P(A_n|A_1)=\dfrac{a+c}{a+b+c} P(An∣A1)=a+b+ca+c。

于是 P ( A n ∣ A k ) = a + c a + b + c P(A_n|A_k)=\dfrac{a+c}{a+b+c} P(An∣Ak)=a+b+ca+c。

我们可以继续一般化这个性质,由一个条件推广到多个条件:

当 1 ≤ j 1 < j 2 < ⋯ < j k 1\le j_1<j_2<\cdots<j_k 1≤j1<j2<⋯<jk 时,已知在 j 1 , j 2 , ⋯   , j k j_1,j_2,\cdots,j_k j1,j2,⋯,jk 这 k k k 次取球中,有 t t t 次取到了白球,有 ( k − t ) (k-t) (k−t) 次取到了黑球,那么条件概率 P ( A n ∣ A j 1 A j 2 ⋯ A j k ) = P ( A n ∣ A 1 ⋯ A t A ‾ t + 1 ⋯ A ‾ k ) = a + t c a + b + k c P(A_n|A_{j_1}A_{j_2}\cdots A_{j_k})=P(A_n|A_1\cdots A_t\overline A_{t+1}\cdots\overline A_k)=\dfrac{a+tc}{a+b+kc} P(An∣Aj1Aj2⋯Ajk)=P(An∣A1⋯AtAt+1⋯Ak)=a+b+kca+tc。

这是因为:

  • 已知 k k k 次取球之后:
    • 白球数量为 a + t c a+tc a+tc;
    • 总球数量为 a + b + k c a+b+kc a+b+kc;
  • 可交换性 ,可知第 n n n 次取球时罐子的状态已经确定,和排列 j 1 , j 2 , ⋯   , j k j_1,j_2,\cdots,j_k j1,j2,⋯,jk 是无关的,因此可以交换下标。
  • 比例不变性 ,可知第 k k k 次状态更新以后,条件概率就是最后一次的白球与总球数之比,也就是 a + t c a + b + k c \dfrac{a+tc}{a+b+kc} a+b+kca+tc 。

这里甚至都不需要限制 j 1 , j 2 , ⋯   , j k j_1,j_2,\cdots,j_k j1,j2,⋯,jk 和 n n n 的大小关系,因为波利亚罐子模型的可交换性是全局 的"位置无关",任意一组取球事件的概率,只取决于"白球总次数"与"黑球总次数"。这点需要强调一下。这听起来很反直觉,我们再举个栗子:

  • 假设要求 P ( A 5 ∣ A 8 ) P(A_5|A_8) P(A5∣A8)。
  • 根据交事件(积事件)的性质,我们知道 P ( A 5 A 8 ) = P ( A 8 A 5 ) P(A_5A_8)=P(A_8A_5) P(A5A8)=P(A8A5),并且由比例不变性 ,可知 P ( A 5 ) = P ( A 8 ) = a a + b P(A_5)=P(A_8)=\dfrac a{a+b} P(A5)=P(A8)=a+ba 。
  • 因此 P ( A 5 ∣ A 8 ) = P ( A 5 A 8 ) P ( A 8 ) = P ( A 8 A 5 ) P ( A 5 ) = P ( A 8 ∣ A 5 ) P(A_5|A_8)=\dfrac{P(A_5A_8)}{P(A_8)}=\dfrac{P(A_8A_5)}{P(A_5)}=P(A_8|A_5) P(A5∣A8)=P(A8)P(A5A8)=P(A5)P(A8A5)=P(A8∣A5)。

咱就是说,是不是很有意思?

更一般地,如果我们有正整数集合 { i 1 , i 2 , ⋯   , i k , j 1 , j 2 , ⋯   , j l } \{i_1,i_2,\cdots,i_k,j_1,j_2,\cdots,j_l\} {i1,i2,⋯,ik,j1,j2,⋯,jl},那么条件概率 P ( A ~ i 1 A ~ i 2 ⋯ A ~ i k ∣ A ~ j 1 A ~ j 2 ⋯ A ~ j l ) = P ( A ~ l + 1 A ~ l + 2 ⋯ A ~ l + k ∣ A ~ 1 A ~ 2 ⋯ A ~ l ) P(\widetilde A_{i_1}\widetilde A_{i_2}\cdots\widetilde A_{i_k}|\widetilde A_{j_1}\widetilde A_{j_2}\cdots\widetilde A_{j_l})=P(\widetilde A_{l+1}\widetilde A_{l+2}\cdots\widetilde A_{l+k}|\widetilde A_1\widetilde A_2\cdots\widetilde A_l) P(A i1A i2⋯A ik∣A j1A j2⋯A jl)=P(A l+1A l+2⋯A l+k∣A 1A 2⋯A l)

比方说, P ( A 9 A ‾ 7 A 12 ∣ A 15 A ‾ 4 ) = P ( A 3 A 4 A ‾ 5 ∣ A 1 A ‾ 2 ) = ( a + c ) ( a + 2 c ) ( b + c ) ( a + b + 2 c ) ( a + b + 3 c ) ( a + b + 4 c ) P(A_9\overline A_7A_{12}|A_{15}\overline A_4)=P(A_3A_4\overline A_5|A_1\overline A_2)=\dfrac{(a+c)(a+2c)(b+c)}{(a+b+2c)(a+b+3c)(a+b+4c)} P(A9A7A12∣A15A4)=P(A3A4A5∣A1A2)=(a+b+2c)(a+b+3c)(a+b+4c)(a+c)(a+2c)(b+c)。

这个式子的推导和前面其实是类似的,这里就不再赘述了。


二、波利亚罐子模型的一般化

[推广加强]

上面,我们已经证明了三个重要性质------"可交换性","比例不变性"和"状态更新性"。

如果我们把双色球的情况改为多色球的情况,其实也是类似的,核心还是可交换性 :条件概率只和"每种颜色的取球次数"有关,和取球位置无关,只是把双色球的白色和黑色扩展到了 m m m种颜色。

这里直接放结论:

  • 盒子里有 m m m 种颜色的球,第 i i i 种颜色的球有 a i a_i ai 个,每次取走一个球后放回 c + 1 c+1 c+1 个同色球;
  • 事件 A p , q A_{p,q} Ap,q 表示第 p p p 次取第 q q q 种颜色的球;
  • 正整数集合 { i 1 , i 2 , ⋯   , i k , j 1 , j 2 , ⋯   , j l } \{i_1,i_2,\cdots,i_k,j_1,j_2,\cdots,j_l\} {i1,i2,⋯,ik,j1,j2,⋯,jl}。

那么条件概率 P ( A i 1 , t 1 A i 2 , t 2 ⋯ A i k , t k ∣ A j 1 , s 1 A j 2 , s 2 ⋯ A j l , s l ) = P ( A l + 1 , t 1 A l + 2 , t 2 ⋯ A l + k , t k ∣ A 1 , s 1 A 2 , s 2 ⋯ A l , s l ) P(A_{i_1,t_1}A_{i_2,t_2}\cdots A_{i_k,t_k}|A_{j_1,s_1}A_{j_2,s_2}\cdots A_{j_l,s_l})=P(A_{l+1,t_1}A_{l+2,t_2}\cdots A_{l+k,t_k}|A_{1,s_1}A_{2,s_2}\cdots A_{l,s_l}) P(Ai1,t1Ai2,t2⋯Aik,tk∣Aj1,s1Aj2,s2⋯Ajl,sl)=P(Al+1,t1Al+2,t2⋯Al+k,tk∣A1,s1A2,s2⋯Al,sl)。


三、小结

在这篇文章中,我们:

  • 认识了什么是波利亚罐子模型:强化型抽样模型;
  • 探究了波利亚罐子模型的三个重要性质:
    • 可交换性:取球序列的概率只由 "各颜色取球次数" 决定,与取球的位置、顺序完全无关。
    • 比例不变性:任意次取某颜色球的概率,始终等于初始时该颜色球的数量占总球数的比例。
    • 状态更新性:已知若干次取球的颜色次数后,后续取球的概率仅由 "当前各颜色的强化后数量" 决定,与已知取球的具体位置无关。
  • 解决了一些有关的常见问题(见文初);
  • 将经典模型(双色球问题)推广至多色球问题。

后话

参考:
苏淳------波利亚罐子模型
非官方解答(112续)------Polya的罐子

感谢大家能读到这里 😃

如有错误,恳请指出。

相关推荐
yuhaiqun19892 小时前
学AI Agent:从React模式到Plan框架,3条路径一次学透
人工智能·经验分享·笔记·react.js·机器学习·ai·aigc
智者知已应修善业2 小时前
【字符串提取3个整数求和】2024-2-11
c语言·c++·经验分享·笔记·算法
进阶的猪2 小时前
stm32 GPIO输出-使用固件库点亮LED灯 Q&A
c语言·笔记·stm32·单片机
阿萨德528号2 小时前
Maven 项目构建笔记 - 单体应用与简单微服务
笔记·微服务·maven
YJlio2 小时前
Strings 学习笔记(12.1):从二进制里“扒”出明文信息的瑞士军刀
服务器·笔记·学习
Hunter1163 小时前
Delphi通过ITHTTP传输有汉字乱码问题
笔记
做cv的小昊3 小时前
【TJU】信息检索与分析课程笔记和练习(3)学术评价
大数据·人工智能·经验分享·笔记·学习·全文检索
兜兜转转了多少年3 小时前
《Prompt Engineering白皮书》笔记08 我用 Gemini 10 分钟写完脚本,100 个文件自动改名
笔记·prompt
重生之我在番茄自学网安拯救世界4 小时前
网络安全中级阶段学习笔记(九):upload靶场实战(14-16关)-图片马制作与通过教学
笔记·学习·网络安全·文件上传漏洞·图片木马