文章目录
写在前面
三个多月没更新啦,今天介绍概率中的一个基本模型------波利亚罐子模型。

一、波利亚罐子模型
⭐什么是波利亚罐子模型?
[初步感知]
波利亚罐子模型(Polya's urn scheme)是一种"强化型抽样模型":
- 设罐子中有 a a a 个白球和 b b b 个黑球;
- 每次随机取出一个球后,把原来的球放回,再放回 c c c 个同色球与 d d d 个异色球。
为什么说"强化"?因为越多次取到某颜色的球,这个颜色的球就会越多,后续再取到它的概率也会被 "强化"(提高)。
对于这个模型,有几个特殊情况,我们初步感知一下:
- c > 0 c>0 c>0, d = 0 d=0 d=0:这是一个传染病模型。每次发现一个传染病患者,以后都会增加再传染的概率。
- c = 0 c=0 c=0, d > 0 d>0 d>0:这是一个安全模型。每当发生事故(比如黑球被取出),放进白球,下次再发生事故的概率会减少;而当没有事故发生时,放进黑球,发生事故的概率会增大。
- c = d = 0 c=d=0 c=d=0:这是放回抽样。
- c = − 1 c=-1 c=−1, d = 0 d=0 d=0:这是不放回抽样。
对于这个模型,我们一般会研究:
- 如果一共取了 n n n 次球,其中在第 1 ≤ j 1 < j 2 < ⋯ < j k ≤ n 1\le j_1< j_2<\cdots<j_k\le n 1≤j1<j2<⋯<jk≤n 次取球时取到了白球,其他时候均取到黑球,这个事件发生的概率。简单地来说,也就是求"某几次取到指定颜色球"这一事件的概率。
其实,通过研究上面的这个问题,我们还可以解决其它相关的问题:
- 第 n n n 次拿某种颜色球的概率;
- 在已知若干次取球情况的条件下,某次取某种颜色球的条件概率。
由于篇幅问题和难度问题 ,这篇文章先暂不考虑 d d d 个异色球的情况(注:当考虑异色球时,概率会与黑球或白球出现的顺序有关),即下面研究的问题中, d = 0 d=0 d=0。
那么,带着这几个问题,我们来一起探究波利亚罐子模型的相关性质。
⭐波利亚罐子模型有什么性质?
[探索性质]
为了方便描述,我们记:
-
事件 A m A_m Am 表示表示第 m m m 次拿白球, A ‾ m \overline A_m Am 表示第 m m m 次拿黑球;
-
A ~ m ∈ { A m , A ‾ m } \widetilde A_m\in\{A_m,\overline A_m\} A m∈{Am,Am},也就是记号 A ~ m \widetilde A_m A m 表示 A m A_m Am 和 A ‾ m \overline A_m Am 任选其一。
为啥用这个记号呢?
因为这个记号可以代表任意的组合,也就是说,如果把每个 { A m , A ‾ m } \{A_m,\overline A_m\} {Am,Am} 都看成一组"基本事件"的话,那么后续的 A ~ 1 A ~ 2 ⋯ A ~ n \widetilde A_1\widetilde A_2\cdots\widetilde A_n A 1A 2⋯A n 就可以表示前 n n n 次取球的任意组合了,每次要么是取白球,要么是取黑球,正好能够对应上"基本事件"。
注意,下面问题中若无特殊说明,均为最初条件,即初始条件与规则,罐子中 a a a 个白球, b b b 个黑球。放回 c c c 个同色球
性质1:"可交换性"
在波利亚罐子模型中,如果在前面若干次取球的过程中,已知了取白球和黑球的次数,那么就可以定出某次取到白球或者黑球的概率了。
如果把"定性"的说法换成"数学语言"的话,也就是说:一共取了 m m m 次球,其中, A ~ 1 , A ~ 2 , ⋯ , A ~ n \widetilde A_1,\widetilde A_2,\cdots, \widetilde A_n A 1,A 2,⋯,A n 这 n n n 个事件中,有 k k k 个事件代表"在第 1 ≤ j 1 < j 2 < ⋯ < j k ≤ n 1\le j_1< j_2<\cdots<j_k\le n 1≤j1<j2<⋯<jk≤n 次取球时取到白球",其他的 ( n − k ) (n-k) (n−k) 个事件,表示"在其他的时候均取到黑球",那么 P ( A ~ 1 A ~ 2 ⋯ A ~ n ) P(\widetilde A_1\widetilde A_2\cdots\widetilde A_n) P(A 1A 2⋯A n) 的值其实仅和 A ~ 1 , A ~ 2 , ⋯ A ~ n \widetilde A_1,\widetilde A_2,\cdots\widetilde A_n A 1,A 2,⋯A n 中取白球的次数有关,而和 { j 1 , j 2 , ⋯ , j n } \{j_1,j_2,\cdots,j_n\} {j1,j2,⋯,jn} 是无关的!
而这个值具体是多少呢?我们有 P ( ⋂ j ∈ { j 1 , j 2 , ⋯ , j k } A j ⋂ i ∉ { j 1 , j 2 , ⋯ , j k } A ‾ i ) = P ( ⋂ j = 1 k A j ⋂ i = k + 1 n A ‾ i ) . P(\bigcap_{j\in\{j_1,j_2,\cdots,j_k\}}A_j\bigcap_{i\notin\{j_1,j_2,\cdots,j_k\}}\overline A_i)=P(\bigcap_{j=1}^k A_j\bigcap_{i=k+1}^n\overline A_i). P(j∈{j1,j2,⋯,jk}⋂Aji∈/{j1,j2,⋯,jk}⋂Ai)=P(j=1⋂kAji=k+1⋂nAi).
- 具体的"可交换"就体现在下标上。
看起来很神奇,要想解释为什么是这样,我们其实只需要整体考虑。
-
整体看分母: P ( A ~ 1 A ~ 2 ⋯ A ~ n ) P(\widetilde A_1\widetilde A_2\cdots\widetilde A_n) P(A 1A 2⋯A n) 的分母一定是 ( a + b ) ( a + b + c ) ⋯ [ a + b + ( n − 1 ) c ] (a+b)(a+b+c)\cdots[a+b+(n-1)c] (a+b)(a+b+c)⋯[a+b+(n−1)c],因为分母是每次取球的总球数乘积。
-
整体看分子:分子是每次取到对应颜色的球数乘积。
- 第一次取白球时,白球的个数一定是 a a a;
- 第二次取白球时,白球的个数一定是 a + c a+c a+c;
...... - 第 k k k 次取白球时,白球的个数一定是 a + ( k − 1 ) c a+(k-1)c a+(k−1)c 。
- 同样,第 ( n − k ) (n-k) (n−k) 次取黑球时,黑球的个数一定是 b + ( n − k − 1 ) c b+(n-k-1)c b+(n−k−1)c 。
- 因此,分子一定是 a ( a + c ) ⋯ [ a + ( k − 1 ) c ] ⋅ b ( b + c ) ⋯ [ b + ( n − k − 1 ) c ] a(a+c)\cdots[a+(k-1)c]\cdot b(b+c)\cdots[b+(n-k-1)c] a(a+c)⋯[a+(k−1)c]⋅b(b+c)⋯[b+(n−k−1)c]
分子和分母都是"定"的,因此整个概率也就定下来了。
性质2:"比例不变性"
通过可交换性 ,可以证明波利亚罐子模型的另一个重要性质:"比例不变性"(个人觉得也可以算性质1的一个推论,但是由于这个性质很重要,并且也有很多证明方法并不基于性质1,所以单独把它列成一个性质)。
什么意思呢?比方说,罐子中有 a a a 个白球和 b b b 个黑球,那么任意一次取到白球的概率都是 a a + b \dfrac a{a+b} a+ba。也就是说,哪怕前面摸了很多次球,单次摸到某种白球的概率也不会变。第 n n n 次取到白球的概率和第一次取到白球的概率是一样的,即 P ( A n ) = P ( A 1 ) P(A_n)=P(A_1) P(An)=P(A1)。这是这个模型反直觉但很重要的性质之一。
我们可以举个栗子🌰感受一下,比方说:
- P ( A 3 ) P(A_3) P(A3) 为什么等于 P ( A 1 ) P(A_1) P(A1) ?
我们可以通过把单个事件 A 1 A_1 A1 和 A 3 A_3 A3 都拆分成"互斥事件的并集",再利用上面已经证得的可交换性证明对应项概率相等。 A 1 = A 1 ⋅ ( A 2 ∪ A ‾ 2 ) ⋅ ( A 3 ∪ A ‾ 3 ) = ( A 1 A 2 A 3 ) ∪ ( A 1 A 2 A ‾ 3 ) ∪ ( A 1 A ‾ 2 A 3 ) ∪ ( A 1 A ‾ 2 A ‾ 3 ) \begin{aligned}A_1&=A_1\cdot(A_2\cup\overline A_2)\cdot(A_3\cup\overline A_3)\\&=(A_1A_2A_3)\cup(A_1A_2\overline A_3)\cup(A_1\overline A_2 A_3)\cup(A_1\overline A_2\overline A_3)\end{aligned} A1=A1⋅(A2∪A2)⋅(A3∪A3)=(A1A2A3)∪(A1A2A3)∪(A1A2A3)∪(A1A2A3) 这里" ⋅ \cdot ⋅"是"同时发生",而 A i ∪ A ‾ i A_i\cup\overline A_i Ai∪Ai 表示要么事件 A i A_i Ai 发生,要么事件 A ‾ i \overline A_i Ai 发生,是必然事件。
因此 P ( A 1 ) = P ( A 1 A 2 A 3 ) + P ( A 1 A 2 A ‾ 3 ) + P ( A 1 A ‾ 2 A 3 ) + P ( A 1 A ‾ 2 A ‾ 3 ) P(A_1)=P(A_1A_2A_3)+P(A_1 A_2\overline A_3)+P(A_1\overline A_2 A_3)+P(A_1\overline A_2\overline A_3) P(A1)=P(A1A2A3)+P(A1A2A3)+P(A1A2A3)+P(A1A2A3) 。
同理 P ( A 3 ) = P ( A 1 A 2 A 3 ) + P ( A 1 A ‾ 2 A 3 ) + P ( A ‾ 1 A 2 A 3 ) + P ( A ‾ 1 A ‾ 2 A 3 ) P(A_3)=P(A_1A_2A_3)+P(A_1 \overline A_2A_3)+P(\overline A_1A_2A_3)+P(\overline A_1\overline A_2A_3) P(A3)=P(A1A2A3)+P(A1A2A3)+P(A1A2A3)+P(A1A2A3) 。
根据可交换性 ,可知 P ( A 1 ) P(A_1) P(A1) 和 P ( A 3 ) P(A_3) P(A3) 所拆成的四项对应相等(因为只需要看取出的白球次数与黑球次数,次数相等即可推出概率相等)。
我们再来看一般化的证明:
由 A n = ( A 1 ∪ A ‾ 1 ) ⋅ ( A 2 ∪ A ‾ 2 ) ⋯ ( A n − 1 ∪ A ‾ n − 1 ) ⋅ A n A_n=(A_1\cup\overline A_1)\cdot(A_2\cup\overline A_2)\cdots(A_{n-1}\cup\overline A_{n-1})\cdot A_n An=(A1∪A1)⋅(A2∪A2)⋯(An−1∪An−1)⋅An
可得 P ( A k ) = ∑ A ~ i ∈ { A i , A ‾ i } 1 ≤ i ≤ n − 1 P ( A ~ 1 A ~ 2 ⋯ A ~ n − 1 A n ) . P(A_k)=\sum_{\substack{\widetilde A_i\in\{A_i,\overline A_i\}\\1\le i\le n-1}}P(\widetilde A_1\widetilde A_2\cdots\widetilde A_{n-1}A_n). P(Ak)=A i∈{Ai,Ai}1≤i≤n−1∑P(A 1A 2⋯A n−1An). 注意到 P ( A ‾ 1 A ~ 2 ⋯ A ~ n − 1 A n ) = P ( A 1 A ~ 2 ⋯ A ~ n − 1 A ‾ n ) P(\overline A_1\widetilde A_2\cdots\widetilde A_{n-1}A_n)=P(A_1\widetilde A_2\cdots\widetilde A_{n-1}\overline A_n) P(A1A 2⋯A n−1An)=P(A1A 2⋯A n−1An),[这一步就运用了波利亚罐子模型的可交换性 ]
因此 P ( A n ) = ∑ A ~ i ∈ { A i , A ‾ i } 2 ≤ i ≤ n P ( A 1 A ~ 2 ⋯ A ~ n ) = P ( A 1 ) = a a + b . P(A_n)=\sum_{\substack{\widetilde A_i\in\{A_i,\overline A_i\}\\2\le i\le n}}P(A_1\widetilde A_2\cdots\widetilde A_n)=P(A_1)=\dfrac a{a+b}. P(An)=A i∈{Ai,Ai}2≤i≤n∑P(A1A 2⋯A n)=P(A1)=a+ba.
*这种方法的好处就是中间不需要任何计算,只要运用可交换性就可以推导证明,而且可以一般化(下面再说)。
当然,这种概率还有很多方法可以计算,下面再给出两种方法:
建立递推式
假设取球 n n n 次后有 a n + 1 a_{n+1} an+1 个白球和 b n + 1 b_{n+1} bn+1 个黑球,一共有球 a + b + n c a+b+nc a+b+nc 个,第 n n n 次取到白球的概率为 p n p_n pn,则有 { p n + 1 = a n + 1 a + b + n c a n + 1 = a n + c ⋅ p n . \begin{cases}p_{n+1}=\dfrac{a_{n+1}}{a+b+nc}\\ a_{n+1}=a_n+c\cdot p_n\end{cases}. {pn+1=a+b+ncan+1an+1=an+c⋅pn. [这里的 a n + 1 a_{n+1} an+1和 b n + 1 b_{n+1} bn+1 指的是第 n n n 次操作后,白球和黑球的数学期望。因为取球是随机的,白球和黑球的数目都不确定,所以我们使用数学期望推导概率的。当然,总球数是个确定值,因为每次操作必加 c c c]
因此 p n + 1 ( a + b + n c ) = a n + 1 = a n + c ⋅ p n p_{n+1}(a+b+nc)=a_{n+1}=a_n+c\cdot p_n pn+1(a+b+nc)=an+1=an+c⋅pn,
即 p n + 1 ( a + b + n c ) = p n [ a + b + ( n − 1 ) c ] + c ⋅ p n = p n ( a + b + n c ) p_{n+1}(a+b+nc)=p_n[a+b+(n-1)c]+c\cdot p_n=p_n(a+b+nc) pn+1(a+b+nc)=pn[a+b+(n−1)c]+c⋅pn=pn(a+b+nc)
所以 p n + 1 = p n p_{n+1}=p_n pn+1=pn
所以 p n = p 1 = a a + b p_n=p_1=\dfrac a{a+b} pn=p1=a+ba。
*这个方法不需要用到"拆集合"的方式,但需要注意到 p n + 1 = p n p_{n+1}=p_n pn+1=pn。而且这里建立的 a n a_n an 递推式是"第 n n n 次操作后的白球数期望",可能不太好想,但也不失为一种比较巧妙的方法。
数学归纳法
我们用数学归纳法证明,任何一次取球时,取到白球的概率都是 a a + b \dfrac a{a+b} a+ba 。
n = 2 n=2 n=2 时:由 P ( A 1 A 2 ) = a ( a + c ) ( a + b ) ( a + b + c ) P(A_1A_2)=\dfrac{a(a+c)}{(a+b)(a+b+c)} P(A1A2)=(a+b)(a+b+c)a(a+c) 和 P ( A ‾ 1 A 2 ) = b a ( a + b ) ( a + b + c ) P(\overline A_1A_2)=\dfrac{ba}{(a+b)(a+b+c)} P(A1A2)=(a+b)(a+b+c)ba,
可得 P ( A 2 ) = P ( A 1 A 2 ) + P ( A ‾ 1 A 2 ) = a ( a + c ) + a b ( a + b ) ( a + b + c ) = a a + b P(A_2)=P(A_1A_2)+P(\overline A_1A_2)=\dfrac{a(a+c)+ab}{(a+b)(a+b+c)}=\dfrac a{a+b} P(A2)=P(A1A2)+P(A1A2)=(a+b)(a+b+c)a(a+c)+ab=a+ba 。
因此 n = 2 n=2 n=2 时结论成立。
假设 n = k n=k n=k 时成立, n = k n=k n=k 时:
要想求出 P ( A k ) P(A_k) P(Ak) 的值,我们需要对它前面的情况进行讨论。
如果第一次取到白球,那么这次操作以后,罐子里就有 a + c a+c a+c 个白球与 b b b 个黑球。从这个罐子中再取 k − 1 k-1 k−1 次球,由归纳假设,就有 P ( A k ∣ A 1 ) = a + c a + b + c P(A_k|A_1)=\dfrac{a+c}{a+b+c} P(Ak∣A1)=a+b+ca+c。
同理,如果第一次取到黑球,那么 P ( A k ∣ A ‾ 1 ) = a a + b + c P(A_k|\overline A_1)=\dfrac a{a+b+c} P(Ak∣A1)=a+b+ca。
由全概率公式,可得 P ( A k ) = P ( A 1 ) P ( A k ∣ A 1 ) + P ( A ‾ 1 ) P ( A k ∣ A ‾ 1 ) = a a + b ⋅ a + c a + b + c + b a + b ⋅ a a + b + c = a a + b P(A_k)=P(A_1)P(A_k|A_1)+P(\overline A_1)P(A_k|\overline A_1)=\dfrac a{a+b}\cdot\dfrac{a+c}{a+b+c}+\dfrac b{a+b}\cdot\dfrac a{a+b+c}=\dfrac a{a+b} P(Ak)=P(A1)P(Ak∣A1)+P(A1)P(Ak∣A1)=a+ba⋅a+b+ca+c+a+bb⋅a+b+ca=a+ba。
故结论对所有正整数 n n n 都成立。
*相对来说,这种方法比较易懂,但也仍需注意到 P ( A n ) = P ( A 1 ) P(A_n)=P(A_1) P(An)=P(A1),才能归纳证明,而这并非易事。
➡️最后:
实际上,通过"比例不变性"的证明,我们已经证出: P ( A n ) = P ( A 1 ) P(A_n)=P(A_1) P(An)=P(A1),也就轻松愉快地解决了"第 n n n 次取某种颜色球的概率"的问题了。
性质3:"状态更新性"
通过这个性质,我们可以解决"条件概率"的问题。
这个"状态更新"是什么意思呢?"状态"当然指的是"取球的状态",也就是说,如果我已经知道了某次取出了白球,那么我后面摸到白球的概率,就会更新为那次摸到白球之后的白球的比例。
我们可以证明:当 1 ≤ k < n 1\le k <n 1≤k<n 时,已知第 k k k 次取到了白球,后续第 n n n 次摸到白球的概率,就会更新为 a + c a + b + c \dfrac{a+c}{a+b+c} a+b+ca+c,也就是 P ( A n ∣ A k ) = a + c a + b + c P(A_n|A_k)=\dfrac{a+c}{a+b+c} P(An∣Ak)=a+b+ca+c。
怎么证?我们基于上面已经得到的性质来证明。
P ( A n ∣ A k ) = P ( A k A n ) P ( A k ) P(A_n|A_k)=\dfrac{P(A_kA_n)}{P(A_k)} P(An∣Ak)=P(Ak)P(AkAn)
P ( A k A n ) = ∑ A ~ i ∈ { A i , A ‾ i } i ≠ k , n P ( A ~ 1 ⋯ A ~ k − 1 A k A ~ k + 1 ⋯ A ~ n − 1 A n ) = ∑ A ~ i ∈ { A i , A ‾ i } i ≠ k , n P ( A 1 A ~ 2 ⋯ A ~ k − 1 A ~ k A ~ k + 1 ⋯ A ~ n − 1 A n ) = P ( A 1 A n ) = P ( A 1 ) ⋅ P ( A n ∣ A 1 ) . \begin{align*}P(A_kA_n)&=\sum_{\substack{\widetilde A_i\in\{A_i,\overline A_i\}\\ i\neq k,n}}P(\widetilde A_1\cdots\widetilde A_{k-1}A_k\widetilde A_{k+1}\cdots\widetilde A_{n-1}A_n)\\&=\sum_{\substack{\widetilde A_i\in\{A_i,\overline A_i\}\\ i\neq k,n}}P(A_1\widetilde A_2\cdots\widetilde A_{k-1}\widetilde A_k\widetilde A_{k+1}\cdots\widetilde A_{n-1}A_n)\\&=P(A_1A_n)=P(A_1)\cdot P(A_n|A_1)\end{align*}. P(AkAn)=A i∈{Ai,Ai}i=k,n∑P(A 1⋯A k−1AkA k+1⋯A n−1An)=A i∈{Ai,Ai}i=k,n∑P(A1A 2⋯A k−1A kA k+1⋯A n−1An)=P(A1An)=P(A1)⋅P(An∣A1). 在事件 A 1 A_1 A1 发生的条件下,白球有 a + c a+c a+c 个,黑球有 b b b 个,因此,由波利亚罐子模型的比例不变性可以知道 P ( A n ∣ A 1 ) = a + c a + b + c P(A_n|A_1)=\dfrac{a+c}{a+b+c} P(An∣A1)=a+b+ca+c。于是 P ( A n ∣ A k ) = a + c a + b + c P(A_n|A_k)=\dfrac{a+c}{a+b+c} P(An∣Ak)=a+b+ca+c。
我们可以继续一般化这个性质,由一个条件推广到多个条件:
当 1 ≤ j 1 < j 2 < ⋯ < j k 1\le j_1<j_2<\cdots<j_k 1≤j1<j2<⋯<jk 时,已知在 j 1 , j 2 , ⋯ , j k j_1,j_2,\cdots,j_k j1,j2,⋯,jk 这 k k k 次取球中,有 t t t 次取到了白球,有 ( k − t ) (k-t) (k−t) 次取到了黑球,那么条件概率 P ( A n ∣ A j 1 A j 2 ⋯ A j k ) = P ( A n ∣ A 1 ⋯ A t A ‾ t + 1 ⋯ A ‾ k ) = a + t c a + b + k c P(A_n|A_{j_1}A_{j_2}\cdots A_{j_k})=P(A_n|A_1\cdots A_t\overline A_{t+1}\cdots\overline A_k)=\dfrac{a+tc}{a+b+kc} P(An∣Aj1Aj2⋯Ajk)=P(An∣A1⋯AtAt+1⋯Ak)=a+b+kca+tc。
这是因为:
- 已知 k k k 次取球之后:
- 白球数量为 a + t c a+tc a+tc;
- 总球数量为 a + b + k c a+b+kc a+b+kc;
- 由可交换性 ,可知第 n n n 次取球时罐子的状态已经确定,和排列 j 1 , j 2 , ⋯ , j k j_1,j_2,\cdots,j_k j1,j2,⋯,jk 是无关的,因此可以交换下标。
- 由比例不变性 ,可知第 k k k 次状态更新以后,条件概率就是最后一次的白球与总球数之比,也就是 a + t c a + b + k c \dfrac{a+tc}{a+b+kc} a+b+kca+tc 。
这里甚至都不需要限制 j 1 , j 2 , ⋯ , j k j_1,j_2,\cdots,j_k j1,j2,⋯,jk 和 n n n 的大小关系,因为波利亚罐子模型的可交换性是全局 的"位置无关",任意一组取球事件的概率,只取决于"白球总次数"与"黑球总次数"。这点需要强调一下。这听起来很反直觉,我们再举个栗子:
- 假设要求 P ( A 5 ∣ A 8 ) P(A_5|A_8) P(A5∣A8)。
- 根据交事件(积事件)的性质,我们知道 P ( A 5 A 8 ) = P ( A 8 A 5 ) P(A_5A_8)=P(A_8A_5) P(A5A8)=P(A8A5),并且由比例不变性 ,可知 P ( A 5 ) = P ( A 8 ) = a a + b P(A_5)=P(A_8)=\dfrac a{a+b} P(A5)=P(A8)=a+ba 。
- 因此 P ( A 5 ∣ A 8 ) = P ( A 5 A 8 ) P ( A 8 ) = P ( A 8 A 5 ) P ( A 5 ) = P ( A 8 ∣ A 5 ) P(A_5|A_8)=\dfrac{P(A_5A_8)}{P(A_8)}=\dfrac{P(A_8A_5)}{P(A_5)}=P(A_8|A_5) P(A5∣A8)=P(A8)P(A5A8)=P(A5)P(A8A5)=P(A8∣A5)。
咱就是说,是不是很有意思?
更一般地,如果我们有正整数集合 { i 1 , i 2 , ⋯ , i k , j 1 , j 2 , ⋯ , j l } \{i_1,i_2,\cdots,i_k,j_1,j_2,\cdots,j_l\} {i1,i2,⋯,ik,j1,j2,⋯,jl},那么条件概率 P ( A ~ i 1 A ~ i 2 ⋯ A ~ i k ∣ A ~ j 1 A ~ j 2 ⋯ A ~ j l ) = P ( A ~ l + 1 A ~ l + 2 ⋯ A ~ l + k ∣ A ~ 1 A ~ 2 ⋯ A ~ l ) P(\widetilde A_{i_1}\widetilde A_{i_2}\cdots\widetilde A_{i_k}|\widetilde A_{j_1}\widetilde A_{j_2}\cdots\widetilde A_{j_l})=P(\widetilde A_{l+1}\widetilde A_{l+2}\cdots\widetilde A_{l+k}|\widetilde A_1\widetilde A_2\cdots\widetilde A_l) P(A i1A i2⋯A ik∣A j1A j2⋯A jl)=P(A l+1A l+2⋯A l+k∣A 1A 2⋯A l)
比方说, P ( A 9 A ‾ 7 A 12 ∣ A 15 A ‾ 4 ) = P ( A 3 A 4 A ‾ 5 ∣ A 1 A ‾ 2 ) = ( a + c ) ( a + 2 c ) ( b + c ) ( a + b + 2 c ) ( a + b + 3 c ) ( a + b + 4 c ) P(A_9\overline A_7A_{12}|A_{15}\overline A_4)=P(A_3A_4\overline A_5|A_1\overline A_2)=\dfrac{(a+c)(a+2c)(b+c)}{(a+b+2c)(a+b+3c)(a+b+4c)} P(A9A7A12∣A15A4)=P(A3A4A5∣A1A2)=(a+b+2c)(a+b+3c)(a+b+4c)(a+c)(a+2c)(b+c)。
这个式子的推导和前面其实是类似的,这里就不再赘述了。
二、波利亚罐子模型的一般化
[推广加强]
上面,我们已经证明了三个重要性质------"可交换性","比例不变性"和"状态更新性"。
如果我们把双色球的情况改为多色球的情况,其实也是类似的,核心还是可交换性 :条件概率只和"每种颜色的取球次数"有关,和取球位置无关,只是把双色球的白色和黑色扩展到了 m m m种颜色。
这里直接放结论:
- 盒子里有 m m m 种颜色的球,第 i i i 种颜色的球有 a i a_i ai 个,每次取走一个球后放回 c + 1 c+1 c+1 个同色球;
- 事件 A p , q A_{p,q} Ap,q 表示第 p p p 次取第 q q q 种颜色的球;
- 正整数集合 { i 1 , i 2 , ⋯ , i k , j 1 , j 2 , ⋯ , j l } \{i_1,i_2,\cdots,i_k,j_1,j_2,\cdots,j_l\} {i1,i2,⋯,ik,j1,j2,⋯,jl}。
那么条件概率 P ( A i 1 , t 1 A i 2 , t 2 ⋯ A i k , t k ∣ A j 1 , s 1 A j 2 , s 2 ⋯ A j l , s l ) = P ( A l + 1 , t 1 A l + 2 , t 2 ⋯ A l + k , t k ∣ A 1 , s 1 A 2 , s 2 ⋯ A l , s l ) P(A_{i_1,t_1}A_{i_2,t_2}\cdots A_{i_k,t_k}|A_{j_1,s_1}A_{j_2,s_2}\cdots A_{j_l,s_l})=P(A_{l+1,t_1}A_{l+2,t_2}\cdots A_{l+k,t_k}|A_{1,s_1}A_{2,s_2}\cdots A_{l,s_l}) P(Ai1,t1Ai2,t2⋯Aik,tk∣Aj1,s1Aj2,s2⋯Ajl,sl)=P(Al+1,t1Al+2,t2⋯Al+k,tk∣A1,s1A2,s2⋯Al,sl)。
三、小结
在这篇文章中,我们:
- 认识了什么是波利亚罐子模型:强化型抽样模型;
- 探究了波利亚罐子模型的三个重要性质:
- 可交换性:取球序列的概率只由 "各颜色取球次数" 决定,与取球的位置、顺序完全无关。
- 比例不变性:任意次取某颜色球的概率,始终等于初始时该颜色球的数量占总球数的比例。
- 状态更新性:已知若干次取球的颜色次数后,后续取球的概率仅由 "当前各颜色的强化后数量" 决定,与已知取球的具体位置无关。
- 解决了一些有关的常见问题(见文初);
- 将经典模型(双色球问题)推广至多色球问题。
后话
参考:
苏淳------波利亚罐子模型
非官方解答(112续)------Polya的罐子
感谢大家能读到这里 😃
如有错误,恳请指出。