【机器学习前置知识】多项式分布

多项式分布是二项式分布的推广。

在二项分布这篇文章中我们曾以抛硬币举例：在一次抛硬币实验中结果只有两种情况，正面或反面向上；在 n n n 次抛硬币实验中，正面向上出现 k k k 次的有 C n k = n ! k ! ( n − k ) ! C_{n}^k={n!\over{k!(n-k)!}} Cnk=k!(n−k)!n! 种可能，概率表示为：

P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} P(X=k)=(kn)pk(1−p)n−k

其中， k = 0 , 1 , . . . , n , ( n k ) = C n k = n ! k ! ( n − k ) ! k=0,1,...,n \ , \ \binom{n}{k}=C_{n}^k={n!\over{k!(n-k)!}} k=0,1,...,n , (kn)=Cnk=k!(n−k)!n!

如果在一次实验中，可能出现的结果不像硬币那样只有两种情况，比如掷一次骰子就可能出现六种结果。

假设掷了n次骰子，记 X 1 、 X 2 、 . . . 、 X 6 X_1 \ 、X_2 \ 、... 、 X_6 X1 、X2 、...、X6 分别表示每次掷骰子的点数1到6；

记n次中点数1出现的次数为 x 1 x_1 x1，点数为2出现的次数为 x 2 x_2 x2，以此类推，则点数为1到6出现的次数为 x i x_i xi ( i = 1 , 2 , . . . 6 ) (i=1,2,...6) (i=1,2,...6) ，且 x 1 + x 2 + . . . + x 6 = n x_1+x_2+...+x_6=n x1+x2+...+x6=n ；

记n次中点数1出现 x 1 x_1 x1 次的概率为 p i p_i pi ，且 p 1 + p 2 + . . . + p 6 = 1 p_1+p_2+...+p_6=1 p1+p2+...+p6=1 。

在这n次实验中，点数1出现 x 1 x_1 x1 次的情况有 C n x 1 = n ! x 1 ! ( n − x 1 ) ! C_{n}^{x_1}={n!\over{x1!(n-x1)!}} Cnx1=x1!(n−x1)!n! 种可能，然后在这个前提下，点数2出现 x 2 x_2 x2 次会有多少种情况？

因为在n次实验结果中已经有 x 1 x_1 x1 次实验结果是点数1了，所以只能在剩下的未知的 n − x 1 n-x_1 n−x1 次实验中看点数2出现 x 2 x_2 x2 次的情况有多少种，这个很简单，就是 C n − x 1 x 2 = ( n − x 1 ) ! x 2 ! ( n − x 1 − x 2 ) ! C_{n-x_1}^{x_2}={(n-x_1)!\over{x_2!(n-x_1-x_2)!}} Cn−x1x2=x2!(n−x1−x2)!(n−x1)! 个可能情况，根据乘法原理可得在点数1出现 x 1 x_1 x1 次、同时点数2出现 x 2 x_2 x2 次的情况共有：

( n x 1 ) ( n − x 1 x 2 ) = C n x 1 C n − x 1 x 2 = n ! x 1 ! ( n − x 1 ) ! ( n − x 1 ) ! x 2 ! ( n − x 1 − x 2 ) ! = n ! x 1 ! x 2 ! ( n − x 1 − x 2 ) ! \binom{n}{x_1}\binom{n-x_1}{x_2}=C_{n}^{x_1}C_{n-x_1}^{x_2}={n!\over{x_1!(n-x_1)!}}{(n-x_1)!\over{x_2!(n-x_1-x_2)!}}={n!\over{x_1!x_2!(n-x_1-x_2)!}} (x1n)(x2n−x1)=Cnx1Cn−x1x2=x1!(n−x1)!n!x2!(n−x1−x2)!(n−x1)!=x1!x2!(n−x1−x2)!n!

由此可知，在n次实验中点数为1到6出现的次数分别为 x i x_i xi 的情况共有 n ! x 1 ! x 2 ! . . . x 6 ! {n!\over{x_1!x_2!...x_6!}} x1!x2!...x6!n! 种。

概率可表示为：

P ( X 1 = x 1 , X 2 = x 2 , . . . , X 6 = x 6 ) = n ! x 1 ! x 2 ! . . . x 6 ! p 1 x 1 p 2 x 2 . . . p 6 x 6 P(X_1=x_1,X_2=x_2,...,X_6=x_6)={n!\over{x_1!x_2!...x_6!}}p_1^{x_1}p_2^{x_2}...p_6^{x_6} P(X1=x1,X2=x2,...,X6=x6)=x1!x2!...x6!n!p1x1p2x2...p6x6

可以从6种情况推广到 k k k 种，设 n n n 、 k k k 是正整数，并设 p ∈ [ 0 , 1 ] p∈[0,1] p∈[0,1] 。如果随机变量 X X X 满足：

P ( X 1 = x 1 , X 2 = x 2 , . . . , X k = x k ) = n ! x 1 ! x 2 ! . . . x k ! p 1 x 1 p 2 x 2 . . . p k x k = n ! ∏ i = 1 K x i ! ∏ i = 1 K p i x i ( 1 ) P(X_1=x_1,X_2=x_2,...,X_k=x_k)={n!\over{x_1!x_2!...x_k!}}p_1^{x_1}p_2^{x_2}...p_k^{x_k}={n!\over{\prod_{i=1}^{K}x_i!}}\prod_{i=1}^{K}p_i^{x_i} \ \ \ \ \ (1) P(X1=x1,X2=x2,...,Xk=xk)=x1!x2!...xk!n!p1x1p2x2...pkxk=∏i=1Kxi!n!∏i=1Kpixi (1)

且 ∑ 1 k x i = n \sum_1^kx_i=n ∑1kxi=n 、 ∑ 1 k p i = 1 \sum_1^kp_i=1 ∑1kpi=1

那么称 X X X 服从多项式分布 M ( n , p 1 , p 2 , . . . , p k ) M(n,p_1,p_2,...,p_k) M(n,p1,p2,...,pk) ， X X X 的期望 E ( x i ) = n p i E(x_i)=np_i E(xi)=npi ，方差为 D ( x i ) = n p i ( 1 − p i ) D(x_i)=np_i(1-p_i) D(xi)=npi(1−pi) 。

式 ( 1 ) (1) (1) 其实就是多项式分布的概率质量函数。