我们知道伯努利试验和伯努利分布这两个简单的概念。比如在抛硬币试验中,我们定义抛出正面为成功的事件。因为我们都知道抛出正面的概率为 0.5 0.5 0.5,因此我们可以说 X ∼ B e r n o u l l i ( q = 0.5 ) X \sim Bernoulli(q=0.5) X∼Bernoulli(q=0.5)。然而这个 q q q 事实上真为 0.5 吗?其实并不是,这只是基于频率学派得出的一个观点。用来做试验的硬币可能因为正反面材质不均匀,导致我们抛出正面的概率并非 0.5。 q q q 可能为任何数,只不过对于不同的数有不同的可能性,而 Beta 分布就是来研究这个 q q q 的概率分布的。
B ( α , β ) = ∫ 0 1 x α − 1 ( 1 − x ) β − 1 d x = Γ ( α ) Γ ( β ) Γ ( α + β ) B(α,β) = \int_{0}^{1} x^{α-1} (1-x)^{β-1} dx = \frac{\Gamma(α)\Gamma(β)}{\Gamma(α+β)} B(α,β)=∫01xα−1(1−x)β−1dx=Γ(α+β)Γ(α)Γ(β)
等式最右边利用伽马函数( Γ ( m ) = ( m − 1 ) ! \Gamma(m) = (m-1)! Γ(m)=(m−1)!, m m m 为正整数)改写了形式显得简约美观,具体推导会在后面介绍。
Beta 分布概率密度函数构造
二项分布是在多次伯努利试验基础上得到的成功次数的分布,我们下面从二项分布出发来构造一个 Beta 分布的概率密度函数。设离散型随机变量 X X X 服从参数为 n , q n,q n,q 的二项分布 X ∼ B ( n , q ) X \sim B(n, q) X∼B(n,q),我们可以写出二项分布的概率公式:
P ( X = x ) = ( n x ) q x ( 1 − q ) n − x P(X=x) = \binom{n}{x} q^x (1-q)^{n-x} P(X=x)=(xn)qx(1−q)n−x
期望: E ( X ) = α α + β E(X) = \frac{α}{α+β} E(X)=α+βα
方差: V a r ( X ) = α β ( α + β ) 2 ( α + β + 1 ) Var(X) = \frac{αβ}{(α+β)^2 (α+β+1)} Var(X)=(α+β)2(α+β+1)αβ
概率分布函数: F ( x ) = B ( x ; α , β ) B ( α , β ) F(x) = \frac{B(x; α,β)}{B(α,β)} F(x)=B(α,β)B(x;α,β)
其中, B ( x ; α , β ) B(x; α,β) B(x;α,β) 为不完全 Beta 函数,即把原Beta函数的定积分上限变为变量x(即变上限积分): B ( x ; α , β ) = ∫ 0 x t α − 1 ( 1 − t ) β − 1 d t B(x; α,β) = \int_{0}^{x} t^{α-1} (1-t)^{β-1} dt B(x;α,β)=∫0xtα−1(1−t)β−1dt
利用多次伯努利试验更新 Beta 分布
这里直接说结论了:假设伯努利试验的成功概率 q q q 服从的先验概率分布为 X ∼ B e t a ( α , β ) X \sim Beta(α, β) X∼Beta(α,β),当进行了 n n n 次伯努利试验后,其中出现 k k k 次成功,可以得到 q q q 的后验概率分布服从 X ∼ B e t a ( α + k , β + n − k ) X \sim Beta(α + k, β + n - k) X∼Beta(α+k,β+n−k)。具体的推导可以看文章的4. Beta分布与二项分布的关系,也比较有趣。
我们可以观察一下后验概率分布形式和先验概率分布形式,发现两个参数分别加了 k k k 和 n − k n-k n−k,正好是这 n n n 次伯努利试验中成功的次数和失败的次数。因此我们可以说 Beta 分布中的参数 α , β \alpha,\beta α,β 可以从感觉上理解为伪计数,其中 α − 1 \alpha-1 α−1 类似多次伯努利试验中的成功计数, β − 1 \beta-1 β−1 类似多次伯努利试验中的失败计数。