模式识别-Ch3-贝叶斯估计

贝叶斯估计

贝叶斯估计是概率密度估计中另一类主要的参数估计方法。其结果在很多情况下与最大似然法十分相似,但是,两种方法对问题的处理视角是不一样的。

贝叶斯估计 最大似然估计
将待估计的参数视为一个随机变量,其中的一个核心任务是根据观测数据对参数的分布进行估计。 将待估计的参数当作未知但固定的变量,其任务是根据观测数据估计其在参数空间中的取值
p ( x ∣ D ) ∼ N ( μ n , σ 2 + σ n 2 ) μ n = n σ 0 2 σ 0 2 + σ 2 μ ^ n + σ 2 σ 0 2 + σ 2 μ 0 σ n 2 = σ 0 2 σ 2 n σ 0 2 + σ 2 p(x\vert D)\sim N(\mu_{n},\sigma^{2}+\sigma_{n}^{2})\\\mu_{n}=\frac{n\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}}\hat{\mu}{n}+\frac{\sigma^{2}}{\sigma{0}^{2}+\sigma^{2}}\mu_{0}\\\sigma_{n}^{2}=\frac{\sigma_{0}^{2}\sigma^{2}}{n\sigma_{0}^{2}+\sigma^{2}} p(x∣D)∼N(μn,σ2+σn2)μn=σ02+σ2nσ02μ^n+σ02+σ2σ2μ0σn2=nσ02+σ2σ02σ2 p(x\\vert D)\\sim N(\\hat{\\mu}*{n},\\sigma\^{2})\\\\hat{\\mu}*{n}=\\frac{1}{n}\\sum_{i = 1}\^{n}\\mathbf{x}_{i}\\

上面公式给出的是一维下估计。

基本方法

参数先验分布 p ( θ ) p(\theta) p(θ):是在没有任何数据 时,有关参数 θ \theta θ的分布情况(根据领域知识或经验)

给定样本集 D = { x 1 , x 2 , ⋯   , x n } D = \{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\} D={x1,x2,⋯,xn},数据独立采样,且服从数据分布:(数据是互相独立的)
p ( D ∣ θ ) = p ( x 1 , x 2 , ⋯   , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) p(D|\theta)=p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}n|\theta)=\prod{i = 1}^{n}p(\mathbf{x}_i|\theta) p(D∣θ)=p(x1,x2,⋯,xn∣θ)=i=1∏np(xi∣θ)

利用贝叶斯公式计算参数的后验分布 p ( θ ∣ D ) p(\theta\vert D) p(θ∣D): p ( θ ∣ D ) p(\theta\vert D) p(θ∣D)中融合了先验知识和数据信息。
p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) p ( D ) p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)} p(θ∣D)=p(D)p(D∣θ)p(θ)
p ( D ) p(D) p(D)是与参数无关的归一化因子,根据全概率公式(连续):
p ( D ) = ∑ θ p ( D ∣ θ ) p ( θ ) p ( D ) = ∫ θ p ( D ∣ θ ) p ( θ ) d θ p ( D ∣ θ ) ⇒ p ( x ∣ μ , σ ) = 1 2 π σ exp ⁡ ( − 1 2 ( x − μ ) 2 σ 2 ) p(D)=\sum_{\theta}p(D|\theta)p(\theta)\\ p(D)=\int_{\theta}p(D|\theta)p(\theta)d\theta\\ p(D|\theta)\Rightarrow p(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(x - \mu)^2}{\sigma^2}\right) p(D)=θ∑p(D∣θ)p(θ)p(D)=∫θp(D∣θ)p(θ)dθp(D∣θ)⇒p(x∣μ,σ)=2π σ1exp(−21σ2(x−μ)2)

对于一般情况,计算 p ( D ) p(D) p(D)十分困难

可得贝叶斯参数估计中的后验概率密度函数:
p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) ∫ θ p ( D ∣ θ ) p ( θ ) d θ = ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) ∫ θ ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) d θ = α ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) α = 1 ∫ θ ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) d θ p(\theta|D)=\frac{p(D|\theta)p(\theta)}{\int_{\theta}p(D|\theta)p(\theta)d\theta}=\frac{\prod_{i = 1}^{n}p(\mathbf{x}i|\theta)p(\theta)}{\int{\theta}\prod_{i = 1}^{n}p(\mathbf{x}i|\theta)p(\theta)d\theta}=\alpha\prod{i = 1}^{n}p(\mathbf{x}i|\theta)p(\theta)\\ \alpha=\frac 1{\int{\theta}\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)d\theta} p(θ∣D)=∫θp(D∣θ)p(θ)dθp(D∣θ)p(θ)=∫θ∏i=1np(xi∣θ)p(θ)dθ∏i=1np(xi∣θ)p(θ)=αi=1∏np(xi∣θ)p(θ)α=∫θ∏i=1np(xi∣θ)p(θ)dθ1

Q: 如何使用 p ( θ ∣ D ) p(\theta\vert D) p(θ∣D)获得关于数据的分布?

得到 p ( θ ∣ D ) p(\theta\vert D) p(θ∣D)只是获得了关于参数 θ \theta θ的后验分布,并没有像最大似然估计那样获得参数 θ \theta θ的具体取值。

方法1 方法2 方法3
对 p ( θ ∣ D ) p(\theta\vert D) p(θ∣D)采样,计算平均值 最大后验估计(Maximum A Posteriori estimation, MAP) 后验数据分布(完整的贝叶斯方法)
θ ^ = 1 M ∑ i = 1 M θ i , θ i ∼ p ( θ ∣ D ) , i = 1 , ⋯   , M \hat{\theta}=\frac{1}{M}\sum_{i = 1}^{M}\theta_i,\theta_i\sim p(\theta\vert D),i = 1,\cdots,M θ^=M1∑i=1Mθi,θi∼p(θ∣D),i=1,⋯,M KaTeX parse error: {align} can be used only in display mode. p ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x\vert \mu,\Sigma)=\frac{1}{(2\pi)^{d/2}\vert \Sigma\vert ^{1/2}}\exp\left(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)\right) p(x∣μ,Σ)=(2π)d/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))

PR/ML方法中普遍使用的L2正则,等价于假设参数服从 N ( 0 , I ) N(0,I) N(0,I)

后验数据分布

最终目的:根据 D D D中的样本来估计概率密度函数 p ( x ∣ D ) p(x\vert D) p(x∣D)。

比如,假定观测样本服从正态分布 p ( x ∣ μ , Σ ) p(x\vert \mu,\Sigma) p(x∣μ,Σ),给定 D D D,可以估计得到具体的 μ \mu μ和 Σ \Sigma Σ的取值,代入如下公式可得关于样本的密度分布函数:
p ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x\vert \mu,\Sigma)=\frac{1}{(2\pi)^{d/2}\vert \Sigma\vert ^{1/2}}\exp\left(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)\right) p(x∣μ,Σ)=(2π)d/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))

但现在获得了有关 θ \theta θ的后验估计 p ( θ ∣ D ) p(\theta\vert D) p(θ∣D),如何估计 p ( x ∣ D ) p(x\vert D) p(x∣D)?

考虑全概率公式和边际分布:
p ( x ∣ D ) = ∫ θ p ( x , θ ∣ D ) d θ = ∫ θ p ( x ∣ θ ) p ( θ ∣ D ) d θ \begin{align}p(x\vert D)&=\int_{\theta}p(x,\theta\vert D)d\theta\\ &=\int_{\theta}p(x\vert \theta)p(\theta\vert D)d\theta \end{align} p(x∣D)=∫θp(x,θ∣D)dθ=∫θp(x∣θ)p(θ∣D)dθ

  • p ( x ∣ θ ) = p ( x ∣ θ , D ) p(x\vert \theta)=p(x\vert \theta,D) p(x∣θ)=p(x∣θ,D): 在给定参数 θ \theta θ时,样本分布与训练集 D D D无关
  • ∫ θ p ( x ∣ θ ) p ( θ ∣ D ) d θ \int_{\theta}p(x\vert \theta)p(\theta\vert D)d\theta ∫θp(x∣θ)p(θ∣D)dθ: 不同参数的密度函数的加权平均

积分通常很难计算,使用蒙特卡洛近似方法: 是 M M M个不同参数的密度函数的平均。
p ^ ( x ∣ D ) = 1 M ∑ i = 1 M p ( x ∣ θ i ) , θ i ∼ p ( θ ∣ D ) , i = 1 , ⋯   , M \hat{p}(x\vert D)=\frac{1}{M}\sum_{i = 1}^{M}p(x\vert \theta_i),\theta_i\sim p(\theta\vert D),i = 1,\cdots,M p^(x∣D)=M1i=1∑Mp(x∣θi),θi∼p(θ∣D),i=1,⋯,M

一维情形:假定 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2)且仅 μ \mu μ未知

假定参数 μ \mu μ的先验概率也服从正态分布: μ ∼ N ( μ 0 , σ 0 2 ) \mu\sim N(\mu_0,\sigma_0^2) μ∼N(μ0,σ02)
p ( x ∣ μ ) = N ( μ , σ 2 ) , p ( μ ) = N ( μ 0 , σ 0 2 ) p(x\vert \mu)=N(\mu,\sigma^2),\ p(\mu)=N(\mu_0,\sigma_0^2) p(x∣μ)=N(μ,σ2), p(μ)=N(μ0,σ02)

第一个任务:给定样本集 D D D,在上述条件下,估计关于参数的后验分布 p ( μ ∣ D ) p(\mu\vert D) p(μ∣D)。

回顾我们前面得到的公式:
p ( θ ∣ D ) = ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) ∫ θ ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) d θ = α ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) p(\theta\vert D)=\frac{\prod_{i = 1}^{n}p(\mathbf{x}i\vert \theta)p(\theta)}{\int{\theta}\prod_{i = 1}^{n}p(\mathbf{x}i\vert \theta)p(\theta)d\theta}=\alpha\prod{i = 1}^{n}p(\mathbf{x}_i\vert \theta)p(\theta)\\ p(θ∣D)=∫θ∏i=1np(xi∣θ)p(θ)dθ∏i=1np(xi∣θ)p(θ)=αi=1∏np(xi∣θ)p(θ)

(应用后验估计)
p ( μ ∣ D ) = α ∏ i = 1 n p ( x i ∣ μ ) p ( μ ) = α ∏ i = 1 n 1 2 π σ exp ⁡ ( − 1 2 ( x i − μ ) 2 σ 2 ) 1 2 π σ 0 exp ⁡ ( − 1 2 ( μ − μ 0 ) 2 σ 0 2 ) = α ′ ∏ i = 1 n exp ⁡ { − 1 2 ∑ i = 1 n ( x i − μ ) 2 σ 2 − n 2 ( μ − μ 0 ) 2 σ 0 2 } = α ′ exp ⁡ { − 1 2 [ ( 1 σ 2 + 1 σ 0 2 ) μ 2 − 2 ( 1 σ 2 ∑ i = 1 n x i + μ 0 σ 0 2 ) μ ] } = α ′ ′ exp ⁡ { − 1 2 [ ( σ 0 2 + σ 2 σ 2 σ 0 2 ) μ 2 − 2 ( 1 σ 2 ∑ i = 1 n x i + μ 0 σ 0 2 ) μ ] } \begin{align} p(\mu\vert D)&=\alpha\prod_{i = 1}^{n}p(\mathbf{x}i\vert \mu)p(\mu)\\ &=\alpha\prod{i = 1}^{n}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x}i - \mu)^2}{\sigma^2}\right)\frac{1}{\sqrt{2\pi}\sigma_0}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_0)^2}{\sigma_0^2}\right)\\ &=\alpha'\prod{i = 1}^{n}\exp\left\{-\frac 1 2 \sum^n_{i=1}\frac{(\mathbf{x}i-\mu)^2}{\sigma^2}-\frac n2\frac{(\mu-\mu_0)^2}{\sigma_0^2}\right\}\\ &=\alpha'\exp\left\{-\frac{1}{2}\left[\left(\frac{1}{\sigma^2}+\frac{1}{\sigma_0^2}\right)\mu^2 - 2\left(\frac{1}{\sigma^2}\sum{i = 1}^{n}\mathbf{x}i+\frac{\mu_0}{\sigma_0^2}\right)\mu\right]\right\}\\ &=\alpha''\exp\left\{-\frac{1}{2}\left[\left(\frac{\sigma_0^2+\sigma^2}{\sigma^2\sigma_0^2}\right)\mu^2 - 2\left(\frac{1}{\sigma^2}\sum{i = 1}^{n}\mathbf{x}_i+\frac{\mu_0}{\sigma_0^2}\right)\mu\right]\right\}\end{align} p(μ∣D)=αi=1∏np(xi∣μ)p(μ)=αi=1∏n2π σ1exp(−21σ2(xi−μ)2)2π σ01exp(−21σ02(μ−μ0)2)=α′i=1∏nexp{−21i=1∑nσ2(xi−μ)2−2nσ02(μ−μ0)2}=α′exp{−21[(σ21+σ021)μ2−2(σ21i=1∑nxi+σ02μ0)μ]}=α′′exp{−21[(σ2σ02σ02+σ2)μ2−2(σ21i=1∑nxi+σ02μ0)μ]}

一维后验分布的性质

  • p ( μ ∣ D ) p(\mu\vert D) p(μ∣D)是关于 μ \mu μ的二次函数的 exp \text{exp} exp函数,因此,也是一个正态分布密度函数
  • p ( μ ∣ D ) p(\mu\vert D) p(μ∣D)被称为再生密度(reproducing density),因为对于任意数量的训练样本,当样本数量 n n n增加时, p ( μ ∣ D ) p(\mu\vert D) p(μ∣D)仍然保持正态分布。

由于 p ( μ ∣ D ) p(\mu\vert D) p(μ∣D)是一个正态密度函数,我们可以将其改写为如下形式:
p ( μ ∣ D ) ∼ N ( μ n , σ n 2 ) = 1 2 π σ n 2 exp ⁡ ( − 1 2 ( μ − μ n ) 2 σ n 2 ) p(\mu\vert D)\sim N(\mu_{n},\sigma_{n}^{2})=\frac{1}{\sqrt{2\pi\sigma_{n}^{2}}}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right) p(μ∣D)∼N(μn,σn2)=2πσn2 1exp(−21σn2(μ−μn)2)

同时,我们也得到其公式为
p ( μ ∣ D ) = α ′ exp ⁡ { − 1 2 [ ( n σ 2 + 1 σ 0 2 ) μ 2 − 2 ( 1 σ 2 ∑ i = 1 n x i + μ 0 σ 0 2 ) μ ] } 1 σ n 2 = n σ 2 + 1 σ 0 2 , μ n σ n 2 = n σ 2 μ ˉ n + μ 0 σ 0 2 , μ ˉ n = 1 n ∑ i = 1 n x i p(\mu\vert D)=\alpha^{\prime}\exp\left\{-\frac{1}{2}\left[\left(\frac{n}{\sigma^{2}}+\frac{1}{\sigma_{0}^{2}}\right)\mu^{2}-2\left(\frac{1}{\sigma^{2}}\sum_{i = 1}^{n}\mathbf{x}{i}+\frac{\mu{0}}{\sigma_{0}^{2}}\right)\mu\right]\right\}\\ \frac{1}{\sigma_{n}^{2}}=\frac{n}{\sigma^{2}}+\frac{1}{\sigma_{0}^{2}},\quad\frac{\mu_{n}}{\sigma^2_n}=\frac{n}{\sigma^{2}}\bar{\mu}{n}+\frac{\mu{0}}{\sigma_{0}^{2}},\quad \bar{\mu}{n}=\frac{1}{n}\sum{i = 1}^{n}\mathbf{x}_{i} p(μ∣D)=α′exp{−21[(σ2n+σ021)μ2−2(σ21i=1∑nxi+σ02μ0)μ]}σn21=σ2n+σ021,σn2μn=σ2nμˉn+σ02μ0,μˉn=n1i=1∑nxi

进一步可解得:
μ n = n σ 0 2 n σ 0 2 + σ 2 μ ˉ n + σ 2 n σ 0 2 + σ 2 μ 0 , σ n 2 = σ 2 σ 0 2 n σ 0 2 + σ 2 \mu_{n}=\frac{n\sigma_{0}^{2}}{n\sigma_{0}^{2}+\sigma^{2}}\bar{\mu}{n}+\frac{\sigma^{2}}{n\sigma{0}^{2}+\sigma^{2}}\mu_{0},\quad\sigma_{n}^{2}=\frac{\sigma^{2}\sigma_{0}^{2}}{n\sigma_{0}^{2}+\sigma^{2}} μn=nσ02+σ2nσ02μˉn+nσ02+σ2σ2μ0,σn2=nσ02+σ2σ2σ02

这些方程展示了先验信息如何与样本中的经验信息相结合以获得后验密度 p ( μ ∣ D ) p(\mu\vert D) p(μ∣D)。

  • μ n \mu_{n} μn:代表在获得 n n n个样本后对 μ \mu μ的最佳猜测。
  • σ n 2 \sigma_{n}^{2} σn2:衡量对 μ \mu μ猜测的不确定性。
  • 因为 σ n 2 \sigma_{n}^{2} σn2随 n n n单调递减,每增加一个观测值都将有助于减少我们对 μ \mu μ真实值的不确定性。(这种先验起到了平滑的效果,导致了更加鲁棒的估计)

后验分布的变化趋势 :因为 ( σ n ) 2 (\sigma_{n})^{2} (σn)2随 n n n单调递减,每增加一个观测值都将有助于减少我们对 μ \mu μ真实值的不确定性。随着 n n n的增加, p ( μ ∣ D ) p(\mu\vert D) p(μ∣D)变得越来越尖锐,当 n n n趋于无穷大时,趋近于狄拉克δ函数(Dirac delta function)。

现在,我们希望获得后验数据分布 :
p ( x ∣ D ) = ∫ μ p ( x ∣ μ ) p ( μ ∣ D ) d μ = ∫ μ 1 2 π σ exp ⁡ ( − 1 2 ( x − μ ) 2 σ 2 ) 1 2 π σ n exp ⁡ ( − 1 2 ( μ − μ n ) 2 σ n 2 ) d μ = 1 2 π σ σ n ∫ μ exp ⁡ ( − 1 2 [ ( x − μ ) 2 σ 2 + ( μ − μ n ) 2 σ n 2 ] ) d μ = ∫ μ 1 2 π σ exp ⁡ ( − 1 2 ( x − μ n ) 2 σ 2 + σ n 2 ) f ( σ , σ n ) f ( σ , σ n ) = ∫ μ 1 2 π σ exp ⁡ ( − 1 2 σ 2 + σ n 2 σ 2 σ n 2 ( μ − σ 2 x + σ n 2 μ n σ 2 + σ n 2 ) 2 ) d μ \begin{align} p(\mathbf{x}\vert D)&=\int_{\mu}p(\mathbf{x}\vert \mu)p(\mu\vert D)d\mu\\ &=\int_{\mu}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x} - \mu)^{2}}{\sigma^{2}}\right)\frac{1}{\sqrt{2\pi}\sigma_{n}}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right)d\mu\\ &=\frac{1}{{2\pi}\sigma\sigma_{n}}\int_{\mu}\exp\left(-\frac{1}{2}\left[\frac{(\mathbf{x} - \mu)^{2}}{\sigma^{2}}+\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right]\right)d\mu\\ &=\int_{\mu}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x} - \mu_{n})^{2}}{\sigma^{2}+\sigma_{n}^{2}}\right)f(\sigma,\sigma_n)\\ f(\sigma,\sigma_{n})&=\int_{\mu} \frac{1}{\sqrt{2\pi\sigma}} \exp \left( - \frac{1}{2} \frac{\sigma^2 + \sigma_n^2}{\sigma^2 \sigma_n^2} \left( \mu - \frac{\sigma^2 \mathbf{x} + \sigma_n^2 \mu_n}{\sigma^2 + \sigma_n^2} \right)^2 \right) d\mu \end{align} p(x∣D)f(σ,σn)=∫μp(x∣μ)p(μ∣D)dμ=∫μ2π σ1exp(−21σ2(x−μ)2)2π σn1exp(−21σn2(μ−μn)2)dμ=2πσσn1∫μexp(−21[σ2(x−μ)2+σn2(μ−μn)2])dμ=∫μ2π σ1exp(−21σ2+σn2(x−μn)2)f(σ,σn)=∫μ2πσ 1exp(−21σ2σn2σ2+σn2(μ−σ2+σn2σ2x+σn2μn)2)dμ

可以将 p ( x ∣ D ) p(\mathbf{x}\vert D) p(x∣D)视为服从正态分布 N ( μ n , σ 2 + σ n 2 ) N(\mu_n,\sigma^2+\sigma^2_n) N(μn,σ2+σn2)

多元情形:高维

已知条件是:
p ( x ∣ μ ) ∼ N ( μ , Σ ) , p ( μ ) ∼ N ( μ 0 , Σ 0 ) p ( θ ∣ D ) = α ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) = α ′ exp ⁡ { − 1 2 μ T ( n Σ − 1 + Σ 0 − 1 ) μ − 2 μ T ( Σ − 1 ∑ i = 1 n x i + Σ 0 − 1 μ 0 ) } = α ′ ′ exp ⁡ { − 1 2 ( μ − μ n ) T Σ n − 1 ( μ − μ n ) } \begin{align}p(\mathbf x\vert \mathbf \mu)&\sim N(\mathbf \mu,\Sigma),p(\mu)\sim N(\mu_{0},\Sigma_{0})\\ p(\theta\vert D)&=\alpha\prod_{i = 1}^{n}p(\mathbf x_{i}\vert \theta)p(\theta)\\ &=\alpha^{\prime}\exp\left\{-\frac{1}{2}\mu^{T}(n\Sigma^{- 1}+\Sigma_{0}^{-1})\mu - 2\mu^{T}(\Sigma^{-1}\sum_{i = 1}^{n}\mathbf x_{i}+\Sigma_{0}^{-1}\mu_{0})\right\}\\ &=\alpha^{\prime\prime}\exp\left\{-\frac{1}{2}(\mu - \mu_{n})^{T}\Sigma_{n}^{-1}(\mu - \mu_{n})\right\}\end{align} p(x∣μ)p(θ∣D)∼N(μ,Σ),p(μ)∼N(μ0,Σ0)=αi=1∏np(xi∣θ)p(θ)=α′exp{−21μT(nΣ−1+Σ0−1)μ−2μT(Σ−1i=1∑nxi+Σ0−1μ0)}=α′′exp{−21(μ−μn)TΣn−1(μ−μn)}

参照上面一维的情况,可以推出:
p ( θ ∣ D ) = α ′ ′ exp ⁡ { − 1 2 ( μ − μ n ) T Σ n − 1 ( μ − μ n ) } ⇒ p ( θ ∣ D ) ∼ N ( μ n , Σ n ) ⇒ Σ n − 1 = n Σ − 1 + Σ 0 − 1 , Σ n − 1 μ n = n Σ − 1 μ ^ n + Σ 0 − 1 μ 0 , μ ^ n = 1 n ∑ i = 1 n x i μ n = Σ 0 ( Σ 0 + n − 1 Σ ) − 1 μ ^ n + ( Σ 0 + n − 1 Σ ) − 1 Σ 0 μ 0 Σ n = Σ 0 ( Σ 0 + n − 1 Σ ) − 1 1 n Σ \begin{align} p(\theta\vert D)&=\alpha^{\prime\prime}\exp\left\{-\frac{1}{2}(\mu - \mu_{n})^{T}\Sigma_{n}^{-1}(\mu - \mu_{n})\right\}\Rightarrow p(\theta\vert D)\sim N(\mu_{n},\Sigma_{n})\\ \Rightarrow\Sigma_{n}^{-1}&=n\Sigma^{-1}+\Sigma_{0}^{-1},\quad \Sigma_{n}^{-1}\mu_{n}=n\Sigma^{-1}\hat{\mu}{n}+\Sigma{0}^{-1}\mu_{0},\quad \hat{\mu}{n}=\frac{1}{n}\sum{i = 1}^{n}\mathbf x_{i}\\ \mu_{n}&=\Sigma_{0}(\Sigma_{0}+n^{-1}\Sigma)^{-1}\hat{\mu}{n}+(\Sigma{0}+n^{-1}\Sigma)^{-1}\Sigma_{0}\mu_{0}\\ \Sigma_{n}&=\Sigma_{0}(\Sigma_{0}+n^{-1}\Sigma)^{-1}\frac{1}{n}\Sigma \end{align} p(θ∣D)⇒Σn−1μnΣn=α′′exp{−21(μ−μn)TΣn−1(μ−μn)}⇒p(θ∣D)∼N(μn,Σn)=nΣ−1+Σ0−1,Σn−1μn=nΣ−1μ^n+Σ0−1μ0,μ^n=n1i=1∑nxi=Σ0(Σ0+n−1Σ)−1μ^n+(Σ0+n−1Σ)−1Σ0μ0=Σ0(Σ0+n−1Σ)−1n1Σ

( A − 1 + B − 1 ) − 1 = A ( A + B ) − 1 B = B ( A + B ) − 1 A (A^{-1}+B^{-1})^{-1}=A(A+B)^{-1}B=B(A+B)^{-1}A (A−1+B−1)−1=A(A+B)−1B=B(A+B)−1A

数据后验分布服从正态分布:
p ( x ∣ D ) = ∫ μ p ( x ∣ μ ) p ( μ ∣ D ) d μ ∼ N ( μ n , Σ + Σ n ) p(\mathbf x\vert D)=\int_{\mu}p(\mathbf x\vert \mu)p(\mu\vert D)d\mu\sim N(\mu_{n},\Sigma+\Sigma_{n}) p(x∣D)=∫μp(x∣μ)p(μ∣D)dμ∼N(μn,Σ+Σn)

相关推荐
阿坡RPA11 小时前
手搓MCP客户端&服务端:从零到实战极速了解MCP是什么?
人工智能·aigc
用户277844910499311 小时前
借助DeepSeek智能生成测试用例:从提示词到Excel表格的全流程实践
人工智能·python
机器之心11 小时前
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
人工智能
算AI13 小时前
人工智能+牙科:临床应用中的几个问题
人工智能·算法
凯子坚持 c14 小时前
基于飞桨框架3.0本地DeepSeek-R1蒸馏版部署实战
人工智能·paddlepaddle
你觉得20514 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清14 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
hyshhhh15 小时前
【算法岗面试题】深度学习中如何防止过拟合?
网络·人工智能·深度学习·神经网络·算法·计算机视觉
薛定谔的猫-菜鸟程序员15 小时前
零基础玩转深度神经网络大模型:从Hello World到AI炼金术-详解版(含:Conda 全面使用指南)
人工智能·神经网络·dnn
币之互联万物15 小时前
2025 AI智能数字农业研讨会在苏州启幕,科技助农与数据兴业成焦点
人工智能·科技