非共轭先验（Non-conjugate Prior）和共轭先验（Conjugate Prior）

非共轭先验（Non-conjugate Prior） 是贝叶斯统计中的一个重要概念。

在贝叶斯推断中，我们的目标是计算后验分布（Posterior） ：

P(θ∣D)∝P(D∣θ)×P(θ) P(\theta | D) \propto P(D | \theta) \times P(\theta) P(θ∣D)∝P(D∣θ)×P(θ)

其中：

共轭先验（Conjugate Prior） 的定义是：

如果先验分布 P(θ)P(\theta)P(θ) 和后验分布 P(θ∣D)P(\theta | D)P(θ∣D) 属于同一个概率分布家族，那么这个先验就是共轭的。

例子：

非共轭先验 是指：

当你选择了一个先验分布 P(θ)P(\theta)P(θ)，使得后验分布 P(θ∣D)P(\theta | D)P(θ∣D) 不属于 先验分布所在的同一个概率分布家族，或者根本找不到一个解析形式的后验分布。

通俗理解 ：

你选的"帽子"（先验）形状很奇怪，当你把数据（似然）套上去后，"帽子"变形了，变成了一种你完全没预料到的新形状（后验），而且你无法用现有的标准数学公式来描述这个新形状。

在简单的模型（如抛硬币、线性回归）中，共轭先验很常见。但在复杂模型（特别是深度神经网络、隐藏变量模型）中，共轭性通常会失效。

典型场景：

非线性模型 ：
- 似然函数 P(D∣θ)P(D|\theta)P(D∣θ) 包含复杂的非线性操作（如神经网络中的激活函数 Sigmoid, ReLU）。
- 即使先验是高斯分布，经过非线性变换后，后验分布会变得极其复杂，不再是高斯分布，甚至没有名字。
多层潜在变量 ：
- 在变分自编码器（VAE）或深层生成模型中，有多个层的隐藏变量。
- 积分过程（为了边缘化潜在变量）涉及非高斯核函数的组合，导致后验无法解析求解。
自定义分布 ：
- 为了更灵活地建模，研究者可能选择任意复杂的分布作为先验（例如混合高斯分布、任意神经网络参数化的分布），这些通常不与标准的似然函数共轭。

一旦遇到非共轭先验，贝叶斯推断的"黄金时代"（解析解时代）就结束了，我们必须面对以下困难：

积分不可解（Intractable Integral） ：
- 计算归一化常数（Evidence, P(D)P(D)P(D)）需要求积分 ∫P(D∣θ)P(θ)dθ\int P(D|\theta)P(\theta) d\theta∫P(D∣θ)P(θ)dθ。对于非共轭情况，这个积分通常没有解析解，数值积分又太慢。
无法直接写出后验 ：
- 你无法说"后验是分布X，参数是Y"。你只能知道后验的形状，但不知道它的具体数学表达式。

正因为非共轭先验如此普遍（尤其是在深度学习中），科学家们发展出了近似方法。你之前问到的变分推断（VI）和MCMC就是用来解决这个问题的。

共轭先验：就像买衣服，你买了一件"均码"（Beta分布），无论你怎么洗（更新数据），它还是"均码"（Beta分布）。你可以直接穿上，不用改。
非共轭先验：你买了一件"定制礼服"（复杂先验），洗了一次（看到数据）后，衣服缩水变形了，变成了一件"无法描述形状的布料"（非标准后验）。
解决方法 ：
- MCMC：拿尺子量这块布料，一点点描出它的形状（采样）。
- 变分推断：拿一块标准的"正方形布料"（简单分布，如高斯）去覆盖它，尽量贴合（优化近似）。

在论文《Auto-Encoding Variational Bayes》中：

"Since the SGVB estimator and the AEVB algorithm can be applied to almost any inference and learning problem with continuous latent variables..."

这篇论文（VAE/SGVB）正是为了解决非共轭问题而生的。

在深度生成模型中，似然函数 pθ(x∣z)p_\theta(x|z)pθ(x∣z) 通常是一个复杂的神经网络（非线性）。
因此，真实的后验 p(z∣x)p(z|x)p(z∣x) 通常是非共轭的，甚至没有解析形式。
变分推断（VI） 引入了一个近似的编码器 qϕ(z∣x)q_\phi(z|x)qϕ(z∣x)（通常设为简单的高斯分布），通过最大化 ELBO 来近似这个难解的后验。

所以，非共轭先验 是导致我们需要使用变分推断 和深度学习来代替传统贝叶斯解析解的根本原因之一。