对于指数族分布,对数配分函数 A ( η ) A(\eta) A(η) 关于自然参数 η \eta η 的梯度,恰好等于该分布下充分统计量 T ( x ) T(x) T(x) 的期望,即
∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]
本文给出这一性质的理论证明。
这一性质不仅是指数族分布数学结构的自然结果,更是变分推断中 M-Projection(矩投影)能够实现"矩匹配"的理论基石。简单来说,当我们用指数族分布 q q q 去近似目标分布 p p p 时,最优的 q q q 会保证其充分统计量的期望与 p p p 的完全一致。
文章目录
-
- [1. 指数族分布的基本形式](#1. 指数族分布的基本形式)
- [2. 对数配分函数 A ( η ) A(\eta) A(η) 的作用](#2. 对数配分函数 A ( η ) A(\eta) A(η) 的作用)
- [3. 核心推导: ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]](#3. 核心推导: ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)])
- [4. 在 M-Projection 中的应用:为什么能实现矩匹配](#4. 在 M-Projection 中的应用:为什么能实现矩匹配)
- [5. 具体例子:高斯分布中的验证](#5. 具体例子:高斯分布中的验证)
- [6. 总结](#6. 总结)
1. 指数族分布的基本形式
指数族分布是一类具有统一数学形式的概率分布,许多常见分布(如高斯分布、伯努利分布、泊松分布等)都可以归入这个框架。其标准形式为:
q ( x ) = h ( x ) exp ( η ⊤ T ( x ) − A ( η ) ) q(x) = h(x) \exp\left(\eta^\top T(x) - A(\eta)\right) q(x)=h(x)exp(η⊤T(x)−A(η))
其中:
- x x x 是随机变量,可以是标量或向量。
- η \eta η 称为自然参数,通常是一个向量,它决定了分布的具体形态。
- T ( x ) T(x) T(x) 称为充分统计量 ,也是向量形式,其维度与 η \eta η 相同。它包含了分布中所有关于 x x x 的关键信息。
- A ( η ) A(\eta) A(η) 称为对数配分函数 ,是一个关于 η \eta η 的标量函数,其主要作用是保证分布归一化。
- h ( x ) h(x) h(x) 称为基测度 ,它不依赖于 η \eta η,通常用于处理支撑集或坐标变换。
这种形式的巧妙之处在于,它将分布对参数的依赖完全集中到了 η \eta η 和 T ( x ) T(x) T(x) 的内积上,而 A ( η ) A(\eta) A(η) 则负责将整个表达式归一化。
2. 对数配分函数 A ( η ) A(\eta) A(η) 的作用
要理解 A ( η ) A(\eta) A(η),我们可以从归一化条件入手。对于任意合法的概率密度函数,必须有:
∫ q ( x ) d x = 1 \int q(x) \, dx = 1 ∫q(x)dx=1
将指数族形式的表达式代入:
∫ h ( x ) exp ( η ⊤ T ( x ) − A ( η ) ) d x = 1 \int h(x) \exp\left(\eta^\top T(x) - A(\eta)\right) dx = 1 ∫h(x)exp(η⊤T(x)−A(η))dx=1
由于 A ( η ) A(\eta) A(η) 在积分中不依赖于 x x x,可以提出来:
exp ( − A ( η ) ) ∫ h ( x ) exp ( η ⊤ T ( x ) ) d x = 1 \exp(-A(\eta)) \int h(x) \exp\left(\eta^\top T(x)\right) dx = 1 exp(−A(η))∫h(x)exp(η⊤T(x))dx=1
因此:
∫ h ( x ) exp ( η ⊤ T ( x ) ) d x = exp ( A ( η ) ) \int h(x) \exp\left(\eta^\top T(x)\right) dx = \exp(A(\eta)) ∫h(x)exp(η⊤T(x))dx=exp(A(η))
于是, A ( η ) A(\eta) A(η) 的定义可以写作:
A ( η ) = log ∫ h ( x ) exp ( η ⊤ T ( x ) ) d x A(\eta) = \log \int h(x) \exp\left(\eta^\top T(x)\right) dx A(η)=log∫h(x)exp(η⊤T(x))dx
从这个定义可以看出, A ( η ) A(\eta) A(η) 是一个"累积量生成函数"的类似物,它保证了分布的总概率质量为 1。更重要的是,它关于 η \eta η 的导数具有深刻的统计学意义。
3. 核心推导: ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]
现在我们来证明标题中的核心性质。为清晰起见,我们考虑向量情况,梯度运算 ∇ \nabla ∇ 表示对 η \eta η 求梯度(即每个分量求偏导后组成的向量)。
首先,从 A ( η ) A(\eta) A(η) 的定义出发:
A ( η ) = log ∫ h ( x ) exp ( η ⊤ T ( x ) ) d x A(\eta) = \log \int h(x) \exp\left(\eta^\top T(x)\right) dx A(η)=log∫h(x)exp(η⊤T(x))dx
对上式两边关于 η \eta η 求梯度。根据链式法则, ∇ log f ( η ) = ∇ f ( η ) f ( η ) \nabla \log f(\eta) = \frac{\nabla f(\eta)}{f(\eta)} ∇logf(η)=f(η)∇f(η),其中 f ( η ) = ∫ h ( x ) exp ( η ⊤ T ( x ) ) d x f(\eta) = \int h(x) \exp\left(\eta^\top T(x)\right) dx f(η)=∫h(x)exp(η⊤T(x))dx。于是:
∇ A ( η ) = ∇ ∫ h ( x ) exp ( η ⊤ T ( x ) ) d x ∫ h ( x ) exp ( η ⊤ T ( x ) ) d x \nabla A(\eta) = \frac{\nabla \int h(x) \exp\left(\eta^\top T(x)\right) dx}{\int h(x) \exp\left(\eta^\top T(x)\right) dx} ∇A(η)=∫h(x)exp(η⊤T(x))dx∇∫h(x)exp(η⊤T(x))dx
接下来处理分子。梯度算子可以移到积分号内部(在满足一定正则条件的情况下,指数族分布通常满足这些条件):
∇ ∫ h ( x ) exp ( η ⊤ T ( x ) ) d x = ∫ h ( x ) ∇ exp ( η ⊤ T ( x ) ) d x \nabla \int h(x) \exp\left(\eta^\top T(x)\right) dx = \int h(x) \, \nabla \exp\left(\eta^\top T(x)\right) dx ∇∫h(x)exp(η⊤T(x))dx=∫h(x)∇exp(η⊤T(x))dx
现在计算 ∇ exp ( η ⊤ T ( x ) ) \nabla \exp\left(\eta^\top T(x)\right) ∇exp(η⊤T(x))。由于 exp ( η ⊤ T ( x ) ) \exp\left(\eta^\top T(x)\right) exp(η⊤T(x)) 是一个标量函数,其关于向量 η \eta η 的梯度为:
∇ exp ( η ⊤ T ( x ) ) = exp ( η ⊤ T ( x ) ) ⋅ T ( x ) \nabla \exp\left(\eta^\top T(x)\right) = \exp\left(\eta^\top T(x)\right) \cdot T(x) ∇exp(η⊤T(x))=exp(η⊤T(x))⋅T(x)
这里, T ( x ) T(x) T(x) 是一个向量,乘以标量后得到与 η \eta η 同维度的向量。将此结果代入:
∇ ∫ h ( x ) exp ( η ⊤ T ( x ) ) d x = ∫ h ( x ) T ( x ) exp ( η ⊤ T ( x ) ) d x \nabla \int h(x) \exp\left(\eta^\top T(x)\right) dx = \int h(x) \, T(x) \exp\left(\eta^\top T(x)\right) dx ∇∫h(x)exp(η⊤T(x))dx=∫h(x)T(x)exp(η⊤T(x))dx
现在,将分子和分母代回 ∇ A ( η ) \nabla A(\eta) ∇A(η) 的表达式:
∇ A ( η ) = ∫ h ( x ) T ( x ) exp ( η ⊤ T ( x ) ) d x ∫ h ( x ) exp ( η ⊤ T ( x ) ) d x \nabla A(\eta) = \frac{\int h(x) \, T(x) \exp\left(\eta^\top T(x)\right) dx}{\int h(x) \exp\left(\eta^\top T(x)\right) dx} ∇A(η)=∫h(x)exp(η⊤T(x))dx∫h(x)T(x)exp(η⊤T(x))dx
根据 A ( η ) A(\eta) A(η) 的定义,分母 ∫ h ( x ) exp ( η ⊤ T ( x ) ) d x = exp ( A ( η ) ) \int h(x) \exp\left(\eta^\top T(x)\right) dx = \exp(A(\eta)) ∫h(x)exp(η⊤T(x))dx=exp(A(η))。因此:
∇ A ( η ) = ∫ h ( x ) T ( x ) exp ( η ⊤ T ( x ) ) d x exp ( A ( η ) ) = ∫ h ( x ) T ( x ) exp ( η ⊤ T ( x ) − A ( η ) ) d x \nabla A(\eta) = \frac{\int h(x) \, T(x) \exp\left(\eta^\top T(x)\right) dx}{\exp(A(\eta))} = \int h(x) \, T(x) \exp\left(\eta^\top T(x) - A(\eta)\right) dx ∇A(η)=exp(A(η))∫h(x)T(x)exp(η⊤T(x))dx=∫h(x)T(x)exp(η⊤T(x)−A(η))dx
注意,被积函数中的 exp ( η ⊤ T ( x ) − A ( η ) ) \exp\left(\eta^\top T(x) - A(\eta)\right) exp(η⊤T(x)−A(η)) 与 h ( x ) h(x) h(x) 结合,正是指数族分布 q ( x ) q(x) q(x) 的表达式。于是:
∇ A ( η ) = ∫ T ( x ) q ( x ) d x = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \int T(x) \, q(x) \, dx = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=∫T(x)q(x)dx=Ex∼q[T(x)]
至此,我们完成了证明。这个推导过程只需要微积分的基本规则和指数族分布的定义,直观而严谨。
4. 在 M-Projection 中的应用:为什么能实现矩匹配
在变分推断中,我们经常面临这样的问题:已知一个复杂的分布 p ( x ) p(x) p(x)(可能是后验分布),我们希望用一个简单、便于计算的指数族分布 q ( x ) q(x) q(x) 去近似它。M-Projection(也称为矩投影)是一种常见的方法,它通过最大化 q q q 的期望对数似然来寻找最优的 q q q,即:
max q ∈ Q E x ∼ p [ log q ( x ) ] \max_{q \in \mathcal{Q}} \mathbb{E}_{x \sim p}[\log q(x)] q∈QmaxEx∼p[logq(x)]
其中 Q \mathcal{Q} Q 是指数族分布族。这个目标函数可以理解为在 p p p 的期望下, q q q 的对数似然尽可能大。
将指数族的形式代入 log q ( x ) \log q(x) logq(x):
log q ( x ) = log h ( x ) + η ⊤ T ( x ) − A ( η ) \log q(x) = \log h(x) + \eta^\top T(x) - A(\eta) logq(x)=logh(x)+η⊤T(x)−A(η)
因此,目标函数为:
L ( η ) = E x ∼ p [ log h ( x ) + η ⊤ T ( x ) − A ( η ) ] = E x ∼ p [ log h ( x ) ] + η ⊤ E x ∼ p [ T ( x ) ] − A ( η ) \mathcal{L}(\eta) = \mathbb{E}{x \sim p}[\log h(x) + \eta^\top T(x) - A(\eta)] = \mathbb{E}{x \sim p}[\log h(x)] + \eta^\top \mathbb{E}_{x \sim p}[T(x)] - A(\eta) L(η)=Ex∼p[logh(x)+η⊤T(x)−A(η)]=Ex∼p[logh(x)]+η⊤Ex∼p[T(x)]−A(η)
注意到 E x ∼ p [ log h ( x ) ] \mathbb{E}_{x \sim p}[\log h(x)] Ex∼p[logh(x)] 不依赖于 η \eta η,所以最大化 L ( η ) \mathcal{L}(\eta) L(η) 等价于最大化:
η ⊤ E x ∼ p [ T ( x ) ] − A ( η ) \eta^\top \mathbb{E}_{x \sim p}[T(x)] - A(\eta) η⊤Ex∼p[T(x)]−A(η)
对 η \eta η 求梯度并令其为零,得到最优性条件:
E x ∼ p [ T ( x ) ] − ∇ A ( η ) = 0 \mathbb{E}_{x \sim p}[T(x)] - \nabla A(\eta) = 0 Ex∼p[T(x)]−∇A(η)=0
即:
∇ A ( η ) = E x ∼ p [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim p}[T(x)] ∇A(η)=Ex∼p[T(x)]
但根据我们刚刚证明的性质, ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]。于是我们得到:
E x ∼ q [ T ( x ) ] = E x ∼ p [ T ( x ) ] \mathbb{E}{x \sim q}[T(x)] = \mathbb{E}{x \sim p}[T(x)] Ex∼q[T(x)]=Ex∼p[T(x)]
这正是矩匹配 条件:最优的指数族近似 q q q 在充分统计量的期望上与目标分布 p p p 完全一致。换句话说,M-Projection 寻找的 q q q 会"匹配" p p p 的矩(这里的矩是充分统计量的期望)。
5. 具体例子:高斯分布中的验证
为了帮助理解,我们用单变量高斯分布来具体验证 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]。高斯分布的概率密度函数为:
q ( x ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) q(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) q(x)=2πσ2 1exp(−2σ2(x−μ)2)
我们希望将其写成指数族形式。展开指数部分:
− ( x − μ ) 2 2 σ 2 = − x 2 − 2 μ x + μ 2 2 σ 2 = μ σ 2 x − 1 2 σ 2 x 2 − μ 2 2 σ 2 -\frac{(x-\mu)^2}{2\sigma^2} = -\frac{x^2 - 2\mu x + \mu^2}{2\sigma^2} = \frac{\mu}{\sigma^2} x - \frac{1}{2\sigma^2} x^2 - \frac{\mu^2}{2\sigma^2} −2σ2(x−μ)2=−2σ2x2−2μx+μ2=σ2μx−2σ21x2−2σ2μ2
于是,我们可以识别:
- 自然参数 η = [ η 1 , η 2 ] ⊤ \eta = [\eta_1, \eta_2]^\top η=[η1,η2]⊤,其中 η 1 = μ σ 2 \eta_1 = \frac{\mu}{\sigma^2} η1=σ2μ, η 2 = − 1 2 σ 2 \eta_2 = -\frac{1}{2\sigma^2} η2=−2σ21。
- 充分统计量 T ( x ) = [ x , x 2 ] ⊤ T(x) = [x, x^2]^\top T(x)=[x,x2]⊤。
- 基测度 h ( x ) = 1 h(x) = 1 h(x)=1(注意,前面的系数 1 2 π \frac{1}{\sqrt{2\pi}} 2π 1 与 x x x 无关,实际上可以归入 h ( x ) h(x) h(x),但通常在高斯分布中我们取 h ( x ) = 1 h(x)=1 h(x)=1,而将归一化常数全部吸收进 A ( η ) A(\eta) A(η))。
- 对数配分函数 A ( η ) A(\eta) A(η) 需要满足 exp ( A ( η ) ) = ∫ exp ( η 1 x + η 2 x 2 ) d x \exp(A(\eta)) = \int \exp(\eta_1 x + \eta_2 x^2) dx exp(A(η))=∫exp(η1x+η2x2)dx。经过计算(这是一个高斯积分),可以得到:
A ( η ) = − η 1 2 4 η 2 − 1 2 log ( − 2 η 2 ) A(\eta) = -\frac{\eta_1^2}{4\eta_2} - \frac{1}{2} \log(-2\eta_2) A(η)=−4η2η12−21log(−2η2)
为验证 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)],我们计算 ∇ A ( η ) \nabla A(\eta) ∇A(η) 的两个分量。
首先,对 η 1 \eta_1 η1 求偏导:
∂ A ∂ η 1 = − 2 η 1 4 η 2 = − η 1 2 η 2 \frac{\partial A}{\partial \eta_1} = -\frac{2\eta_1}{4\eta_2} = -\frac{\eta_1}{2\eta_2} ∂η1∂A=−4η22η1=−2η2η1
对 η 2 \eta_2 η2 求偏导:
∂ A ∂ η 2 = − η 1 2 4 ⋅ ( − 1 η 2 2 ) − 1 2 ⋅ 1 η 2 = η 1 2 4 η 2 2 − 1 2 η 2 \frac{\partial A}{\partial \eta_2} = -\frac{\eta_1^2}{4} \cdot \left(-\frac{1}{\eta_2^2}\right) - \frac{1}{2} \cdot \frac{1}{\eta_2} = \frac{\eta_1^2}{4\eta_2^2} - \frac{1}{2\eta_2} ∂η2∂A=−4η12⋅(−η221)−21⋅η21=4η22η12−2η21
现在,用 μ \mu μ 和 σ 2 \sigma^2 σ2 表示 η 1 \eta_1 η1 和 η 2 \eta_2 η2: η 1 = μ / σ 2 \eta_1 = \mu / \sigma^2 η1=μ/σ2, η 2 = − 1 / ( 2 σ 2 ) \eta_2 = -1/(2\sigma^2) η2=−1/(2σ2)。代入:
∂ A ∂ η 1 = − μ / σ 2 2 ⋅ ( − 1 / ( 2 σ 2 ) ) = − μ / σ 2 − 1 / σ 2 = μ \frac{\partial A}{\partial \eta_1} = -\frac{\mu / \sigma^2}{2 \cdot (-1/(2\sigma^2))} = -\frac{\mu / \sigma^2}{-1/\sigma^2} = \mu ∂η1∂A=−2⋅(−1/(2σ2))μ/σ2=−−1/σ2μ/σ2=μ
∂ A ∂ η 2 = ( μ / σ 2 ) 2 4 ⋅ ( 1 / ( 4 σ 4 ) ) − 1 2 ⋅ ( − 1 / ( 2 σ 2 ) ) = μ 2 / σ 4 1 / σ 4 + 1 1 / σ 2 = μ 2 + σ 2 \frac{\partial A}{\partial \eta_2} = \frac{(\mu / \sigma^2)^2}{4 \cdot (1/(4\sigma^4))} - \frac{1}{2 \cdot (-1/(2\sigma^2))} = \frac{\mu^2 / \sigma^4}{1/\sigma^4} + \frac{1}{1/\sigma^2} = \mu^2 + \sigma^2 ∂η2∂A=4⋅(1/(4σ4))(μ/σ2)2−2⋅(−1/(2σ2))1=1/σ4μ2/σ4+1/σ21=μ2+σ2
因此, ∇ A ( η ) = [ μ , μ 2 + σ 2 ] ⊤ \nabla A(\eta) = [\mu, \mu^2 + \sigma^2]^\top ∇A(η)=[μ,μ2+σ2]⊤。
而在高斯分布中, E [ x ] = μ \mathbb{E}[x] = \mu E[x]=μ, E [ x 2 ] = μ 2 + σ 2 \mathbb{E}[x^2] = \mu^2 + \sigma^2 E[x2]=μ2+σ2。所以 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)] 成立。同时,这也验证了高斯分布在 M-Projection 下会匹配目标分布的均值和二阶矩。
6. 总结
本文从指数族分布的基本形式出发,详细推导了 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)] 这一核心性质。在此基础上,我们展示了这一性质在 M-Projection 中的关键作用:通过最大化期望对数似然,我们自然地导出了矩匹配条件 E x ∼ q [ T ( x ) ] = E x ∼ p [ T ( x ) ] \mathbb{E}{x \sim q}[T(x)] = \mathbb{E}_{x \sim p}[T(x)] Ex∼q[T(x)]=Ex∼p[T(x)]。最后,通过高斯分布的例子,我们验证了理论推导与直观结果的一致性。