【理论推导】指数族分布的核心性质：对数配分函数的梯度为什么是充分统计量的期望？

对于指数族分布，对数配分函数 A ( η ) A(\eta) A(η) 关于自然参数 η \eta η 的梯度，恰好等于该分布下充分统计量 T ( x ) T(x) T(x) 的期望，即
∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]

本文给出这一性质的理论证明。

这一性质不仅是指数族分布数学结构的自然结果，更是变分推断中 M-Projection（矩投影）能够实现"矩匹配"的理论基石。简单来说，当我们用指数族分布 q q q 去近似目标分布 p p p 时，最优的 q q q 会保证其充分统计量的期望与 p p p 的完全一致。

文章目录

- [1. 指数族分布的基本形式](#1. 指数族分布的基本形式)
- [2. 对数配分函数 A ( η ) A(\eta) A(η) 的作用](#2. 对数配分函数 A ( η ) A(\eta) A(η) 的作用)
- [3. 核心推导： ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]](#3. 核心推导： ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)])
- [4. 在 M-Projection 中的应用：为什么能实现矩匹配](#4. 在 M-Projection 中的应用：为什么能实现矩匹配)
- [5. 具体例子：高斯分布中的验证](#5. 具体例子：高斯分布中的验证)
- [6. 总结](#6. 总结)

1. 指数族分布的基本形式

指数族分布是一类具有统一数学形式的概率分布，许多常见分布（如高斯分布、伯努利分布、泊松分布等）都可以归入这个框架。其标准形式为：

q ( x ) = h ( x ) exp ⁡ ( η ⊤ T ( x ) − A ( η ) ) q(x) = h(x) \exp\left(\eta^\top T(x) - A(\eta)\right) q(x)=h(x)exp(η⊤T(x)−A(η))

其中：

x x x 是随机变量，可以是标量或向量。
η \eta η 称为自然参数，通常是一个向量，它决定了分布的具体形态。
T ( x ) T(x) T(x) 称为充分统计量 ，也是向量形式，其维度与 η \eta η 相同。它包含了分布中所有关于 x x x 的关键信息。
A ( η ) A(\eta) A(η) 称为对数配分函数 ，是一个关于 η \eta η 的标量函数，其主要作用是保证分布归一化。
h ( x ) h(x) h(x) 称为基测度 ，它不依赖于 η \eta η，通常用于处理支撑集或坐标变换。

这种形式的巧妙之处在于，它将分布对参数的依赖完全集中到了 η \eta η 和 T ( x ) T(x) T(x) 的内积上，而 A ( η ) A(\eta) A(η) 则负责将整个表达式归一化。

2. 对数配分函数 A ( η ) A(\eta) A(η) 的作用

要理解 A ( η ) A(\eta) A(η)，我们可以从归一化条件入手。对于任意合法的概率密度函数，必须有：

∫ q ( x ) d x = 1 \int q(x) \, dx = 1 ∫q(x)dx=1

将指数族形式的表达式代入：

∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) − A ( η ) ) d x = 1 \int h(x) \exp\left(\eta^\top T(x) - A(\eta)\right) dx = 1 ∫h(x)exp(η⊤T(x)−A(η))dx=1

由于 A ( η ) A(\eta) A(η) 在积分中不依赖于 x x x，可以提出来：

exp ⁡ ( − A ( η ) ) ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x = 1 \exp(-A(\eta)) \int h(x) \exp\left(\eta^\top T(x)\right) dx = 1 exp(−A(η))∫h(x)exp(η⊤T(x))dx=1

因此：

∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x = exp ⁡ ( A ( η ) ) \int h(x) \exp\left(\eta^\top T(x)\right) dx = \exp(A(\eta)) ∫h(x)exp(η⊤T(x))dx=exp(A(η))

于是， A ( η ) A(\eta) A(η) 的定义可以写作：

A ( η ) = log ⁡ ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x A(\eta) = \log \int h(x) \exp\left(\eta^\top T(x)\right) dx A(η)=log∫h(x)exp(η⊤T(x))dx

从这个定义可以看出， A ( η ) A(\eta) A(η) 是一个"累积量生成函数"的类似物，它保证了分布的总概率质量为 1。更重要的是，它关于 η \eta η 的导数具有深刻的统计学意义。

3. 核心推导： ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]

现在我们来证明标题中的核心性质。为清晰起见，我们考虑向量情况，梯度运算 ∇ \nabla ∇ 表示对 η \eta η 求梯度（即每个分量求偏导后组成的向量）。

首先，从 A ( η ) A(\eta) A(η) 的定义出发：

A ( η ) = log ⁡ ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x A(\eta) = \log \int h(x) \exp\left(\eta^\top T(x)\right) dx A(η)=log∫h(x)exp(η⊤T(x))dx

对上式两边关于 η \eta η 求梯度。根据链式法则， ∇ log ⁡ f ( η ) = ∇ f ( η ) f ( η ) \nabla \log f(\eta) = \frac{\nabla f(\eta)}{f(\eta)} ∇logf(η)=f(η)∇f(η)，其中 f ( η ) = ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x f(\eta) = \int h(x) \exp\left(\eta^\top T(x)\right) dx f(η)=∫h(x)exp(η⊤T(x))dx。于是：

∇ A ( η ) = ∇ ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x \nabla A(\eta) = \frac{\nabla \int h(x) \exp\left(\eta^\top T(x)\right) dx}{\int h(x) \exp\left(\eta^\top T(x)\right) dx} ∇A(η)=∫h(x)exp(η⊤T(x))dx∇∫h(x)exp(η⊤T(x))dx

接下来处理分子。梯度算子可以移到积分号内部（在满足一定正则条件的情况下，指数族分布通常满足这些条件）：

∇ ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x = ∫ h ( x ) ∇ exp ⁡ ( η ⊤ T ( x ) ) d x \nabla \int h(x) \exp\left(\eta^\top T(x)\right) dx = \int h(x) \, \nabla \exp\left(\eta^\top T(x)\right) dx ∇∫h(x)exp(η⊤T(x))dx=∫h(x)∇exp(η⊤T(x))dx

现在计算 ∇ exp ⁡ ( η ⊤ T ( x ) ) \nabla \exp\left(\eta^\top T(x)\right) ∇exp(η⊤T(x))。由于 exp ⁡ ( η ⊤ T ( x ) ) \exp\left(\eta^\top T(x)\right) exp(η⊤T(x)) 是一个标量函数，其关于向量 η \eta η 的梯度为：

∇ exp ⁡ ( η ⊤ T ( x ) ) = exp ⁡ ( η ⊤ T ( x ) ) ⋅ T ( x ) \nabla \exp\left(\eta^\top T(x)\right) = \exp\left(\eta^\top T(x)\right) \cdot T(x) ∇exp(η⊤T(x))=exp(η⊤T(x))⋅T(x)

这里， T ( x ) T(x) T(x) 是一个向量，乘以标量后得到与 η \eta η 同维度的向量。将此结果代入：

∇ ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x = ∫ h ( x ) T ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x \nabla \int h(x) \exp\left(\eta^\top T(x)\right) dx = \int h(x) \, T(x) \exp\left(\eta^\top T(x)\right) dx ∇∫h(x)exp(η⊤T(x))dx=∫h(x)T(x)exp(η⊤T(x))dx

现在，将分子和分母代回 ∇ A ( η ) \nabla A(\eta) ∇A(η) 的表达式：

∇ A ( η ) = ∫ h ( x ) T ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x \nabla A(\eta) = \frac{\int h(x) \, T(x) \exp\left(\eta^\top T(x)\right) dx}{\int h(x) \exp\left(\eta^\top T(x)\right) dx} ∇A(η)=∫h(x)exp(η⊤T(x))dx∫h(x)T(x)exp(η⊤T(x))dx

根据 A ( η ) A(\eta) A(η) 的定义，分母 ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x = exp ⁡ ( A ( η ) ) \int h(x) \exp\left(\eta^\top T(x)\right) dx = \exp(A(\eta)) ∫h(x)exp(η⊤T(x))dx=exp(A(η))。因此：

∇ A ( η ) = ∫ h ( x ) T ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x exp ⁡ ( A ( η ) ) = ∫ h ( x ) T ( x ) exp ⁡ ( η ⊤ T ( x ) − A ( η ) ) d x \nabla A(\eta) = \frac{\int h(x) \, T(x) \exp\left(\eta^\top T(x)\right) dx}{\exp(A(\eta))} = \int h(x) \, T(x) \exp\left(\eta^\top T(x) - A(\eta)\right) dx ∇A(η)=exp(A(η))∫h(x)T(x)exp(η⊤T(x))dx=∫h(x)T(x)exp(η⊤T(x)−A(η))dx

注意，被积函数中的 exp ⁡ ( η ⊤ T ( x ) − A ( η ) ) \exp\left(\eta^\top T(x) - A(\eta)\right) exp(η⊤T(x)−A(η)) 与 h ( x ) h(x) h(x) 结合，正是指数族分布 q ( x ) q(x) q(x) 的表达式。于是：

∇ A ( η ) = ∫ T ( x ) q ( x ) d x = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \int T(x) \, q(x) \, dx = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=∫T(x)q(x)dx=Ex∼q[T(x)]

至此，我们完成了证明。这个推导过程只需要微积分的基本规则和指数族分布的定义，直观而严谨。

4. 在 M-Projection 中的应用：为什么能实现矩匹配

在变分推断中，我们经常面临这样的问题：已知一个复杂的分布 p ( x ) p(x) p(x)（可能是后验分布），我们希望用一个简单、便于计算的指数族分布 q ( x ) q(x) q(x) 去近似它。M-Projection（也称为矩投影）是一种常见的方法，它通过最大化 q q q 的期望对数似然来寻找最优的 q q q，即：

max ⁡ q ∈ Q E x ∼ p [ log ⁡ q ( x ) ] \max_{q \in \mathcal{Q}} \mathbb{E}_{x \sim p}[\log q(x)] q∈QmaxEx∼p[logq(x)]

其中 Q \mathcal{Q} Q 是指数族分布族。这个目标函数可以理解为在 p p p 的期望下， q q q 的对数似然尽可能大。

将指数族的形式代入 log ⁡ q ( x ) \log q(x) logq(x)：

log ⁡ q ( x ) = log ⁡ h ( x ) + η ⊤ T ( x ) − A ( η ) \log q(x) = \log h(x) + \eta^\top T(x) - A(\eta) logq(x)=logh(x)+η⊤T(x)−A(η)

因此，目标函数为：

L ( η ) = E x ∼ p [ log ⁡ h ( x ) + η ⊤ T ( x ) − A ( η ) ] = E x ∼ p [ log ⁡ h ( x ) ] + η ⊤ E x ∼ p [ T ( x ) ] − A ( η ) \mathcal{L}(\eta) = \mathbb{E}{x \sim p}[\log h(x) + \eta^\top T(x) - A(\eta)] = \mathbb{E}{x \sim p}[\log h(x)] + \eta^\top \mathbb{E}_{x \sim p}[T(x)] - A(\eta) L(η)=Ex∼p[logh(x)+η⊤T(x)−A(η)]=Ex∼p[logh(x)]+η⊤Ex∼p[T(x)]−A(η)

注意到 E x ∼ p [ log ⁡ h ( x ) ] \mathbb{E}_{x \sim p}[\log h(x)] Ex∼p[logh(x)] 不依赖于 η \eta η，所以最大化 L ( η ) \mathcal{L}(\eta) L(η) 等价于最大化：

η ⊤ E x ∼ p [ T ( x ) ] − A ( η ) \eta^\top \mathbb{E}_{x \sim p}[T(x)] - A(\eta) η⊤Ex∼p[T(x)]−A(η)

对 η \eta η 求梯度并令其为零，得到最优性条件：

E x ∼ p [ T ( x ) ] − ∇ A ( η ) = 0 \mathbb{E}_{x \sim p}[T(x)] - \nabla A(\eta) = 0 Ex∼p[T(x)]−∇A(η)=0

即：

∇ A ( η ) = E x ∼ p [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim p}[T(x)] ∇A(η)=Ex∼p[T(x)]

但根据我们刚刚证明的性质， ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]。于是我们得到：

E x ∼ q [ T ( x ) ] = E x ∼ p [ T ( x ) ] \mathbb{E}{x \sim q}[T(x)] = \mathbb{E}{x \sim p}[T(x)] Ex∼q[T(x)]=Ex∼p[T(x)]

这正是矩匹配 条件：最优的指数族近似 q q q 在充分统计量的期望上与目标分布 p p p 完全一致。换句话说，M-Projection 寻找的 q q q 会"匹配" p p p 的矩（这里的矩是充分统计量的期望）。

5. 具体例子：高斯分布中的验证

为了帮助理解，我们用单变量高斯分布来具体验证 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]。高斯分布的概率密度函数为：

q ( x ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) q(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) q(x)=2πσ2 1exp(−2σ2(x−μ)2)

我们希望将其写成指数族形式。展开指数部分：

− ( x − μ ) 2 2 σ 2 = − x 2 − 2 μ x + μ 2 2 σ 2 = μ σ 2 x − 1 2 σ 2 x 2 − μ 2 2 σ 2 -\frac{(x-\mu)^2}{2\sigma^2} = -\frac{x^2 - 2\mu x + \mu^2}{2\sigma^2} = \frac{\mu}{\sigma^2} x - \frac{1}{2\sigma^2} x^2 - \frac{\mu^2}{2\sigma^2} −2σ2(x−μ)2=−2σ2x2−2μx+μ2=σ2μx−2σ21x2−2σ2μ2

于是，我们可以识别：

自然参数 η = [ η 1 , η 2 ] ⊤ \eta = [\eta_1, \eta_2]^\top η=[η1,η2]⊤，其中 η 1 = μ σ 2 \eta_1 = \frac{\mu}{\sigma^2} η1=σ2μ， η 2 = − 1 2 σ 2 \eta_2 = -\frac{1}{2\sigma^2} η2=−2σ21。
充分统计量 T ( x ) = [ x , x 2 ] ⊤ T(x) = [x, x^2]^\top T(x)=[x,x2]⊤。
基测度 h ( x ) = 1 h(x) = 1 h(x)=1（注意，前面的系数 1 2 π \frac{1}{\sqrt{2\pi}} 2π 1 与 x x x 无关，实际上可以归入 h ( x ) h(x) h(x)，但通常在高斯分布中我们取 h ( x ) = 1 h(x)=1 h(x)=1，而将归一化常数全部吸收进 A ( η ) A(\eta) A(η)）。
对数配分函数 A ( η ) A(\eta) A(η) 需要满足 exp ⁡ ( A ( η ) ) = ∫ exp ⁡ ( η 1 x + η 2 x 2 ) d x \exp(A(\eta)) = \int \exp(\eta_1 x + \eta_2 x^2) dx exp(A(η))=∫exp(η1x+η2x2)dx。经过计算（这是一个高斯积分），可以得到：

A ( η ) = − η 1 2 4 η 2 − 1 2 log ⁡ ( − 2 η 2 ) A(\eta) = -\frac{\eta_1^2}{4\eta_2} - \frac{1}{2} \log(-2\eta_2) A(η)=−4η2η12−21log(−2η2)

为验证 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]，我们计算 ∇ A ( η ) \nabla A(\eta) ∇A(η) 的两个分量。

首先，对 η 1 \eta_1 η1 求偏导：

∂ A ∂ η 1 = − 2 η 1 4 η 2 = − η 1 2 η 2 \frac{\partial A}{\partial \eta_1} = -\frac{2\eta_1}{4\eta_2} = -\frac{\eta_1}{2\eta_2} ∂η1∂A=−4η22η1=−2η2η1

对 η 2 \eta_2 η2 求偏导：

∂ A ∂ η 2 = − η 1 2 4 ⋅ ( − 1 η 2 2 ) − 1 2 ⋅ 1 η 2 = η 1 2 4 η 2 2 − 1 2 η 2 \frac{\partial A}{\partial \eta_2} = -\frac{\eta_1^2}{4} \cdot \left(-\frac{1}{\eta_2^2}\right) - \frac{1}{2} \cdot \frac{1}{\eta_2} = \frac{\eta_1^2}{4\eta_2^2} - \frac{1}{2\eta_2} ∂η2∂A=−4η12⋅(−η221)−21⋅η21=4η22η12−2η21

现在，用 μ \mu μ 和 σ 2 \sigma^2 σ2 表示 η 1 \eta_1 η1 和 η 2 \eta_2 η2： η 1 = μ / σ 2 \eta_1 = \mu / \sigma^2 η1=μ/σ2， η 2 = − 1 / ( 2 σ 2 ) \eta_2 = -1/(2\sigma^2) η2=−1/(2σ2)。代入：

∂ A ∂ η 1 = − μ / σ 2 2 ⋅ ( − 1 / ( 2 σ 2 ) ) = − μ / σ 2 − 1 / σ 2 = μ \frac{\partial A}{\partial \eta_1} = -\frac{\mu / \sigma^2}{2 \cdot (-1/(2\sigma^2))} = -\frac{\mu / \sigma^2}{-1/\sigma^2} = \mu ∂η1∂A=−2⋅(−1/(2σ2))μ/σ2=−−1/σ2μ/σ2=μ

∂ A ∂ η 2 = ( μ / σ 2 ) 2 4 ⋅ ( 1 / ( 4 σ 4 ) ) − 1 2 ⋅ ( − 1 / ( 2 σ 2 ) ) = μ 2 / σ 4 1 / σ 4 + 1 1 / σ 2 = μ 2 + σ 2 \frac{\partial A}{\partial \eta_2} = \frac{(\mu / \sigma^2)^2}{4 \cdot (1/(4\sigma^4))} - \frac{1}{2 \cdot (-1/(2\sigma^2))} = \frac{\mu^2 / \sigma^4}{1/\sigma^4} + \frac{1}{1/\sigma^2} = \mu^2 + \sigma^2 ∂η2∂A=4⋅(1/(4σ4))(μ/σ2)2−2⋅(−1/(2σ2))1=1/σ4μ2/σ4+1/σ21=μ2+σ2

因此， ∇ A ( η ) = [ μ , μ 2 + σ 2 ] ⊤ \nabla A(\eta) = [\mu, \mu^2 + \sigma^2]^\top ∇A(η)=[μ,μ2+σ2]⊤。

而在高斯分布中， E [ x ] = μ \mathbb{E}[x] = \mu E[x]=μ， E [ x 2 ] = μ 2 + σ 2 \mathbb{E}[x^2] = \mu^2 + \sigma^2 E[x2]=μ2+σ2。所以 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)] 成立。同时，这也验证了高斯分布在 M-Projection 下会匹配目标分布的均值和二阶矩。

6. 总结

本文从指数族分布的基本形式出发，详细推导了 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)] 这一核心性质。在此基础上，我们展示了这一性质在 M-Projection 中的关键作用：通过最大化期望对数似然，我们自然地导出了矩匹配条件 E x ∼ q [ T ( x ) ] = E x ∼ p [ T ( x ) ] \mathbb{E}{x \sim q}[T(x)] = \mathbb{E}_{x \sim p}[T(x)] Ex∼q[T(x)]=Ex∼p[T(x)]。最后，通过高斯分布的例子，我们验证了理论推导与直观结果的一致性。