【理论推导】指数族分布的核心性质:对数配分函数的梯度为什么是充分统计量的期望?

对于指数族分布,对数配分函数 A ( η ) A(\eta) A(η) 关于自然参数 η \eta η 的梯度,恰好等于该分布下充分统计量 T ( x ) T(x) T(x) 的期望,即
∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]

本文给出这一性质的理论证明。

这一性质不仅是指数族分布数学结构的自然结果,更是变分推断中 M-Projection(矩投影)能够实现"矩匹配"的理论基石。简单来说,当我们用指数族分布 q q q 去近似目标分布 p p p 时,最优的 q q q 会保证其充分统计量的期望与 p p p 的完全一致。

文章目录

    • [1. 指数族分布的基本形式](#1. 指数族分布的基本形式)
    • [2. 对数配分函数 A ( η ) A(\eta) A(η) 的作用](#2. 对数配分函数 A ( η ) A(\eta) A(η) 的作用)
    • [3. 核心推导: ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]](#3. 核心推导: ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)])
    • [4. 在 M-Projection 中的应用:为什么能实现矩匹配](#4. 在 M-Projection 中的应用:为什么能实现矩匹配)
    • [5. 具体例子:高斯分布中的验证](#5. 具体例子:高斯分布中的验证)
    • [6. 总结](#6. 总结)

1. 指数族分布的基本形式

指数族分布是一类具有统一数学形式的概率分布,许多常见分布(如高斯分布、伯努利分布、泊松分布等)都可以归入这个框架。其标准形式为:

q ( x ) = h ( x ) exp ⁡ ( η ⊤ T ( x ) − A ( η ) ) q(x) = h(x) \exp\left(\eta^\top T(x) - A(\eta)\right) q(x)=h(x)exp(η⊤T(x)−A(η))

其中:

  • x x x 是随机变量,可以是标量或向量。
  • η \eta η 称为自然参数,通常是一个向量,它决定了分布的具体形态。
  • T ( x ) T(x) T(x) 称为充分统计量 ,也是向量形式,其维度与 η \eta η 相同。它包含了分布中所有关于 x x x 的关键信息。
  • A ( η ) A(\eta) A(η) 称为对数配分函数 ,是一个关于 η \eta η 的标量函数,其主要作用是保证分布归一化。
  • h ( x ) h(x) h(x) 称为基测度 ,它不依赖于 η \eta η,通常用于处理支撑集或坐标变换。

这种形式的巧妙之处在于,它将分布对参数的依赖完全集中到了 η \eta η 和 T ( x ) T(x) T(x) 的内积上,而 A ( η ) A(\eta) A(η) 则负责将整个表达式归一化。

2. 对数配分函数 A ( η ) A(\eta) A(η) 的作用

要理解 A ( η ) A(\eta) A(η),我们可以从归一化条件入手。对于任意合法的概率密度函数,必须有:

∫ q ( x )   d x = 1 \int q(x) \, dx = 1 ∫q(x)dx=1

将指数族形式的表达式代入:

∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) − A ( η ) ) d x = 1 \int h(x) \exp\left(\eta^\top T(x) - A(\eta)\right) dx = 1 ∫h(x)exp(η⊤T(x)−A(η))dx=1

由于 A ( η ) A(\eta) A(η) 在积分中不依赖于 x x x,可以提出来:

exp ⁡ ( − A ( η ) ) ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x = 1 \exp(-A(\eta)) \int h(x) \exp\left(\eta^\top T(x)\right) dx = 1 exp(−A(η))∫h(x)exp(η⊤T(x))dx=1

因此:

∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x = exp ⁡ ( A ( η ) ) \int h(x) \exp\left(\eta^\top T(x)\right) dx = \exp(A(\eta)) ∫h(x)exp(η⊤T(x))dx=exp(A(η))

于是, A ( η ) A(\eta) A(η) 的定义可以写作:

A ( η ) = log ⁡ ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x A(\eta) = \log \int h(x) \exp\left(\eta^\top T(x)\right) dx A(η)=log∫h(x)exp(η⊤T(x))dx

从这个定义可以看出, A ( η ) A(\eta) A(η) 是一个"累积量生成函数"的类似物,它保证了分布的总概率质量为 1。更重要的是,它关于 η \eta η 的导数具有深刻的统计学意义。

3. 核心推导: ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]

现在我们来证明标题中的核心性质。为清晰起见,我们考虑向量情况,梯度运算 ∇ \nabla ∇ 表示对 η \eta η 求梯度(即每个分量求偏导后组成的向量)。

首先,从 A ( η ) A(\eta) A(η) 的定义出发:

A ( η ) = log ⁡ ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x A(\eta) = \log \int h(x) \exp\left(\eta^\top T(x)\right) dx A(η)=log∫h(x)exp(η⊤T(x))dx

对上式两边关于 η \eta η 求梯度。根据链式法则, ∇ log ⁡ f ( η ) = ∇ f ( η ) f ( η ) \nabla \log f(\eta) = \frac{\nabla f(\eta)}{f(\eta)} ∇logf(η)=f(η)∇f(η),其中 f ( η ) = ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x f(\eta) = \int h(x) \exp\left(\eta^\top T(x)\right) dx f(η)=∫h(x)exp(η⊤T(x))dx。于是:

∇ A ( η ) = ∇ ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x \nabla A(\eta) = \frac{\nabla \int h(x) \exp\left(\eta^\top T(x)\right) dx}{\int h(x) \exp\left(\eta^\top T(x)\right) dx} ∇A(η)=∫h(x)exp(η⊤T(x))dx∇∫h(x)exp(η⊤T(x))dx

接下来处理分子。梯度算子可以移到积分号内部(在满足一定正则条件的情况下,指数族分布通常满足这些条件):

∇ ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x = ∫ h ( x )   ∇ exp ⁡ ( η ⊤ T ( x ) ) d x \nabla \int h(x) \exp\left(\eta^\top T(x)\right) dx = \int h(x) \, \nabla \exp\left(\eta^\top T(x)\right) dx ∇∫h(x)exp(η⊤T(x))dx=∫h(x)∇exp(η⊤T(x))dx

现在计算 ∇ exp ⁡ ( η ⊤ T ( x ) ) \nabla \exp\left(\eta^\top T(x)\right) ∇exp(η⊤T(x))。由于 exp ⁡ ( η ⊤ T ( x ) ) \exp\left(\eta^\top T(x)\right) exp(η⊤T(x)) 是一个标量函数,其关于向量 η \eta η 的梯度为:

∇ exp ⁡ ( η ⊤ T ( x ) ) = exp ⁡ ( η ⊤ T ( x ) ) ⋅ T ( x ) \nabla \exp\left(\eta^\top T(x)\right) = \exp\left(\eta^\top T(x)\right) \cdot T(x) ∇exp(η⊤T(x))=exp(η⊤T(x))⋅T(x)

这里, T ( x ) T(x) T(x) 是一个向量,乘以标量后得到与 η \eta η 同维度的向量。将此结果代入:

∇ ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x = ∫ h ( x )   T ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x \nabla \int h(x) \exp\left(\eta^\top T(x)\right) dx = \int h(x) \, T(x) \exp\left(\eta^\top T(x)\right) dx ∇∫h(x)exp(η⊤T(x))dx=∫h(x)T(x)exp(η⊤T(x))dx

现在,将分子和分母代回 ∇ A ( η ) \nabla A(\eta) ∇A(η) 的表达式:

∇ A ( η ) = ∫ h ( x )   T ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x \nabla A(\eta) = \frac{\int h(x) \, T(x) \exp\left(\eta^\top T(x)\right) dx}{\int h(x) \exp\left(\eta^\top T(x)\right) dx} ∇A(η)=∫h(x)exp(η⊤T(x))dx∫h(x)T(x)exp(η⊤T(x))dx

根据 A ( η ) A(\eta) A(η) 的定义,分母 ∫ h ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x = exp ⁡ ( A ( η ) ) \int h(x) \exp\left(\eta^\top T(x)\right) dx = \exp(A(\eta)) ∫h(x)exp(η⊤T(x))dx=exp(A(η))。因此:

∇ A ( η ) = ∫ h ( x )   T ( x ) exp ⁡ ( η ⊤ T ( x ) ) d x exp ⁡ ( A ( η ) ) = ∫ h ( x )   T ( x ) exp ⁡ ( η ⊤ T ( x ) − A ( η ) ) d x \nabla A(\eta) = \frac{\int h(x) \, T(x) \exp\left(\eta^\top T(x)\right) dx}{\exp(A(\eta))} = \int h(x) \, T(x) \exp\left(\eta^\top T(x) - A(\eta)\right) dx ∇A(η)=exp(A(η))∫h(x)T(x)exp(η⊤T(x))dx=∫h(x)T(x)exp(η⊤T(x)−A(η))dx

注意,被积函数中的 exp ⁡ ( η ⊤ T ( x ) − A ( η ) ) \exp\left(\eta^\top T(x) - A(\eta)\right) exp(η⊤T(x)−A(η)) 与 h ( x ) h(x) h(x) 结合,正是指数族分布 q ( x ) q(x) q(x) 的表达式。于是:

∇ A ( η ) = ∫ T ( x )   q ( x )   d x = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \int T(x) \, q(x) \, dx = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=∫T(x)q(x)dx=Ex∼q[T(x)]

至此,我们完成了证明。这个推导过程只需要微积分的基本规则和指数族分布的定义,直观而严谨。

4. 在 M-Projection 中的应用:为什么能实现矩匹配

在变分推断中,我们经常面临这样的问题:已知一个复杂的分布 p ( x ) p(x) p(x)(可能是后验分布),我们希望用一个简单、便于计算的指数族分布 q ( x ) q(x) q(x) 去近似它。M-Projection(也称为矩投影)是一种常见的方法,它通过最大化 q q q 的期望对数似然来寻找最优的 q q q,即:

max ⁡ q ∈ Q E x ∼ p [ log ⁡ q ( x ) ] \max_{q \in \mathcal{Q}} \mathbb{E}_{x \sim p}[\log q(x)] q∈QmaxEx∼p[logq(x)]

其中 Q \mathcal{Q} Q 是指数族分布族。这个目标函数可以理解为在 p p p 的期望下, q q q 的对数似然尽可能大。

将指数族的形式代入 log ⁡ q ( x ) \log q(x) logq(x):

log ⁡ q ( x ) = log ⁡ h ( x ) + η ⊤ T ( x ) − A ( η ) \log q(x) = \log h(x) + \eta^\top T(x) - A(\eta) logq(x)=logh(x)+η⊤T(x)−A(η)

因此,目标函数为:

L ( η ) = E x ∼ p [ log ⁡ h ( x ) + η ⊤ T ( x ) − A ( η ) ] = E x ∼ p [ log ⁡ h ( x ) ] + η ⊤ E x ∼ p [ T ( x ) ] − A ( η ) \mathcal{L}(\eta) = \mathbb{E}{x \sim p}[\log h(x) + \eta^\top T(x) - A(\eta)] = \mathbb{E}{x \sim p}[\log h(x)] + \eta^\top \mathbb{E}_{x \sim p}[T(x)] - A(\eta) L(η)=Ex∼p[logh(x)+η⊤T(x)−A(η)]=Ex∼p[logh(x)]+η⊤Ex∼p[T(x)]−A(η)

注意到 E x ∼ p [ log ⁡ h ( x ) ] \mathbb{E}_{x \sim p}[\log h(x)] Ex∼p[logh(x)] 不依赖于 η \eta η,所以最大化 L ( η ) \mathcal{L}(\eta) L(η) 等价于最大化:

η ⊤ E x ∼ p [ T ( x ) ] − A ( η ) \eta^\top \mathbb{E}_{x \sim p}[T(x)] - A(\eta) η⊤Ex∼p[T(x)]−A(η)

对 η \eta η 求梯度并令其为零,得到最优性条件:

E x ∼ p [ T ( x ) ] − ∇ A ( η ) = 0 \mathbb{E}_{x \sim p}[T(x)] - \nabla A(\eta) = 0 Ex∼p[T(x)]−∇A(η)=0

即:

∇ A ( η ) = E x ∼ p [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim p}[T(x)] ∇A(η)=Ex∼p[T(x)]

但根据我们刚刚证明的性质, ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]。于是我们得到:

E x ∼ q [ T ( x ) ] = E x ∼ p [ T ( x ) ] \mathbb{E}{x \sim q}[T(x)] = \mathbb{E}{x \sim p}[T(x)] Ex∼q[T(x)]=Ex∼p[T(x)]

这正是矩匹配 条件:最优的指数族近似 q q q 在充分统计量的期望上与目标分布 p p p 完全一致。换句话说,M-Projection 寻找的 q q q 会"匹配" p p p 的矩(这里的矩是充分统计量的期望)。

5. 具体例子:高斯分布中的验证

为了帮助理解,我们用单变量高斯分布来具体验证 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)]。高斯分布的概率密度函数为:

q ( x ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) q(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) q(x)=2πσ2 1exp(−2σ2(x−μ)2)

我们希望将其写成指数族形式。展开指数部分:

− ( x − μ ) 2 2 σ 2 = − x 2 − 2 μ x + μ 2 2 σ 2 = μ σ 2 x − 1 2 σ 2 x 2 − μ 2 2 σ 2 -\frac{(x-\mu)^2}{2\sigma^2} = -\frac{x^2 - 2\mu x + \mu^2}{2\sigma^2} = \frac{\mu}{\sigma^2} x - \frac{1}{2\sigma^2} x^2 - \frac{\mu^2}{2\sigma^2} −2σ2(x−μ)2=−2σ2x2−2μx+μ2=σ2μx−2σ21x2−2σ2μ2

于是,我们可以识别:

  • 自然参数 η = [ η 1 , η 2 ] ⊤ \eta = [\eta_1, \eta_2]^\top η=[η1,η2]⊤,其中 η 1 = μ σ 2 \eta_1 = \frac{\mu}{\sigma^2} η1=σ2μ, η 2 = − 1 2 σ 2 \eta_2 = -\frac{1}{2\sigma^2} η2=−2σ21。
  • 充分统计量 T ( x ) = [ x , x 2 ] ⊤ T(x) = [x, x^2]^\top T(x)=[x,x2]⊤。
  • 基测度 h ( x ) = 1 h(x) = 1 h(x)=1(注意,前面的系数 1 2 π \frac{1}{\sqrt{2\pi}} 2π 1 与 x x x 无关,实际上可以归入 h ( x ) h(x) h(x),但通常在高斯分布中我们取 h ( x ) = 1 h(x)=1 h(x)=1,而将归一化常数全部吸收进 A ( η ) A(\eta) A(η))。
  • 对数配分函数 A ( η ) A(\eta) A(η) 需要满足 exp ⁡ ( A ( η ) ) = ∫ exp ⁡ ( η 1 x + η 2 x 2 ) d x \exp(A(\eta)) = \int \exp(\eta_1 x + \eta_2 x^2) dx exp(A(η))=∫exp(η1x+η2x2)dx。经过计算(这是一个高斯积分),可以得到:

A ( η ) = − η 1 2 4 η 2 − 1 2 log ⁡ ( − 2 η 2 ) A(\eta) = -\frac{\eta_1^2}{4\eta_2} - \frac{1}{2} \log(-2\eta_2) A(η)=−4η2η12−21log(−2η2)

为验证 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)],我们计算 ∇ A ( η ) \nabla A(\eta) ∇A(η) 的两个分量。

首先,对 η 1 \eta_1 η1 求偏导:

∂ A ∂ η 1 = − 2 η 1 4 η 2 = − η 1 2 η 2 \frac{\partial A}{\partial \eta_1} = -\frac{2\eta_1}{4\eta_2} = -\frac{\eta_1}{2\eta_2} ∂η1∂A=−4η22η1=−2η2η1

对 η 2 \eta_2 η2 求偏导:

∂ A ∂ η 2 = − η 1 2 4 ⋅ ( − 1 η 2 2 ) − 1 2 ⋅ 1 η 2 = η 1 2 4 η 2 2 − 1 2 η 2 \frac{\partial A}{\partial \eta_2} = -\frac{\eta_1^2}{4} \cdot \left(-\frac{1}{\eta_2^2}\right) - \frac{1}{2} \cdot \frac{1}{\eta_2} = \frac{\eta_1^2}{4\eta_2^2} - \frac{1}{2\eta_2} ∂η2∂A=−4η12⋅(−η221)−21⋅η21=4η22η12−2η21

现在,用 μ \mu μ 和 σ 2 \sigma^2 σ2 表示 η 1 \eta_1 η1 和 η 2 \eta_2 η2: η 1 = μ / σ 2 \eta_1 = \mu / \sigma^2 η1=μ/σ2, η 2 = − 1 / ( 2 σ 2 ) \eta_2 = -1/(2\sigma^2) η2=−1/(2σ2)。代入:

∂ A ∂ η 1 = − μ / σ 2 2 ⋅ ( − 1 / ( 2 σ 2 ) ) = − μ / σ 2 − 1 / σ 2 = μ \frac{\partial A}{\partial \eta_1} = -\frac{\mu / \sigma^2}{2 \cdot (-1/(2\sigma^2))} = -\frac{\mu / \sigma^2}{-1/\sigma^2} = \mu ∂η1∂A=−2⋅(−1/(2σ2))μ/σ2=−−1/σ2μ/σ2=μ

∂ A ∂ η 2 = ( μ / σ 2 ) 2 4 ⋅ ( 1 / ( 4 σ 4 ) ) − 1 2 ⋅ ( − 1 / ( 2 σ 2 ) ) = μ 2 / σ 4 1 / σ 4 + 1 1 / σ 2 = μ 2 + σ 2 \frac{\partial A}{\partial \eta_2} = \frac{(\mu / \sigma^2)^2}{4 \cdot (1/(4\sigma^4))} - \frac{1}{2 \cdot (-1/(2\sigma^2))} = \frac{\mu^2 / \sigma^4}{1/\sigma^4} + \frac{1}{1/\sigma^2} = \mu^2 + \sigma^2 ∂η2∂A=4⋅(1/(4σ4))(μ/σ2)2−2⋅(−1/(2σ2))1=1/σ4μ2/σ4+1/σ21=μ2+σ2

因此, ∇ A ( η ) = [ μ , μ 2 + σ 2 ] ⊤ \nabla A(\eta) = [\mu, \mu^2 + \sigma^2]^\top ∇A(η)=[μ,μ2+σ2]⊤。

而在高斯分布中, E [ x ] = μ \mathbb{E}[x] = \mu E[x]=μ, E [ x 2 ] = μ 2 + σ 2 \mathbb{E}[x^2] = \mu^2 + \sigma^2 E[x2]=μ2+σ2。所以 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}_{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)] 成立。同时,这也验证了高斯分布在 M-Projection 下会匹配目标分布的均值和二阶矩。

6. 总结

本文从指数族分布的基本形式出发,详细推导了 ∇ A ( η ) = E x ∼ q [ T ( x ) ] \nabla A(\eta) = \mathbb{E}{x \sim q}[T(x)] ∇A(η)=Ex∼q[T(x)] 这一核心性质。在此基础上,我们展示了这一性质在 M-Projection 中的关键作用:通过最大化期望对数似然,我们自然地导出了矩匹配条件 E x ∼ q [ T ( x ) ] = E x ∼ p [ T ( x ) ] \mathbb{E}{x \sim q}[T(x)] = \mathbb{E}_{x \sim p}[T(x)] Ex∼q[T(x)]=Ex∼p[T(x)]。最后,通过高斯分布的例子,我们验证了理论推导与直观结果的一致性。

相关推荐
我科绝伦(Huanhuan Zhou)2 小时前
分享一个自己写的智能巡检系统
运维·人工智能·自动化
狒狒热知识2 小时前
全媒体资源整合时代:软文营销推广迈入精准高效新征程构建传播新生态
人工智能·百度·营销
波动几何2 小时前
System-Controller完整能力手册
人工智能
DeepModel2 小时前
机器学习降维核心:奇异值分解 SVD
人工智能·python·机器学习
十铭忘2 小时前
认知循环架构与现有智能体:区别和联系
人工智能·架构
tang777892 小时前
OpenClaw数据采集实战:隧道代理实测测评
大数据·人工智能·爬虫·网络协议·tcp/ip·数据挖掘·opencllaw
蚂蚁数据AntData2 小时前
DB-GPT V0.8.0 版本更新|范式跃迁:AI + Data 驱动的数据分析交互体验升级
大数据·数据库·人工智能·数据分析·开源
Agent产品评测局2 小时前
能源行业自动化解决方案选型,安全与降本双提升:2026企业级智能体选型指南
运维·人工智能·安全·ai·chatgpt·自动化
杜子不疼.2 小时前
Spring Cloud + AI:微服务架构下的智能路由、故障自愈、日志分析
人工智能·spring cloud·架构