【课堂笔记】概率论-3

文章目录

- 指数族分布
- - 定义
  - 例子
- 更多可能用到的分布
- [矩/累积量生成函数（Moment/cumulant generating functions）](#矩/累积量生成函数（Moment/cumulant generating functions）)
- - 定义
  - 性质
- [特征函数（Characteristic Function）](#特征函数（Characteristic Function）)
- - 定义
  - 性质
  - 反演公式
  - 例子
- [共轭先验（Conjugate priors）](#共轭先验（Conjugate priors）)
- [Bregman散度（Bregman divergence）](#Bregman散度（Bregman divergence）)
- - 定义
  - 例子
  - 性质
- [Fenchel 共轭（Fenchel Conjugate）](#Fenchel 共轭（Fenchel Conjugate）)
- - 梯度与共轭的关系
  - [**Legendre-Fenchel 对偶恒等式**：](#Legendre-Fenchel 对偶恒等式：)
  - Bregman散度的对偶性
- [指数族 & Bregman散度](#指数族 & Bregman散度)
- 熵（Entropy）
- [KL散度（Kullback-Leibler Divergence）](#KL散度（Kullback-Leibler Divergence）)

指数族分布

定义

我们给出一类概率分布的通用表达式：
f ( x ; θ ) = h ( x ) exp ⁡ { < T ( x ) , θ > − b ( θ ) } f(x; \theta) = h(x)\exp\set{\left<T(x), \theta\right> - b(\theta)} f(x;θ)=h(x)exp{⟨T(x),θ⟩−b(θ)}

θ \theta θ：自然参数(natural parameter)
f ( x ; θ ) f(x;\theta) f(x;θ)：参数为 θ \theta θ的概率密度函数（相对于某个基测度 μ ( d x ) \mu(dx) μ(dx)）
h ( x ) ≥ 0 h(x)\ge 0 h(x)≥0：编码数据的支持集(support)，即哪些 x x x的值是可能的，它不依赖于 θ \theta θ
T ( x ) T(x) T(x)：充分统计量(sufficient statistics)，提取数据中的关键信息
b ( θ ) b(\theta) b(θ)：累积量函数（cumulant function），它确保了概率密度函数可以被归一化（即积分等于1）

满足这个定义的分布被称为指数族分布

定义 Θ = dom ( b ) : = { θ : b ( θ ) < ∞ } \Theta = \text{dom}(b) := \set{\theta : b(\theta) < \infty} Θ=dom(b):={θ:b(θ)<∞}，即让 b ( θ ) b(\theta) b(θ)有限的集合，称为自然参数空间。只有在这个空间内，对应的概率分布才是合法的。它有个很重要的几何特性：

Θ \Theta Θ是一个凸集（convex set）
b ( ⋅ ) b(\cdot) b(⋅)是凸函数

以及 b ( θ ) b(\theta) b(θ)能生成充分统计量 T ( x ) T(x) T(x)的各阶矩：
∇ b ( θ ) = E [ T ( X ) ] ∇ 2 b ( θ ) = Cov [ T ( X ) ] \nabla b(\theta) = \mathbb{E}[T(X)] \\ \nabla ^2b(\theta ) = \text{Cov}[T(X)] ∇b(θ)=E[T(X)]∇2b(θ)=Cov[T(X)]

此外，如果我们记 d μ d\mu dμ是典型的Lebesgue测度，记 d ν = h ( x ) d μ d\nu = h(x)d\mu dν=h(x)dμ，则可以把 h ( x ) h(x) h(x)"吸收"掉，然后有：
b = log ⁡ ∫ exp ⁡ ( < T ( x ) , θ > ) d ν b = \log \int \exp(\left<T(x), \theta\right>)d\nu b=log∫exp(⟨T(x),θ⟩)dν

例子

Bernoulli： p x ( 1 − p ) x = exp ⁡ [ x log ⁡ ( p 1 − p ) + l o g ( 1 − p ) ] p^x(1-p)^x = \exp[x\log(\frac{p}{1-p}) + log(1-p)] px(1−p)x=exp[xlog(1−pp)+log(1−p)]于是 T ( x ) = x , θ = log ⁡ ( p 1 − p ) , b ( θ ) = log ⁡ ( 1 + e θ ) T(x) = x, \theta=\log(\frac{p}{1-p}), b(\theta) = \log(1+e^\theta) T(x)=x,θ=log(1−pp),b(θ)=log(1+eθ)
Poisson: λ x e − λ x ! = 1 x ! exp ⁡ [ x log ⁡ ( λ ) − λ ] \frac{\lambda^xe^{-\lambda}}{x!}=\frac{1}{x!}\exp[x\log(\lambda) - \lambda] x!λxe−λ=x!1exp[xlog(λ)−λ]
于是 T ( x ) = x , θ = log ⁡ ( λ ) , b ( θ ) = e θ , h ( x ) = 1 x ! 1 x ∈ Z + T(x) = x, \theta=\log(\lambda),b(\theta) = e^\theta, h(x) = \frac{1}{x!}1_{x \in \mathbb{Z}_+} T(x)=x,θ=log(λ),b(θ)=eθ,h(x)=x!11x∈Z+

矩/累积量生成函数（Moment/cumulant generating functions）

定义

给定随机变量 X X X，定义矩生成函数 (MGF)：
M X ( t ) : = E X [ exp ⁡ < t , X > ] = ∫ exp ⁡ < t , X > d F ( x ) M_X(t) := \mathbb{E}_X[\exp \left<t, X\right>] = \int \exp\left<t, X\right>dF(x) MX(t):=EX[exp⟨t,X⟩]=∫exp⟨t,X⟩dF(x)

F ( x ) F(x) F(x)是 X X X的分布函数
t ∈ R n t \in \mathbb{R}^n t∈Rn

定义累积量生成函数 (CGF)：
m X ( t ) : = log ⁡ M X ( t ) m_X(t):= \log M_X(t) mX(t):=logMX(t)

这个函数是凸函数（由 Hölder 不等式可证）
M X ( t ) M_X(t) MX(t)并不是总是处处存在

性质

如果 M X ( t ) M_X(t) MX(t)在原点的一个开邻域内存在，则通过求导可以得到各阶矩：
∇ M ( 0 ) = [ E X ( exp ⁡ < t , X > ) ] t = 0 ′ = E [ X ] ∇ 2 M ( 0 ) = [ E X ∇ ( exp ⁡ < t , X > X ⊤ ) ] t = 0 = E [ X X ⊤ ] \nabla M(0) = [\mathbb{E}X(\exp\left<t, X\right>)]'{t=0} = \mathbb{E}[X] \\ \nabla^2 M(0) = [\mathbb{E}X\nabla(\exp\left<t, X\right>X^\top)]{t=0} = \mathbb{E}[XX^\top] ∇M(0)=[EX(exp⟨t,X⟩)]t=0′=E[X]∇2M(0)=[EX∇(exp⟨t,X⟩X⊤)]t=0=E[XX⊤]

特别的，对于单变量的随机变量 X X X，有
E [ X n ] = M ( n ) ( 0 ) \mathbb{E}[X^n] = M^{(n)}(0) E[Xn]=M(n)(0)

这基于以下性质：如果 M X ( t ) M_X(t) MX(t)在原点附近存在，则：

所有阶矩都存在
可以交换梯度 ∇ \nabla ∇和期望 E \mathbb{E} E（依据控制收敛定理）

考虑累积量生成函数 m ( t ) = log ⁡ M ( t ) m(t) = \log M(t) m(t)=logM(t)，则：
∇ m ( 0 ) = E [ X ] ∇ 2 m ( 0 ) = E [ ( X − E X ) ( X − E X ) ⊤ ] = Cov ( X ) \nabla m(0) = \mathbb{E}[X] \\ \nabla^2 m(0) = \mathbb{E}[(X-\mathbb{E}X)(X-\mathbb{E}X)^\top] = \text{Cov}(X) ∇m(0)=E[X]∇2m(0)=E[(X−EX)(X−EX)⊤]=Cov(X)

对于指数族分布 f ( x ; θ ) = h ( x ) exp ⁡ { < T ( x ) , θ > − b ( θ ) } f(x; \theta) = h(x)\exp\set{\left<T(x), \theta\right> - b(\theta)} f(x;θ)=h(x)exp{⟨T(x),θ⟩−b(θ)}对任意 θ ∈ Θ \theta \in \Theta θ∈Θ，充分统计量 T ( X ) T(X) T(X)的累计生成函数在 t = 0 t=0 t=0附近存在，且有：
m T ( t ) = b ( θ + t ) − b ( θ ) m_T(t) = b(\theta + t) - b(\theta) mT(t)=b(θ+t)−b(θ)

这意味着我们不需要显式地计算期望或方差，就可以通过 b ( θ ) b(\theta) b(θ)得到矩信息。

证明：
M T ( t ) = ∫ exp ⁡ ⟨ t , T ( x ) ⟩ h ( x ) exp ⁡ [ ⟨ T ( x ) , θ ⟩ − b ( θ ) ] d μ ( x ) = e − b ( θ ) ∫ h ( x ) exp ⁡ [ ⟨ T ( x ) , θ + t ⟩ ] d μ ( x ) = e − b ( θ ) e b ( θ + t ) . \begin{align*} M_T(t) &= \int \exp\langle t, T(x) \rangle h(x) \exp[\langle T(x), \theta \rangle - b(\theta)] \,\mathrm{d}\mu(x) \\ &= e^{-b(\theta)} \int h(x) \exp[\langle T(x), \theta + t \rangle] \,\mathrm{d}\mu(x) \\ &= e^{-b(\theta)} e^{b(\theta + t)}. \end{align*} MT(t)=∫exp⟨t,T(x)⟩h(x)exp[⟨T(x),θ⟩−b(θ)]dμ(x)=e−b(θ)∫h(x)exp[⟨T(x),θ+t⟩]dμ(x)=e−b(θ)eb(θ+t).

因此， ∇ b ( θ ) = E [ T ( X ) ] , ∇ 2 b ( θ ) = Var [ T ( X ) ] \nabla b(\theta) = \mathbb{E}[T(X)], \nabla^2 b(\theta) = \text{Var}[T(X)] ∇b(θ)=E[T(X)],∇2b(θ)=Var[T(X)]

特征函数（Characteristic Function）

定义

特征函数是随机变量 X X X的一个工具，定义为：
φ X ( t ) : = E [ e i t X ] = ∫ e i t x d F ( x ) , t ∈ R \varphi_X(t) := \mathbb{E}[e^{itX}] = \int e^{itx}dF(x), t\in \mathbb{R} φX(t):=E[eitX]=∫eitxdF(x),t∈R

i i i是虚数单位
F ( x ) F(x) F(x)是累积分布函数

特征函数本质是随机变量的傅里叶变换，因此它与傅里叶分析密切相关。

性质

存在性：对所有 t ∈ R t \in \mathbb{R} t∈R，特征函数都存在
有界性： ∣ φ X ( t ) ∣ ≤ 1 , φ X ( 0 ) = 1 |\varphi_X(t)|\le 1, \varphi_X(0) = 1 ∣φX(t)∣≤1,φX(0)=1
连续性：特征函数是一致连续的
唯一性：若两个随机变量 X , Y X, Y X,Y的特征函数相等，则它们同分布
如果矩生成函数 M X ( s ) M_X(s) MX(s)存在，则：
φ X ( t ) = M X ( i t ) \varphi_X(t) = M_X(it) φX(t)=MX(it)
如果 E [ X n ] \mathbb{E}[X^n] E[Xn]存在，则可以通过对特征函数求导得到：
E [ X n ] = i − n φ X ( n ) ( 0 ) \mathbb{E}[X^n] = i^{-n}\varphi_X^{(n)}(0) E[Xn]=i−nφX(n)(0)
即：第 n n n阶矩等于特征函数在 t = 0 t=0 t=0处的 n n n阶导数乘以 i − n i^{-n} i−n

反演公式

对于连续型分布，可以通过特征函数反推出概率密度函数 f ( x ) f(x) f(x)：
f ( x ) = 1 2 π ∫ − ∞ ∞ e − i t x φ X ( t ) d t f(x) = \frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\varphi_X(t)dt f(x)=2π1∫−∞∞e−itxφX(t)dt

这说明：特征函数可以完全刻画分布

例子

N ( μ , σ 2 ) : φ X ( t ) = exp ⁡ ( i μ t − σ 2 t 2 2 ) \mathcal{N}(\mu, \sigma^2): \varphi_X(t) = \exp(i\mu t - \frac{\sigma^2 t^2}{2}) N(μ,σ2):φX(t)=exp(iμt−2σ2t2)
Ber ( p ) \text{Ber}(p) Ber(p): φ X ( t ) = 1 − p + p e i t \varphi_X(t) = 1 - p + pe^{it} φX(t)=1−p+peit
Poi ( λ ) \text{Poi}(\lambda) Poi(λ): φ X ( t ) = exp ⁡ ( λ ( e i t − 1 ) ) \varphi_X(t) = \exp(\lambda(e^{it} - 1)) φX(t)=exp(λ(eit−1))
Exp ( λ ) \text{Exp}(\lambda) Exp(λ): φ X ( t ) = λ λ − i t \varphi_X(t) = \frac{\lambda}{\lambda - it} φX(t)=λ−itλ
Cauchy ( μ , γ ) \text{Cauchy}(\mu, \gamma) Cauchy(μ,γ):
f ( x ) = 1 π [ γ + ( x − μ ) 2 / γ ] φ X ( t ) = exp ⁡ ( i μ t − γ ∣ t ∣ ) f(x) = \frac{1}{\pi [\gamma + (x-\mu)^2 / \gamma]} \\ \varphi_X(t) = \exp(i\mu t - \gamma|t|) f(x)=π[γ+(x−μ)2/γ]1φX(t)=exp(iμt−γ∣t∣)
注意它没有MGF

共轭先验（Conjugate priors）

给出任意指数族分布
f ( x ; θ ) = h ( x ) exp ⁡ [ < T ( x ) , θ > − b ( θ ) ] f(x; \theta) = h(x)\exp[\left<T(x), \theta\right> - b(\theta)] f(x;θ)=h(x)exp[⟨T(x),θ⟩−b(θ)]

设一系列随机变量 X i ∼ i . i . d . f X_i \overset{i.i.d.}{\sim} f Xi∼i.i.d.f，则联合分布为：
f ( x 1 , . . . , x n ∣ θ ) = h ( x ) n exp ⁡ [ < ∑ T ( x i ) , θ > − n b ( θ ) ] f(x_1, ..., x_n\mid \theta) = h(x)^n\exp\left[\left<\sum T(x_i), \theta\right> - nb(\theta)\right] f(x1,...,xn∣θ)=h(x)nexp[⟨∑T(xi),θ⟩−nb(θ)]

我们选取一个先验分布：
f ( θ ; τ , n 0 ) = H ( τ , n 0 ) exp ⁡ [ < θ , τ > − n 0 b ( θ ) ] f(\theta; \tau, n_0) = H(\tau, n_0)\exp[\left<\theta, \tau\right> - n_0 b(\theta)] f(θ;τ,n0)=H(τ,n0)exp[⟨θ,τ⟩−n0b(θ)]

τ , n 0 \tau, n_0 τ,n0是超参数
底层测度是Lebesgue测度

然后会发现后验分布遵循一样的族：
f ( θ ∣ x 1 , . . . , x n ) = f ( θ ; τ ) f ( x 1 , . . . , x n ∣ θ ) f ( x ) ∝ exp ⁡ [ < θ , τ + ∑ T ( x i ) > − ( n + n 0 ) b ( θ ) ] \begin{align*} f(\theta \mid x_1, ..., x_n) &= \frac{f(\theta; \tau)f(x_1, ..., x_n \mid \theta)}{f(x)} \\ & \propto \exp\left[\left<\theta, \tau + \sum T(x_i)\right> - (n+n_0)b(\theta)\right] \end{align*} f(θ∣x1,...,xn)=f(x)f(θ;τ)f(x1,...,xn∣θ)∝exp[⟨θ,τ+∑T(xi)⟩−(n+n0)b(θ)]

Bregman散度（Bregman divergence）

定义

对于一个连续可微且严格凸函数 f : Ω → R f: \Omega \to \mathbb{R} f:Ω→R，其Bregman散度定义为：
D f ( x , y ) = Δ f ( x ) − f ( y ) − < ∇ f ( y ) , x − y > , ∀ x , y ∈ Ω \mathbf{D}_f(x, y) \overset{\Delta}{=} f(x) - f(y) - \left<\nabla f(y), x-y\right>, \forall x, y \in \Omega Df(x,y)=Δf(x)−f(y)−⟨∇f(y),x−y⟩,∀x,y∈Ω

称它为散度的原因是它满足 D f ( x , y ) > 0 , ∀ x ≠ y \mathbf{D}_f(x, y) > 0, \forall x \neq y Df(x,y)>0,∀x=y

例子

D ∥ ⋅ ∥ 2 2 / 2 ( x , y ) = ∥ x − y ∥ 2 2 / 2 ≡ D 2 ( metric 2 ) \mathbf{D}_{\|\cdot\|_2^2/2}(x, y) = \|x-y\|_2^2 / 2 \equiv \mathbf{D}_2 (\text{metric}^2) D∥⋅∥22/2(x,y)=∥x−y∥22/2≡D2(metric2)
即选择凸函数 f ( x ) = 1 2 ∥ x ∥ 2 2 f(x) = \frac{1}{2}\|x\|_2^2 f(x)=21∥x∥22时，对应的Bregman散度成了欧几里得距离的平方的一半。
设 φ ( p ) = ∑ p i log ⁡ p i \varphi(p) = \sum p_i \log p_i φ(p)=∑pilogpi（负熵）。则我们可以得到KL散度为：
D φ ( p , q ) = ∑ p i log ⁡ p i − ∑ q i log ⁡ q i − < 1 + log ⁡ q , p − q > = ∑ p i log ⁡ ( p i / q i ) − p i + q i = ∑ p i log ⁡ ( p i / q i ) if ∑ p i = ∑ q i = 1 \begin{align*} \mathbf{D}_\varphi(p, q) &= \sum p_i \log p_i - \sum q_i\log q_i - \left<1+\log q, p-q\right> \\ &= \sum p_i \log(p_i / q_i) - p_i + q_i \\ &= \sum p_i\log(p_i / q_i) \text{ if } \sum p_i = \sum q_i = 1 \end{align*} Dφ(p,q)=∑pilogpi−∑qilogqi−⟨1+logq,p−q⟩=∑pilog(pi/qi)−pi+qi=∑pilog(pi/qi) if ∑pi=∑qi=1

性质

设 φ , ϕ , ψ \varphi, \phi, \psi φ,ϕ,ψ是可微的且严格凸的，则

D φ ( ⋅ , y ) \mathbf{D}_\varphi(\cdot, y) Dφ(⋅,y)是严格凸的，如果给定 y ∈ Ω y \in \Omega y∈Ω
∇ x D φ ( x , y ) = ∇ φ ( x ) − ∇ φ ( y ) \nabla_x \mathbf{D}_\varphi(x, y) = \nabla \varphi(x) - \nabla \varphi(y) ∇xDφ(x,y)=∇φ(x)−∇φ(y)
D a φ + ϕ ( x , y ) = a D φ ( x , y ) + D ϕ ( x , y ) \mathbf{D}{a\varphi + \phi}(x, y) = a\mathbf{D}\varphi(x, y) + \mathbf{D}_{\phi}(x, y) Daφ+ϕ(x,y)=aDφ(x,y)+Dϕ(x,y)
D φ ( x , y ) = D φ ( x , z ) − D φ ( y , z ) − < x − y , ∇ φ ( y ) − ∇ φ ( z ) > \mathbf{D}\varphi(x, y) = \mathbf{D}\varphi(x, z) - \mathbf{D}_\varphi(y, z) - \left<x-y, \nabla \varphi(y) - \nabla \varphi(z)\right> Dφ(x,y)=Dφ(x,z)−Dφ(y,z)−⟨x−y,∇φ(y)−∇φ(z)⟩

Fenchel 共轭（Fenchel Conjugate）

给定函数 φ : R n → R ‾ \varphi: \mathbb{R}^n \to \overline{\mathbb{R}} φ:Rn→R（不一定是凸函数），其Fenchel共轭定义为：
φ ∗ ( z ) = sup ⁡ x < z , x > − φ ( x ) \varphi^*(z) = \sup_x\left<z, x\right> - \varphi(x) φ∗(z)=xsup⟨z,x⟩−φ(x)

这是一个标准的对偶变换

如果我们假设 dom φ = R n \text{dom} \varphi = \mathbb{R}^n domφ=Rn（即全空间有定义），且 φ \varphi φ严格凸， φ ∈ C 1 \varphi \in C^1 φ∈C1（一阶可微），则保证了下面结论的成立：

梯度与共轭的关系

对任意 z ∈ ( dom φ ∗ ) ∘ z \in (\text{dom}\varphi^*)^{\circ} z∈(domφ∗)∘（内部点），存在唯一的有限的 x x x满足：
z = ∇ φ ( x ) or x = ( ∇ φ ) − 1 ( z ) z = \nabla \varphi(x) \text{ or } x=(\nabla\varphi)^{-1}(z) z=∇φ(x) or x=(∇φ)−1(z)

这意味着梯度映射 ∇ φ \nabla \varphi ∇φ是从 x x x到 z z z的一一对应。定义对偶点 x ∗ = ∇ φ ( x ) x^* = \nabla \varphi(x) x∗=∇φ(x)，则映射 ∇ φ \nabla\varphi ∇φ有逆：
x ↦ x ∗ = ∇ φ ( x ) x ∗ ↦ x = ∇ φ ∗ ( x ∗ ) x \mapsto x^* = \nabla \varphi(x) \\ x^* \mapsto x = \nabla \varphi^*(x^*) x↦x∗=∇φ(x)x∗↦x=∇φ∗(x∗)

所以
∇ φ ∗ ( ∇ φ ( x ) ) = x ∇ φ ( ∇ φ ∗ ( x ∗ ) ) = x ∗ \nabla \varphi^*(\nabla \varphi(x)) = x \\ \nabla \varphi(\nabla \varphi^*(x^*)) = x^* ∇φ∗(∇φ(x))=x∇φ(∇φ∗(x∗))=x∗

Legendre-Fenchel 对偶恒等式：

φ ∗ ( x ∗ ) + φ ( x ) = < x , x ∗ > \varphi^*(x^*) + \varphi(x) = \left<x, x^*\right> φ∗(x∗)+φ(x)=⟨x,x∗⟩

注意，即使没有"严格凸"的条件，仍有Fenchel不等式 成立：
< x , y > ≤ f ( x ) + f ∗ ( y ) \left<x, y\right> \le f(x) + f^*(y) ⟨x,y⟩≤f(x)+f∗(y)

取等号条件为：

f f f是适当凸函数（proper convex）
y ∈ ∂ f ( x ) y \in \partial f(x) y∈∂f(x)

Bregman散度的对偶性

我们有关键结论：共轭上的Bregman散度相等

设 x ∗ = ∇ φ ( x ) , y ∗ = ∇ φ ( y ) x^* = \nabla \varphi(x), y^* = \nabla \varphi(y) x∗=∇φ(x),y∗=∇φ(y)，则有：
D φ ( x , y ) = D φ ∗ ( y ∗ , x ∗ ) \mathbf{D}\varphi(x, y) = \mathbf{D}{\varphi^*}(y^*, x^*) Dφ(x,y)=Dφ∗(y∗,x∗)

这说明一种对称性：虽然Bregman本身不对称，但通过共轭可以建立一种"对偶对称"

指数族 & Bregman散度

设概率密度函数为：
f ( y ∣ θ ) = h ( y ) exp ⁡ ( y ⊤ θ − b ( θ ) ) f(y\mid \theta) = h(y)\exp(y^\top \theta - b(\theta)) f(y∣θ)=h(y)exp(y⊤θ−b(θ))

定义域 dom b = { θ ∈ R n : b ( θ ) < + ∞ } \text{dom}b = \set{\theta \in \mathbb{R}^n: b(\theta) < +\infty} domb={θ∈Rn:b(θ)<+∞}是开集，于是对 φ = b ∗ \varphi = b^* φ=b∗，有：
μ ( θ ) : = E ( y ) = ∇ b ( θ ) − log ⁡ f ( y ∣ θ ) = D φ ( y , μ ( θ ) ) + c ( y ) \mu(\theta) := \mathbb{E}(y) = \nabla b(\theta) \\ -\log f(y\mid \theta) = \mathbf{D}_\varphi(y, \mu(\theta)) + c(y) μ(θ):=E(y)=∇b(θ)−logf(y∣θ)=Dφ(y,μ(θ))+c(y)

其中 c ( y ) c(y) c(y)不依赖于 θ \theta θ，这说明负对数似然可以分解为一个 Bregman 散度加上一个仅依赖于 y y y的项。

所以，负对数似然 ≈ Bregman 散度（从观测值到期望值的距离）

同时我们有 ∀ g ∈ ∂ φ , D φ ( y , μ ( θ ) ) = △ b ( θ , g ( y ) ) \forall g \in \partial \varphi, D_\varphi (y, \mu(\theta)) = \triangle _b(\theta, g(y)) ∀g∈∂φ,Dφ(y,μ(θ))=△b(θ,g(y))。

如果 b ∈ C ( 1 ) b\in \mathcal{C}^{(1)} b∈C(1)且是严格凸的， g = ∇ φ = ( ∇ b ) − 1 g = \nabla \varphi = (\nabla b)^{-1} g=∇φ=(∇b)−1且
D φ ( y , μ ( θ ) ) = D b ( θ , g ( y ) ) \mathbf{D}_\varphi(y, \mu(\theta)) = \mathbf{D}_b(\theta, g(y)) Dφ(y,μ(θ))=Db(θ,g(y))

证明：
− < y , θ > + b ( θ ) = − < y , θ > + { < μ , θ > − φ ( μ ) } = − φ ( μ ) − < y − μ , θ > = − φ ( μ ) − < y − μ , ∇ φ ( μ ) > = D φ ( y , μ ) − φ ( y ) \begin{align*} -\left<y, \theta\right> + b(\theta) &= -\left<y, \theta\right> + \set{\left<\mu, \theta\right> - \varphi(\mu)} \\ &= -\varphi(\mu) - \left<y-\mu, \theta\right> \\ &= -\varphi(\mu) - \left<y-\mu, \nabla \varphi(\mu)\right> \\ &= \mathbf{D}_\varphi(y, \mu) - \varphi(y) \end{align*} −⟨y,θ⟩+b(θ)=−⟨y,θ⟩+{⟨μ,θ⟩−φ(μ)}=−φ(μ)−⟨y−μ,θ⟩=−φ(μ)−⟨y−μ,∇φ(μ)⟩=Dφ(y,μ)−φ(y)

熵（Entropy）

对于概率向量 y ∈ P n y \in \mathcal{P}^n y∈Pn（即所有分量非负且和为1的向量），其对应的随机变量的熵定义为：
H ( y ) : = − ∑ y i log ⁡ y i H(y) := -\sum y_i\log y_i H(y):=−∑yilogyi

通常我们会选用负熵 − H ( y ) -H(y) −H(y)来做优化。

连续情况下： H ( p ) = − ∫ p ( x ) log ⁡ p ( x ) d x H(p) = -\int p(x) \log p(x) dx H(p)=−∫p(x)logp(x)dx

KL散度（Kullback-Leibler Divergence）

定义两个离散概率分布 p p p和 q q q之间的KL散度 为：
K ( p ∥ q ) = ∑ p i log ⁡ p i q i K(p \| q) = \sum p_i \log \frac{p_i}{q_i} K(p∥q)=∑pilogqipi

这也被称为相对熵（relative entropy）

有限性条件：当 q i = 0 q_i=0 qi=0，必须有 p i = 0 p_i=0 pi=0，否则KL散度为无穷大，同时约定 0 log ⁡ 0 = 0 0\log 0 = 0 0log0=0
非归一化形式：
K ( p ∥ q ) = ∑ { p i log ⁡ p i q i − p i + q i } K(p \| q) = \sum \set{p_i\log \frac{p_i}{q_i} - p_i + q_i} K(p∥q)=∑{pilogqipi−pi+qi}
这是函数 ∑ t i log ⁡ t i \sum t_i\log t_i ∑tilogti的Bregman散度。

等价表示：
K ( p ∥ q ) = − ∑ p i log ⁡ q i + ∑ p i log ⁡ p i = H ( p , q ) − H ( p ) K(p\| q) = -\sum p_i \log q_i + \sum p_i\log p_i = H(p, q) - H(p) K(p∥q)=−∑pilogqi+∑pilogpi=H(p,q)−H(p)

其中：

H ( p , q ) = − ∑ p i log ⁡ q i H(p ,q) = -\sum p_i \log q_i H(p,q)=−∑pilogqi被称为交叉熵（cross-entropy）
H ( p ) H(p) H(p)是 p p p的熵

连续情况下： K ( p ∥ q ) = ∫ p ( x ) log ⁡ ( p ( x ) q ( x ) ) d x K(p\|q) = \int p(x) \log \left(\frac{p(x)}{q(x)}\right)dx K(p∥q)=∫p(x)log(q(x)p(x))dx