文章目录
-
- 指数族分布
- 更多可能用到的分布
- [矩/累积量生成函数(Moment/cumulant generating functions)](#矩/累积量生成函数(Moment/cumulant generating functions))
- [特征函数(Characteristic Function)](#特征函数(Characteristic Function))
- [共轭先验(Conjugate priors)](#共轭先验(Conjugate priors))
- [Bregman散度(Bregman divergence)](#Bregman散度(Bregman divergence))
- [Fenchel 共轭(Fenchel Conjugate)](#Fenchel 共轭(Fenchel Conjugate))
-
- 梯度与共轭的关系
- [**Legendre-Fenchel 对偶恒等式**:](#Legendre-Fenchel 对偶恒等式:)
- Bregman散度的对偶性
- [指数族 & Bregman散度](#指数族 & Bregman散度)
- 熵(Entropy)
- [KL散度(Kullback-Leibler Divergence)](#KL散度(Kullback-Leibler Divergence))
指数族分布
定义
我们给出一类概率分布的通用表达式:
f ( x ; θ ) = h ( x ) exp { < T ( x ) , θ > − b ( θ ) } f(x; \theta) = h(x)\exp\set{\left<T(x), \theta\right> - b(\theta)} f(x;θ)=h(x)exp{⟨T(x),θ⟩−b(θ)}
- θ \theta θ:自然参数(natural parameter)
- f ( x ; θ ) f(x;\theta) f(x;θ):参数为 θ \theta θ的概率密度函数(相对于某个基测度 μ ( d x ) \mu(dx) μ(dx))
- h ( x ) ≥ 0 h(x)\ge 0 h(x)≥0:编码数据的支持集(support),即哪些 x x x的值是可能的,它不依赖于 θ \theta θ
- T ( x ) T(x) T(x):充分统计量(sufficient statistics),提取数据中的关键信息
- b ( θ ) b(\theta) b(θ):累积量函数(cumulant function),它确保了概率密度函数可以被归一化(即积分等于1)
满足这个定义的分布被称为指数族分布
定义 Θ = dom ( b ) : = { θ : b ( θ ) < ∞ } \Theta = \text{dom}(b) := \set{\theta : b(\theta) < \infty} Θ=dom(b):={θ:b(θ)<∞},即让 b ( θ ) b(\theta) b(θ)有限的集合,称为自然参数空间。只有在这个空间内,对应的概率分布才是合法的。它有个很重要的几何特性:
- Θ \Theta Θ是一个凸集(convex set)
- b ( ⋅ ) b(\cdot) b(⋅)是凸函数
以及 b ( θ ) b(\theta) b(θ)能生成充分统计量 T ( x ) T(x) T(x)的各阶矩:
∇ b ( θ ) = E [ T ( X ) ] ∇ 2 b ( θ ) = Cov [ T ( X ) ] \nabla b(\theta) = \mathbb{E}[T(X)] \\ \nabla ^2b(\theta ) = \text{Cov}[T(X)] ∇b(θ)=E[T(X)]∇2b(θ)=Cov[T(X)]
此外,如果我们记 d μ d\mu dμ是典型的Lebesgue测度,记 d ν = h ( x ) d μ d\nu = h(x)d\mu dν=h(x)dμ,则可以把 h ( x ) h(x) h(x)"吸收"掉,然后有:
b = log ∫ exp ( < T ( x ) , θ > ) d ν b = \log \int \exp(\left<T(x), \theta\right>)d\nu b=log∫exp(⟨T(x),θ⟩)dν
例子
- Bernoulli: p x ( 1 − p ) x = exp [ x log ( p 1 − p ) + l o g ( 1 − p ) ] p^x(1-p)^x = \exp[x\log(\frac{p}{1-p}) + log(1-p)] px(1−p)x=exp[xlog(1−pp)+log(1−p)]于是 T ( x ) = x , θ = log ( p 1 − p ) , b ( θ ) = log ( 1 + e θ ) T(x) = x, \theta=\log(\frac{p}{1-p}), b(\theta) = \log(1+e^\theta) T(x)=x,θ=log(1−pp),b(θ)=log(1+eθ)
- Poisson: λ x e − λ x ! = 1 x ! exp [ x log ( λ ) − λ ] \frac{\lambda^xe^{-\lambda}}{x!}=\frac{1}{x!}\exp[x\log(\lambda) - \lambda] x!λxe−λ=x!1exp[xlog(λ)−λ]
于是 T ( x ) = x , θ = log ( λ ) , b ( θ ) = e θ , h ( x ) = 1 x ! 1 x ∈ Z + T(x) = x, \theta=\log(\lambda),b(\theta) = e^\theta, h(x) = \frac{1}{x!}1_{x \in \mathbb{Z}_+} T(x)=x,θ=log(λ),b(θ)=eθ,h(x)=x!11x∈Z+
更多可能用到的分布
- Gamma(a, b): f ( x ; a , b ) = b a Γ ( a ) x a − 1 e − b x f(x;a, b) = \frac{b^a}{\Gamma(a)}x^{a-1}e^{-bx} f(x;a,b)=Γ(a)baxa−1e−bx
均值为 a b \frac{a}{b} ba,方差为 a b 2 \frac{a}{b^2} b2a - Beta(a, b): f ( x ; a , b ) = Γ ( a + b ) Γ ( a ) Γ ( b ) x a − 1 ( 1 − x ) b − 1 , x ∈ [ 0 , 1 ] f(x;a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} x^{a-1}(1-x)^{b-1}, x\in [0, 1] f(x;a,b)=Γ(a)Γ(b)Γ(a+b)xa−1(1−x)b−1,x∈[0,1]
均值为 a a + b \frac{a}{a+b} a+ba,方差为 a b ( a + b ) 2 ( a + b + 1 ) \frac{ab}{(a+b)^2(a+b+1)} (a+b)2(a+b+1)ab - Dirichlet( α 1 , . . . , α m \alpha_1, ..., \alpha_m α1,...,αm): f ( x ; α ) = Γ ( ∑ m i = 1 α i ) ∏ m i = 1 Γ ( α i ) ∏ m i = 1 x i α i − 1 f(\mathbf{x};\mathbf{\alpha})=\frac{\Gamma(\underset{i=1}{\overset{m}{\sum}}\alpha_i)}{\underset{i=1}{\overset{m}{\prod}}\Gamma(\alpha_i)}\underset{i=1}{\overset{m}{\prod}}x_i^{\alpha_i-1} f(x;α)=i=1∏mΓ(αi)Γ(i=1∑mαi)i=1∏mxiαi−1
概率分布的支撑集为 P m : = { x ∈ R m : x i ≥ 0 , ∑ x i = 1 } \mathcal{P}^m := \set{\mathbf{x} \in \mathbb{R}^m: x_i \ge 0, \sum x_i = 1} Pm:={x∈Rm:xi≥0,∑xi=1}
X i X_i Xi的均值为 α i ∑ m j = 1 α j \frac{\alpha_i}{\underset{j=1}{\overset{m}{\sum}}\alpha_j} j=1∑mαjαi
它是Beta分布的多元推广
矩/累积量生成函数(Moment/cumulant generating functions)
定义
给定随机变量 X X X,定义矩生成函数 (MGF):
M X ( t ) : = E X [ exp < t , X > ] = ∫ exp < t , X > d F ( x ) M_X(t) := \mathbb{E}_X[\exp \left<t, X\right>] = \int \exp\left<t, X\right>dF(x) MX(t):=EX[exp⟨t,X⟩]=∫exp⟨t,X⟩dF(x)
- F ( x ) F(x) F(x)是 X X X的分布函数
- t ∈ R n t \in \mathbb{R}^n t∈Rn
定义累积量生成函数 (CGF):
m X ( t ) : = log M X ( t ) m_X(t):= \log M_X(t) mX(t):=logMX(t)
- 这个函数是凸函数(由 Hölder 不等式可证)
- M X ( t ) M_X(t) MX(t)并不是总是处处存在
性质
如果 M X ( t ) M_X(t) MX(t)在原点的一个开邻域内存在,则通过求导可以得到各阶矩:
∇ M ( 0 ) = [ E X ( exp < t , X > ) ] t = 0 ′ = E [ X ] ∇ 2 M ( 0 ) = [ E X ∇ ( exp < t , X > X ⊤ ) ] t = 0 = E [ X X ⊤ ] \nabla M(0) = [\mathbb{E}X(\exp\left<t, X\right>)]'{t=0} = \mathbb{E}[X] \\ \nabla^2 M(0) = [\mathbb{E}X\nabla(\exp\left<t, X\right>X^\top)]{t=0} = \mathbb{E}[XX^\top] ∇M(0)=[EX(exp⟨t,X⟩)]t=0′=E[X]∇2M(0)=[EX∇(exp⟨t,X⟩X⊤)]t=0=E[XX⊤]
特别的,对于单变量的随机变量 X X X,有
E [ X n ] = M ( n ) ( 0 ) \mathbb{E}[X^n] = M^{(n)}(0) E[Xn]=M(n)(0)
这基于以下性质:如果 M X ( t ) M_X(t) MX(t)在原点附近存在,则:
- 所有阶矩都存在
- 可以交换梯度 ∇ \nabla ∇和期望 E \mathbb{E} E(依据控制收敛定理)
考虑累积量生成函数 m ( t ) = log M ( t ) m(t) = \log M(t) m(t)=logM(t),则:
∇ m ( 0 ) = E [ X ] ∇ 2 m ( 0 ) = E [ ( X − E X ) ( X − E X ) ⊤ ] = Cov ( X ) \nabla m(0) = \mathbb{E}[X] \\ \nabla^2 m(0) = \mathbb{E}[(X-\mathbb{E}X)(X-\mathbb{E}X)^\top] = \text{Cov}(X) ∇m(0)=E[X]∇2m(0)=E[(X−EX)(X−EX)⊤]=Cov(X)
对于指数族分布 f ( x ; θ ) = h ( x ) exp { < T ( x ) , θ > − b ( θ ) } f(x; \theta) = h(x)\exp\set{\left<T(x), \theta\right> - b(\theta)} f(x;θ)=h(x)exp{⟨T(x),θ⟩−b(θ)}对任意 θ ∈ Θ \theta \in \Theta θ∈Θ,充分统计量 T ( X ) T(X) T(X)的累计生成函数在 t = 0 t=0 t=0附近存在,且有:
m T ( t ) = b ( θ + t ) − b ( θ ) m_T(t) = b(\theta + t) - b(\theta) mT(t)=b(θ+t)−b(θ)
- 这意味着我们不需要显式地计算期望或方差,就可以通过 b ( θ ) b(\theta) b(θ)得到矩信息。
证明:
M T ( t ) = ∫ exp ⟨ t , T ( x ) ⟩ h ( x ) exp [ ⟨ T ( x ) , θ ⟩ − b ( θ ) ] d μ ( x ) = e − b ( θ ) ∫ h ( x ) exp [ ⟨ T ( x ) , θ + t ⟩ ] d μ ( x ) = e − b ( θ ) e b ( θ + t ) . \begin{align*} M_T(t) &= \int \exp\langle t, T(x) \rangle h(x) \exp[\langle T(x), \theta \rangle - b(\theta)] \,\mathrm{d}\mu(x) \\ &= e^{-b(\theta)} \int h(x) \exp[\langle T(x), \theta + t \rangle] \,\mathrm{d}\mu(x) \\ &= e^{-b(\theta)} e^{b(\theta + t)}. \end{align*} MT(t)=∫exp⟨t,T(x)⟩h(x)exp[⟨T(x),θ⟩−b(θ)]dμ(x)=e−b(θ)∫h(x)exp[⟨T(x),θ+t⟩]dμ(x)=e−b(θ)eb(θ+t).
因此, ∇ b ( θ ) = E [ T ( X ) ] , ∇ 2 b ( θ ) = Var [ T ( X ) ] \nabla b(\theta) = \mathbb{E}[T(X)], \nabla^2 b(\theta) = \text{Var}[T(X)] ∇b(θ)=E[T(X)],∇2b(θ)=Var[T(X)]
特征函数(Characteristic Function)
定义
特征函数是随机变量 X X X的一个工具,定义为:
φ X ( t ) : = E [ e i t X ] = ∫ e i t x d F ( x ) , t ∈ R \varphi_X(t) := \mathbb{E}[e^{itX}] = \int e^{itx}dF(x), t\in \mathbb{R} φX(t):=E[eitX]=∫eitxdF(x),t∈R
- i i i是虚数单位
- F ( x ) F(x) F(x)是累积分布函数
特征函数本质是随机变量的傅里叶变换,因此它与傅里叶分析密切相关。
性质
- 存在性:对所有 t ∈ R t \in \mathbb{R} t∈R,特征函数都存在
- 有界性: ∣ φ X ( t ) ∣ ≤ 1 , φ X ( 0 ) = 1 |\varphi_X(t)|\le 1, \varphi_X(0) = 1 ∣φX(t)∣≤1,φX(0)=1
- 连续性:特征函数是一致连续的
- 唯一性:若两个随机变量 X , Y X, Y X,Y的特征函数相等,则它们同分布
- 如果矩生成函数 M X ( s ) M_X(s) MX(s)存在,则:
φ X ( t ) = M X ( i t ) \varphi_X(t) = M_X(it) φX(t)=MX(it) - 如果 E [ X n ] \mathbb{E}[X^n] E[Xn]存在,则可以通过对特征函数求导得到:
E [ X n ] = i − n φ X ( n ) ( 0 ) \mathbb{E}[X^n] = i^{-n}\varphi_X^{(n)}(0) E[Xn]=i−nφX(n)(0)
即:第 n n n阶矩等于特征函数在 t = 0 t=0 t=0处的 n n n阶导数乘以 i − n i^{-n} i−n
反演公式
对于连续型分布,可以通过特征函数反推出概率密度函数 f ( x ) f(x) f(x):
f ( x ) = 1 2 π ∫ − ∞ ∞ e − i t x φ X ( t ) d t f(x) = \frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\varphi_X(t)dt f(x)=2π1∫−∞∞e−itxφX(t)dt
这说明:特征函数可以完全刻画分布
例子
- N ( μ , σ 2 ) : φ X ( t ) = exp ( i μ t − σ 2 t 2 2 ) \mathcal{N}(\mu, \sigma^2): \varphi_X(t) = \exp(i\mu t - \frac{\sigma^2 t^2}{2}) N(μ,σ2):φX(t)=exp(iμt−2σ2t2)
- Ber ( p ) \text{Ber}(p) Ber(p): φ X ( t ) = 1 − p + p e i t \varphi_X(t) = 1 - p + pe^{it} φX(t)=1−p+peit
- Poi ( λ ) \text{Poi}(\lambda) Poi(λ): φ X ( t ) = exp ( λ ( e i t − 1 ) ) \varphi_X(t) = \exp(\lambda(e^{it} - 1)) φX(t)=exp(λ(eit−1))
- Exp ( λ ) \text{Exp}(\lambda) Exp(λ): φ X ( t ) = λ λ − i t \varphi_X(t) = \frac{\lambda}{\lambda - it} φX(t)=λ−itλ
- Cauchy ( μ , γ ) \text{Cauchy}(\mu, \gamma) Cauchy(μ,γ):
f ( x ) = 1 π [ γ + ( x − μ ) 2 / γ ] φ X ( t ) = exp ( i μ t − γ ∣ t ∣ ) f(x) = \frac{1}{\pi [\gamma + (x-\mu)^2 / \gamma]} \\ \varphi_X(t) = \exp(i\mu t - \gamma|t|) f(x)=π[γ+(x−μ)2/γ]1φX(t)=exp(iμt−γ∣t∣)
注意它没有MGF
共轭先验(Conjugate priors)
给出任意指数族分布
f ( x ; θ ) = h ( x ) exp [ < T ( x ) , θ > − b ( θ ) ] f(x; \theta) = h(x)\exp[\left<T(x), \theta\right> - b(\theta)] f(x;θ)=h(x)exp[⟨T(x),θ⟩−b(θ)]
设一系列随机变量 X i ∼ i . i . d . f X_i \overset{i.i.d.}{\sim} f Xi∼i.i.d.f,则联合分布为:
f ( x 1 , . . . , x n ∣ θ ) = h ( x ) n exp [ < ∑ T ( x i ) , θ > − n b ( θ ) ] f(x_1, ..., x_n\mid \theta) = h(x)^n\exp\left[\left<\sum T(x_i), \theta\right> - nb(\theta)\right] f(x1,...,xn∣θ)=h(x)nexp[⟨∑T(xi),θ⟩−nb(θ)]
我们选取一个先验分布:
f ( θ ; τ , n 0 ) = H ( τ , n 0 ) exp [ < θ , τ > − n 0 b ( θ ) ] f(\theta; \tau, n_0) = H(\tau, n_0)\exp[\left<\theta, \tau\right> - n_0 b(\theta)] f(θ;τ,n0)=H(τ,n0)exp[⟨θ,τ⟩−n0b(θ)]
- τ , n 0 \tau, n_0 τ,n0是超参数
- 底层测度是Lebesgue测度
然后会发现后验分布遵循一样的族:
f ( θ ∣ x 1 , . . . , x n ) = f ( θ ; τ ) f ( x 1 , . . . , x n ∣ θ ) f ( x ) ∝ exp [ < θ , τ + ∑ T ( x i ) > − ( n + n 0 ) b ( θ ) ] \begin{align*} f(\theta \mid x_1, ..., x_n) &= \frac{f(\theta; \tau)f(x_1, ..., x_n \mid \theta)}{f(x)} \\ & \propto \exp\left[\left<\theta, \tau + \sum T(x_i)\right> - (n+n_0)b(\theta)\right] \end{align*} f(θ∣x1,...,xn)=f(x)f(θ;τ)f(x1,...,xn∣θ)∝exp[⟨θ,τ+∑T(xi)⟩−(n+n0)b(θ)]
Bregman散度(Bregman divergence)
定义
对于一个连续可微且严格凸函数 f : Ω → R f: \Omega \to \mathbb{R} f:Ω→R,其Bregman散度定义为:
D f ( x , y ) = Δ f ( x ) − f ( y ) − < ∇ f ( y ) , x − y > , ∀ x , y ∈ Ω \mathbf{D}_f(x, y) \overset{\Delta}{=} f(x) - f(y) - \left<\nabla f(y), x-y\right>, \forall x, y \in \Omega Df(x,y)=Δf(x)−f(y)−⟨∇f(y),x−y⟩,∀x,y∈Ω
称它为散度的原因是它满足 D f ( x , y ) > 0 , ∀ x ≠ y \mathbf{D}_f(x, y) > 0, \forall x \neq y Df(x,y)>0,∀x=y
例子
- D ∥ ⋅ ∥ 2 2 / 2 ( x , y ) = ∥ x − y ∥ 2 2 / 2 ≡ D 2 ( metric 2 ) \mathbf{D}_{\|\cdot\|_2^2/2}(x, y) = \|x-y\|_2^2 / 2 \equiv \mathbf{D}_2 (\text{metric}^2) D∥⋅∥22/2(x,y)=∥x−y∥22/2≡D2(metric2)
即选择凸函数 f ( x ) = 1 2 ∥ x ∥ 2 2 f(x) = \frac{1}{2}\|x\|_2^2 f(x)=21∥x∥22时,对应的Bregman散度成了欧几里得距离的平方的一半。 - 设 φ ( p ) = ∑ p i log p i \varphi(p) = \sum p_i \log p_i φ(p)=∑pilogpi(负熵)。则我们可以得到KL散度为:
D φ ( p , q ) = ∑ p i log p i − ∑ q i log q i − < 1 + log q , p − q > = ∑ p i log ( p i / q i ) − p i + q i = ∑ p i log ( p i / q i ) if ∑ p i = ∑ q i = 1 \begin{align*} \mathbf{D}_\varphi(p, q) &= \sum p_i \log p_i - \sum q_i\log q_i - \left<1+\log q, p-q\right> \\ &= \sum p_i \log(p_i / q_i) - p_i + q_i \\ &= \sum p_i\log(p_i / q_i) \text{ if } \sum p_i = \sum q_i = 1 \end{align*} Dφ(p,q)=∑pilogpi−∑qilogqi−⟨1+logq,p−q⟩=∑pilog(pi/qi)−pi+qi=∑pilog(pi/qi) if ∑pi=∑qi=1
性质
设 φ , ϕ , ψ \varphi, \phi, \psi φ,ϕ,ψ是可微的且严格凸的,则
- D φ ( ⋅ , y ) \mathbf{D}_\varphi(\cdot, y) Dφ(⋅,y)是严格凸的,如果给定 y ∈ Ω y \in \Omega y∈Ω
- ∇ x D φ ( x , y ) = ∇ φ ( x ) − ∇ φ ( y ) \nabla_x \mathbf{D}_\varphi(x, y) = \nabla \varphi(x) - \nabla \varphi(y) ∇xDφ(x,y)=∇φ(x)−∇φ(y)
- D a φ + ϕ ( x , y ) = a D φ ( x , y ) + D ϕ ( x , y ) \mathbf{D}{a\varphi + \phi}(x, y) = a\mathbf{D}\varphi(x, y) + \mathbf{D}_{\phi}(x, y) Daφ+ϕ(x,y)=aDφ(x,y)+Dϕ(x,y)
- D φ ( x , y ) = D φ ( x , z ) − D φ ( y , z ) − < x − y , ∇ φ ( y ) − ∇ φ ( z ) > \mathbf{D}\varphi(x, y) = \mathbf{D}\varphi(x, z) - \mathbf{D}_\varphi(y, z) - \left<x-y, \nabla \varphi(y) - \nabla \varphi(z)\right> Dφ(x,y)=Dφ(x,z)−Dφ(y,z)−⟨x−y,∇φ(y)−∇φ(z)⟩
Fenchel 共轭(Fenchel Conjugate)
给定函数 φ : R n → R ‾ \varphi: \mathbb{R}^n \to \overline{\mathbb{R}} φ:Rn→R(不一定是凸函数),其Fenchel共轭定义为:
φ ∗ ( z ) = sup x < z , x > − φ ( x ) \varphi^*(z) = \sup_x\left<z, x\right> - \varphi(x) φ∗(z)=xsup⟨z,x⟩−φ(x)
这是一个标准的对偶变换
如果我们假设 dom φ = R n \text{dom} \varphi = \mathbb{R}^n domφ=Rn(即全空间有定义),且 φ \varphi φ严格凸, φ ∈ C 1 \varphi \in C^1 φ∈C1(一阶可微),则保证了下面结论的成立:
梯度与共轭的关系
对任意 z ∈ ( dom φ ∗ ) ∘ z \in (\text{dom}\varphi^*)^{\circ} z∈(domφ∗)∘(内部点),存在唯一的有限的 x x x满足:
z = ∇ φ ( x ) or x = ( ∇ φ ) − 1 ( z ) z = \nabla \varphi(x) \text{ or } x=(\nabla\varphi)^{-1}(z) z=∇φ(x) or x=(∇φ)−1(z)
这意味着梯度映射 ∇ φ \nabla \varphi ∇φ是从 x x x到 z z z的一一对应。定义对偶点 x ∗ = ∇ φ ( x ) x^* = \nabla \varphi(x) x∗=∇φ(x),则映射 ∇ φ \nabla\varphi ∇φ有逆:
x ↦ x ∗ = ∇ φ ( x ) x ∗ ↦ x = ∇ φ ∗ ( x ∗ ) x \mapsto x^* = \nabla \varphi(x) \\ x^* \mapsto x = \nabla \varphi^*(x^*) x↦x∗=∇φ(x)x∗↦x=∇φ∗(x∗)
所以
∇ φ ∗ ( ∇ φ ( x ) ) = x ∇ φ ( ∇ φ ∗ ( x ∗ ) ) = x ∗ \nabla \varphi^*(\nabla \varphi(x)) = x \\ \nabla \varphi(\nabla \varphi^*(x^*)) = x^* ∇φ∗(∇φ(x))=x∇φ(∇φ∗(x∗))=x∗
Legendre-Fenchel 对偶恒等式:
φ ∗ ( x ∗ ) + φ ( x ) = < x , x ∗ > \varphi^*(x^*) + \varphi(x) = \left<x, x^*\right> φ∗(x∗)+φ(x)=⟨x,x∗⟩
注意,即使没有"严格凸"的条件,仍有Fenchel不等式 成立:
< x , y > ≤ f ( x ) + f ∗ ( y ) \left<x, y\right> \le f(x) + f^*(y) ⟨x,y⟩≤f(x)+f∗(y)
取等号条件为:
- f f f是适当凸函数(proper convex)
- y ∈ ∂ f ( x ) y \in \partial f(x) y∈∂f(x)
Bregman散度的对偶性
我们有关键结论:共轭上的Bregman散度相等
设 x ∗ = ∇ φ ( x ) , y ∗ = ∇ φ ( y ) x^* = \nabla \varphi(x), y^* = \nabla \varphi(y) x∗=∇φ(x),y∗=∇φ(y),则有:
D φ ( x , y ) = D φ ∗ ( y ∗ , x ∗ ) \mathbf{D}\varphi(x, y) = \mathbf{D}{\varphi^*}(y^*, x^*) Dφ(x,y)=Dφ∗(y∗,x∗)
这说明一种对称性:虽然Bregman本身不对称,但通过共轭可以建立一种"对偶对称"
指数族 & Bregman散度
设概率密度函数为:
f ( y ∣ θ ) = h ( y ) exp ( y ⊤ θ − b ( θ ) ) f(y\mid \theta) = h(y)\exp(y^\top \theta - b(\theta)) f(y∣θ)=h(y)exp(y⊤θ−b(θ))
定义域 dom b = { θ ∈ R n : b ( θ ) < + ∞ } \text{dom}b = \set{\theta \in \mathbb{R}^n: b(\theta) < +\infty} domb={θ∈Rn:b(θ)<+∞}是开集,于是对 φ = b ∗ \varphi = b^* φ=b∗,有:
μ ( θ ) : = E ( y ) = ∇ b ( θ ) − log f ( y ∣ θ ) = D φ ( y , μ ( θ ) ) + c ( y ) \mu(\theta) := \mathbb{E}(y) = \nabla b(\theta) \\ -\log f(y\mid \theta) = \mathbf{D}_\varphi(y, \mu(\theta)) + c(y) μ(θ):=E(y)=∇b(θ)−logf(y∣θ)=Dφ(y,μ(θ))+c(y)
其中 c ( y ) c(y) c(y)不依赖于 θ \theta θ,这说明负对数似然可以分解为一个 Bregman 散度 加上一个仅依赖于 y y y的项。
所以,负对数似然 ≈ Bregman 散度(从观测值到期望值的距离)
同时我们有 ∀ g ∈ ∂ φ , D φ ( y , μ ( θ ) ) = △ b ( θ , g ( y ) ) \forall g \in \partial \varphi, D_\varphi (y, \mu(\theta)) = \triangle _b(\theta, g(y)) ∀g∈∂φ,Dφ(y,μ(θ))=△b(θ,g(y))。
如果 b ∈ C ( 1 ) b\in \mathcal{C}^{(1)} b∈C(1)且是严格凸的, g = ∇ φ = ( ∇ b ) − 1 g = \nabla \varphi = (\nabla b)^{-1} g=∇φ=(∇b)−1且
D φ ( y , μ ( θ ) ) = D b ( θ , g ( y ) ) \mathbf{D}_\varphi(y, \mu(\theta)) = \mathbf{D}_b(\theta, g(y)) Dφ(y,μ(θ))=Db(θ,g(y))
证明:
− < y , θ > + b ( θ ) = − < y , θ > + { < μ , θ > − φ ( μ ) } = − φ ( μ ) − < y − μ , θ > = − φ ( μ ) − < y − μ , ∇ φ ( μ ) > = D φ ( y , μ ) − φ ( y ) \begin{align*} -\left<y, \theta\right> + b(\theta) &= -\left<y, \theta\right> + \set{\left<\mu, \theta\right> - \varphi(\mu)} \\ &= -\varphi(\mu) - \left<y-\mu, \theta\right> \\ &= -\varphi(\mu) - \left<y-\mu, \nabla \varphi(\mu)\right> \\ &= \mathbf{D}_\varphi(y, \mu) - \varphi(y) \end{align*} −⟨y,θ⟩+b(θ)=−⟨y,θ⟩+{⟨μ,θ⟩−φ(μ)}=−φ(μ)−⟨y−μ,θ⟩=−φ(μ)−⟨y−μ,∇φ(μ)⟩=Dφ(y,μ)−φ(y)
熵(Entropy)
对于概率向量 y ∈ P n y \in \mathcal{P}^n y∈Pn(即所有分量非负且和为1的向量),其对应的随机变量的熵定义为:
H ( y ) : = − ∑ y i log y i H(y) := -\sum y_i\log y_i H(y):=−∑yilogyi
通常我们会选用负熵 − H ( y ) -H(y) −H(y)来做优化。
连续情况下: H ( p ) = − ∫ p ( x ) log p ( x ) d x H(p) = -\int p(x) \log p(x) dx H(p)=−∫p(x)logp(x)dx
KL散度(Kullback-Leibler Divergence)
定义两个离散概率分布 p p p和 q q q之间的KL散度 为:
K ( p ∥ q ) = ∑ p i log p i q i K(p \| q) = \sum p_i \log \frac{p_i}{q_i} K(p∥q)=∑pilogqipi
这也被称为相对熵(relative entropy)
- 有限性条件:当 q i = 0 q_i=0 qi=0,必须有 p i = 0 p_i=0 pi=0,否则KL散度为无穷大,同时约定 0 log 0 = 0 0\log 0 = 0 0log0=0
- 非归一化形式:
K ( p ∥ q ) = ∑ { p i log p i q i − p i + q i } K(p \| q) = \sum \set{p_i\log \frac{p_i}{q_i} - p_i + q_i} K(p∥q)=∑{pilogqipi−pi+qi}
这是函数 ∑ t i log t i \sum t_i\log t_i ∑tilogti的Bregman散度。
等价表示:
K ( p ∥ q ) = − ∑ p i log q i + ∑ p i log p i = H ( p , q ) − H ( p ) K(p\| q) = -\sum p_i \log q_i + \sum p_i\log p_i = H(p, q) - H(p) K(p∥q)=−∑pilogqi+∑pilogpi=H(p,q)−H(p)
其中:
- H ( p , q ) = − ∑ p i log q i H(p ,q) = -\sum p_i \log q_i H(p,q)=−∑pilogqi被称为交叉熵(cross-entropy)
- H ( p ) H(p) H(p)是 p p p的熵
连续情况下: K ( p ∥ q ) = ∫ p ( x ) log ( p ( x ) q ( x ) ) d x K(p\|q) = \int p(x) \log \left(\frac{p(x)}{q(x)}\right)dx K(p∥q)=∫p(x)log(q(x)p(x))dx