【课堂笔记】概率论-3

文章目录

指数族分布

定义

我们给出一类概率分布的通用表达式:
f ( x ; θ ) = h ( x ) exp ⁡ {   < T ( x ) , θ > − b ( θ )   } f(x; \theta) = h(x)\exp\set{\left<T(x), \theta\right> - b(\theta)} f(x;θ)=h(x)exp{⟨T(x),θ⟩−b(θ)}

  • θ \theta θ:自然参数(natural parameter)
  • f ( x ; θ ) f(x;\theta) f(x;θ):参数为 θ \theta θ的概率密度函数(相对于某个基测度 μ ( d x ) \mu(dx) μ(dx))
  • h ( x ) ≥ 0 h(x)\ge 0 h(x)≥0:编码数据的支持集(support),即哪些 x x x的值是可能的,它不依赖于 θ \theta θ
  • T ( x ) T(x) T(x):充分统计量(sufficient statistics),提取数据中的关键信息
  • b ( θ ) b(\theta) b(θ):累积量函数(cumulant function),它确保了概率密度函数可以被归一化(即积分等于1)

满足这个定义的分布被称为指数族分布

定义 Θ = dom ( b ) : = {   θ : b ( θ ) < ∞   } \Theta = \text{dom}(b) := \set{\theta : b(\theta) < \infty} Θ=dom(b):={θ:b(θ)<∞},即让 b ( θ ) b(\theta) b(θ)有限的集合,称为自然参数空间。只有在这个空间内,对应的概率分布才是合法的。它有个很重要的几何特性:

  • Θ \Theta Θ是一个凸集(convex set)
  • b ( ⋅ ) b(\cdot) b(⋅)是凸函数

以及 b ( θ ) b(\theta) b(θ)能生成充分统计量 T ( x ) T(x) T(x)的各阶矩:
∇ b ( θ ) = E [ T ( X ) ] ∇ 2 b ( θ ) = Cov [ T ( X ) ] \nabla b(\theta) = \mathbb{E}[T(X)] \\ \nabla ^2b(\theta ) = \text{Cov}[T(X)] ∇b(θ)=E[T(X)]∇2b(θ)=Cov[T(X)]

此外,如果我们记 d μ d\mu dμ是典型的Lebesgue测度,记 d ν = h ( x ) d μ d\nu = h(x)d\mu dν=h(x)dμ,则可以把 h ( x ) h(x) h(x)"吸收"掉,然后有:
b = log ⁡ ∫ exp ⁡ ( < T ( x ) , θ > ) d ν b = \log \int \exp(\left<T(x), \theta\right>)d\nu b=log∫exp(⟨T(x),θ⟩)dν

例子

  • Bernoulli: p x ( 1 − p ) x = exp ⁡ [ x log ⁡ ( p 1 − p ) + l o g ( 1 − p ) ] p^x(1-p)^x = \exp[x\log(\frac{p}{1-p}) + log(1-p)] px(1−p)x=exp[xlog(1−pp)+log(1−p)]于是 T ( x ) = x , θ = log ⁡ ( p 1 − p ) , b ( θ ) = log ⁡ ( 1 + e θ ) T(x) = x, \theta=\log(\frac{p}{1-p}), b(\theta) = \log(1+e^\theta) T(x)=x,θ=log(1−pp),b(θ)=log(1+eθ)
  • Poisson: λ x e − λ x ! = 1 x ! exp ⁡ [ x log ⁡ ( λ ) − λ ] \frac{\lambda^xe^{-\lambda}}{x!}=\frac{1}{x!}\exp[x\log(\lambda) - \lambda] x!λxe−λ=x!1exp[xlog(λ)−λ]
    于是 T ( x ) = x , θ = log ⁡ ( λ ) , b ( θ ) = e θ , h ( x ) = 1 x ! 1 x ∈ Z + T(x) = x, \theta=\log(\lambda),b(\theta) = e^\theta, h(x) = \frac{1}{x!}1_{x \in \mathbb{Z}_+} T(x)=x,θ=log(λ),b(θ)=eθ,h(x)=x!11x∈Z+

更多可能用到的分布

  • Gamma(a, b): f ( x ; a , b ) = b a Γ ( a ) x a − 1 e − b x f(x;a, b) = \frac{b^a}{\Gamma(a)}x^{a-1}e^{-bx} f(x;a,b)=Γ(a)baxa−1e−bx
    均值为 a b \frac{a}{b} ba,方差为 a b 2 \frac{a}{b^2} b2a
  • Beta(a, b): f ( x ; a , b ) = Γ ( a + b ) Γ ( a ) Γ ( b ) x a − 1 ( 1 − x ) b − 1 , x ∈ [ 0 , 1 ] f(x;a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} x^{a-1}(1-x)^{b-1}, x\in [0, 1] f(x;a,b)=Γ(a)Γ(b)Γ(a+b)xa−1(1−x)b−1,x∈[0,1]
    均值为 a a + b \frac{a}{a+b} a+ba,方差为 a b ( a + b ) 2 ( a + b + 1 ) \frac{ab}{(a+b)^2(a+b+1)} (a+b)2(a+b+1)ab
  • Dirichlet( α 1 , . . . , α m \alpha_1, ..., \alpha_m α1,...,αm): f ( x ; α ) = Γ ( ∑ m i = 1 α i ) ∏ m i = 1 Γ ( α i ) ∏ m i = 1 x i α i − 1 f(\mathbf{x};\mathbf{\alpha})=\frac{\Gamma(\underset{i=1}{\overset{m}{\sum}}\alpha_i)}{\underset{i=1}{\overset{m}{\prod}}\Gamma(\alpha_i)}\underset{i=1}{\overset{m}{\prod}}x_i^{\alpha_i-1} f(x;α)=i=1∏mΓ(αi)Γ(i=1∑mαi)i=1∏mxiαi−1
    概率分布的支撑集为 P m : = {   x ∈ R m : x i ≥ 0 , ∑ x i = 1   } \mathcal{P}^m := \set{\mathbf{x} \in \mathbb{R}^m: x_i \ge 0, \sum x_i = 1} Pm:={x∈Rm:xi≥0,∑xi=1}
    X i X_i Xi的均值为 α i ∑ m j = 1 α j \frac{\alpha_i}{\underset{j=1}{\overset{m}{\sum}}\alpha_j} j=1∑mαjαi
    它是Beta分布的多元推广

矩/累积量生成函数(Moment/cumulant generating functions)

定义

给定随机变量 X X X,定义矩生成函数 (MGF):
M X ( t ) : = E X [ exp ⁡ < t , X > ] = ∫ exp ⁡ < t , X > d F ( x ) M_X(t) := \mathbb{E}_X[\exp \left<t, X\right>] = \int \exp\left<t, X\right>dF(x) MX(t):=EX[exp⟨t,X⟩]=∫exp⟨t,X⟩dF(x)

  • F ( x ) F(x) F(x)是 X X X的分布函数
  • t ∈ R n t \in \mathbb{R}^n t∈Rn

定义累积量生成函数 (CGF):
m X ( t ) : = log ⁡ M X ( t ) m_X(t):= \log M_X(t) mX(t):=logMX(t)

  • 这个函数是凸函数(由 Hölder 不等式可证)
  • M X ( t ) M_X(t) MX(t)并不是总是处处存在

性质

如果 M X ( t ) M_X(t) MX(t)在原点的一个开邻域内存在,则通过求导可以得到各阶矩:
∇ M ( 0 ) = [ E X ( exp ⁡ < t , X > ) ] t = 0 ′ = E [ X ] ∇ 2 M ( 0 ) = [ E X ∇ ( exp ⁡ < t , X > X ⊤ ) ] t = 0 = E [ X X ⊤ ] \nabla M(0) = [\mathbb{E}X(\exp\left<t, X\right>)]'{t=0} = \mathbb{E}[X] \\ \nabla^2 M(0) = [\mathbb{E}X\nabla(\exp\left<t, X\right>X^\top)]{t=0} = \mathbb{E}[XX^\top] ∇M(0)=[EX(exp⟨t,X⟩)]t=0′=E[X]∇2M(0)=[EX∇(exp⟨t,X⟩X⊤)]t=0=E[XX⊤]

特别的,对于单变量的随机变量 X X X,有
E [ X n ] = M ( n ) ( 0 ) \mathbb{E}[X^n] = M^{(n)}(0) E[Xn]=M(n)(0)

这基于以下性质:如果 M X ( t ) M_X(t) MX(t)在原点附近存在,则:

  • 所有阶矩都存在
  • 可以交换梯度 ∇ \nabla ∇和期望 E \mathbb{E} E(依据控制收敛定理

考虑累积量生成函数 m ( t ) = log ⁡ M ( t ) m(t) = \log M(t) m(t)=logM(t),则:
∇ m ( 0 ) = E [ X ] ∇ 2 m ( 0 ) = E [ ( X − E X ) ( X − E X ) ⊤ ] = Cov ( X ) \nabla m(0) = \mathbb{E}[X] \\ \nabla^2 m(0) = \mathbb{E}[(X-\mathbb{E}X)(X-\mathbb{E}X)^\top] = \text{Cov}(X) ∇m(0)=E[X]∇2m(0)=E[(X−EX)(X−EX)⊤]=Cov(X)

对于指数族分布 f ( x ; θ ) = h ( x ) exp ⁡ {   < T ( x ) , θ > − b ( θ )   } f(x; \theta) = h(x)\exp\set{\left<T(x), \theta\right> - b(\theta)} f(x;θ)=h(x)exp{⟨T(x),θ⟩−b(θ)}对任意 θ ∈ Θ \theta \in \Theta θ∈Θ,充分统计量 T ( X ) T(X) T(X)的累计生成函数在 t = 0 t=0 t=0附近存在,且有:
m T ( t ) = b ( θ + t ) − b ( θ ) m_T(t) = b(\theta + t) - b(\theta) mT(t)=b(θ+t)−b(θ)

  • 这意味着我们不需要显式地计算期望或方差,就可以通过 b ( θ ) b(\theta) b(θ)得到矩信息。

证明:
M T ( t ) = ∫ exp ⁡ ⟨ t , T ( x ) ⟩ h ( x ) exp ⁡ [ ⟨ T ( x ) , θ ⟩ − b ( θ ) ]   d μ ( x ) = e − b ( θ ) ∫ h ( x ) exp ⁡ [ ⟨ T ( x ) , θ + t ⟩ ]   d μ ( x ) = e − b ( θ ) e b ( θ + t ) . \begin{align*} M_T(t) &= \int \exp\langle t, T(x) \rangle h(x) \exp[\langle T(x), \theta \rangle - b(\theta)] \,\mathrm{d}\mu(x) \\ &= e^{-b(\theta)} \int h(x) \exp[\langle T(x), \theta + t \rangle] \,\mathrm{d}\mu(x) \\ &= e^{-b(\theta)} e^{b(\theta + t)}. \end{align*} MT(t)=∫exp⟨t,T(x)⟩h(x)exp[⟨T(x),θ⟩−b(θ)]dμ(x)=e−b(θ)∫h(x)exp[⟨T(x),θ+t⟩]dμ(x)=e−b(θ)eb(θ+t).

因此, ∇ b ( θ ) = E [ T ( X ) ] , ∇ 2 b ( θ ) = Var [ T ( X ) ] \nabla b(\theta) = \mathbb{E}[T(X)], \nabla^2 b(\theta) = \text{Var}[T(X)] ∇b(θ)=E[T(X)],∇2b(θ)=Var[T(X)]

特征函数(Characteristic Function)

定义

特征函数是随机变量 X X X的一个工具,定义为:
φ X ( t ) : = E [ e i t X ] = ∫ e i t x d F ( x ) , t ∈ R \varphi_X(t) := \mathbb{E}[e^{itX}] = \int e^{itx}dF(x), t\in \mathbb{R} φX(t):=E[eitX]=∫eitxdF(x),t∈R

  • i i i是虚数单位
  • F ( x ) F(x) F(x)是累积分布函数

特征函数本质是随机变量的傅里叶变换,因此它与傅里叶分析密切相关。

性质

  • 存在性:对所有 t ∈ R t \in \mathbb{R} t∈R,特征函数都存在
  • 有界性: ∣ φ X ( t ) ∣ ≤ 1 , φ X ( 0 ) = 1 |\varphi_X(t)|\le 1, \varphi_X(0) = 1 ∣φX(t)∣≤1,φX(0)=1
  • 连续性:特征函数是一致连续的
  • 唯一性:若两个随机变量 X , Y X, Y X,Y的特征函数相等,则它们同分布
  • 如果矩生成函数 M X ( s ) M_X(s) MX(s)存在,则:
    φ X ( t ) = M X ( i t ) \varphi_X(t) = M_X(it) φX(t)=MX(it)
  • 如果 E [ X n ] \mathbb{E}[X^n] E[Xn]存在,则可以通过对特征函数求导得到:
    E [ X n ] = i − n φ X ( n ) ( 0 ) \mathbb{E}[X^n] = i^{-n}\varphi_X^{(n)}(0) E[Xn]=i−nφX(n)(0)
    即:第 n n n阶矩等于特征函数在 t = 0 t=0 t=0处的 n n n阶导数乘以 i − n i^{-n} i−n

反演公式

对于连续型分布,可以通过特征函数反推出概率密度函数 f ( x ) f(x) f(x):
f ( x ) = 1 2 π ∫ − ∞ ∞ e − i t x φ X ( t ) d t f(x) = \frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\varphi_X(t)dt f(x)=2π1∫−∞∞e−itxφX(t)dt

这说明:特征函数可以完全刻画分布

例子

  • N ( μ , σ 2 ) : φ X ( t ) = exp ⁡ ( i μ t − σ 2 t 2 2 ) \mathcal{N}(\mu, \sigma^2): \varphi_X(t) = \exp(i\mu t - \frac{\sigma^2 t^2}{2}) N(μ,σ2):φX(t)=exp(iμt−2σ2t2)
  • Ber ( p ) \text{Ber}(p) Ber(p): φ X ( t ) = 1 − p + p e i t \varphi_X(t) = 1 - p + pe^{it} φX(t)=1−p+peit
  • Poi ( λ ) \text{Poi}(\lambda) Poi(λ): φ X ( t ) = exp ⁡ ( λ ( e i t − 1 ) ) \varphi_X(t) = \exp(\lambda(e^{it} - 1)) φX(t)=exp(λ(eit−1))
  • Exp ( λ ) \text{Exp}(\lambda) Exp(λ): φ X ( t ) = λ λ − i t \varphi_X(t) = \frac{\lambda}{\lambda - it} φX(t)=λ−itλ
  • Cauchy ( μ , γ ) \text{Cauchy}(\mu, \gamma) Cauchy(μ,γ):
    f ( x ) = 1 π [ γ + ( x − μ ) 2 / γ ] φ X ( t ) = exp ⁡ ( i μ t − γ ∣ t ∣ ) f(x) = \frac{1}{\pi [\gamma + (x-\mu)^2 / \gamma]} \\ \varphi_X(t) = \exp(i\mu t - \gamma|t|) f(x)=π[γ+(x−μ)2/γ]1φX(t)=exp(iμt−γ∣t∣)
    注意它没有MGF

共轭先验(Conjugate priors)

给出任意指数族分布
f ( x ; θ ) = h ( x ) exp ⁡ [ < T ( x ) , θ > − b ( θ ) ] f(x; \theta) = h(x)\exp[\left<T(x), \theta\right> - b(\theta)] f(x;θ)=h(x)exp[⟨T(x),θ⟩−b(θ)]

设一系列随机变量 X i ∼ i . i . d . f X_i \overset{i.i.d.}{\sim} f Xi∼i.i.d.f,则联合分布为:
f ( x 1 , . . . , x n ∣ θ ) = h ( x ) n exp ⁡ [ < ∑ T ( x i ) , θ > − n b ( θ ) ] f(x_1, ..., x_n\mid \theta) = h(x)^n\exp\left[\left<\sum T(x_i), \theta\right> - nb(\theta)\right] f(x1,...,xn∣θ)=h(x)nexp[⟨∑T(xi),θ⟩−nb(θ)]

我们选取一个先验分布:
f ( θ ; τ , n 0 ) = H ( τ , n 0 ) exp ⁡ [ < θ , τ > − n 0 b ( θ ) ] f(\theta; \tau, n_0) = H(\tau, n_0)\exp[\left<\theta, \tau\right> - n_0 b(\theta)] f(θ;τ,n0)=H(τ,n0)exp[⟨θ,τ⟩−n0b(θ)]

  • τ , n 0 \tau, n_0 τ,n0是超参数
  • 底层测度是Lebesgue测度

然后会发现后验分布遵循一样的族:
f ( θ ∣ x 1 , . . . , x n ) = f ( θ ; τ ) f ( x 1 , . . . , x n ∣ θ ) f ( x ) ∝ exp ⁡ [ < θ , τ + ∑ T ( x i ) > − ( n + n 0 ) b ( θ ) ] \begin{align*} f(\theta \mid x_1, ..., x_n) &= \frac{f(\theta; \tau)f(x_1, ..., x_n \mid \theta)}{f(x)} \\ & \propto \exp\left[\left<\theta, \tau + \sum T(x_i)\right> - (n+n_0)b(\theta)\right] \end{align*} f(θ∣x1,...,xn)=f(x)f(θ;τ)f(x1,...,xn∣θ)∝exp[⟨θ,τ+∑T(xi)⟩−(n+n0)b(θ)]

Bregman散度(Bregman divergence)

定义

对于一个连续可微且严格凸函数 f : Ω → R f: \Omega \to \mathbb{R} f:Ω→R,其Bregman散度定义为:
D f ( x , y ) = Δ f ( x ) − f ( y ) − < ∇ f ( y ) , x − y > , ∀ x , y ∈ Ω \mathbf{D}_f(x, y) \overset{\Delta}{=} f(x) - f(y) - \left<\nabla f(y), x-y\right>, \forall x, y \in \Omega Df(x,y)=Δf(x)−f(y)−⟨∇f(y),x−y⟩,∀x,y∈Ω

称它为散度的原因是它满足 D f ( x , y ) > 0 , ∀ x ≠ y \mathbf{D}_f(x, y) > 0, \forall x \neq y Df(x,y)>0,∀x=y

例子

  • D ∥ ⋅ ∥ 2 2 / 2 ( x , y ) = ∥ x − y ∥ 2 2 / 2 ≡ D 2 ( metric 2 ) \mathbf{D}_{\|\cdot\|_2^2/2}(x, y) = \|x-y\|_2^2 / 2 \equiv \mathbf{D}_2 (\text{metric}^2) D∥⋅∥22/2(x,y)=∥x−y∥22/2≡D2(metric2)
    即选择凸函数 f ( x ) = 1 2 ∥ x ∥ 2 2 f(x) = \frac{1}{2}\|x\|_2^2 f(x)=21∥x∥22时,对应的Bregman散度成了欧几里得距离的平方的一半。
  • 设 φ ( p ) = ∑ p i log ⁡ p i \varphi(p) = \sum p_i \log p_i φ(p)=∑pilogpi(负熵)。则我们可以得到KL散度为:
    D φ ( p , q ) = ∑ p i log ⁡ p i − ∑ q i log ⁡ q i − < 1 + log ⁡ q , p − q > = ∑ p i log ⁡ ( p i / q i ) − p i + q i = ∑ p i log ⁡ ( p i / q i ) if ∑ p i = ∑ q i = 1 \begin{align*} \mathbf{D}_\varphi(p, q) &= \sum p_i \log p_i - \sum q_i\log q_i - \left<1+\log q, p-q\right> \\ &= \sum p_i \log(p_i / q_i) - p_i + q_i \\ &= \sum p_i\log(p_i / q_i) \text{ if } \sum p_i = \sum q_i = 1 \end{align*} Dφ(p,q)=∑pilogpi−∑qilogqi−⟨1+logq,p−q⟩=∑pilog(pi/qi)−pi+qi=∑pilog(pi/qi) if ∑pi=∑qi=1

性质

设 φ , ϕ , ψ \varphi, \phi, \psi φ,ϕ,ψ是可微的且严格凸的,则

  • D φ ( ⋅ , y ) \mathbf{D}_\varphi(\cdot, y) Dφ(⋅,y)是严格凸的,如果给定 y ∈ Ω y \in \Omega y∈Ω
  • ∇ x D φ ( x , y ) = ∇ φ ( x ) − ∇ φ ( y ) \nabla_x \mathbf{D}_\varphi(x, y) = \nabla \varphi(x) - \nabla \varphi(y) ∇xDφ(x,y)=∇φ(x)−∇φ(y)
  • D a φ + ϕ ( x , y ) = a D φ ( x , y ) + D ϕ ( x , y ) \mathbf{D}{a\varphi + \phi}(x, y) = a\mathbf{D}\varphi(x, y) + \mathbf{D}_{\phi}(x, y) Daφ+ϕ(x,y)=aDφ(x,y)+Dϕ(x,y)
  • D φ ( x , y ) = D φ ( x , z ) − D φ ( y , z ) − < x − y , ∇ φ ( y ) − ∇ φ ( z ) > \mathbf{D}\varphi(x, y) = \mathbf{D}\varphi(x, z) - \mathbf{D}_\varphi(y, z) - \left<x-y, \nabla \varphi(y) - \nabla \varphi(z)\right> Dφ(x,y)=Dφ(x,z)−Dφ(y,z)−⟨x−y,∇φ(y)−∇φ(z)⟩

Fenchel 共轭(Fenchel Conjugate)

给定函数 φ : R n → R ‾ \varphi: \mathbb{R}^n \to \overline{\mathbb{R}} φ:Rn→R(不一定是凸函数),其Fenchel共轭定义为:
φ ∗ ( z ) = sup ⁡ x < z , x > − φ ( x ) \varphi^*(z) = \sup_x\left<z, x\right> - \varphi(x) φ∗(z)=xsup⟨z,x⟩−φ(x)

这是一个标准的对偶变换

如果我们假设 dom φ = R n \text{dom} \varphi = \mathbb{R}^n domφ=Rn(即全空间有定义),且 φ \varphi φ严格凸, φ ∈ C 1 \varphi \in C^1 φ∈C1(一阶可微),则保证了下面结论的成立:

梯度与共轭的关系

对任意 z ∈ ( dom φ ∗ ) ∘ z \in (\text{dom}\varphi^*)^{\circ} z∈(domφ∗)∘(内部点),存在唯一的有限的 x x x满足:
z = ∇ φ ( x ) or x = ( ∇ φ ) − 1 ( z ) z = \nabla \varphi(x) \text{ or } x=(\nabla\varphi)^{-1}(z) z=∇φ(x) or x=(∇φ)−1(z)

这意味着梯度映射 ∇ φ \nabla \varphi ∇φ是从 x x x到 z z z的一一对应。定义对偶点 x ∗ = ∇ φ ( x ) x^* = \nabla \varphi(x) x∗=∇φ(x),则映射 ∇ φ \nabla\varphi ∇φ有逆:
x ↦ x ∗ = ∇ φ ( x ) x ∗ ↦ x = ∇ φ ∗ ( x ∗ ) x \mapsto x^* = \nabla \varphi(x) \\ x^* \mapsto x = \nabla \varphi^*(x^*) x↦x∗=∇φ(x)x∗↦x=∇φ∗(x∗)

所以
∇ φ ∗ ( ∇ φ ( x ) ) = x ∇ φ ( ∇ φ ∗ ( x ∗ ) ) = x ∗ \nabla \varphi^*(\nabla \varphi(x)) = x \\ \nabla \varphi(\nabla \varphi^*(x^*)) = x^* ∇φ∗(∇φ(x))=x∇φ(∇φ∗(x∗))=x∗

Legendre-Fenchel 对偶恒等式

φ ∗ ( x ∗ ) + φ ( x ) = < x , x ∗ > \varphi^*(x^*) + \varphi(x) = \left<x, x^*\right> φ∗(x∗)+φ(x)=⟨x,x∗⟩

注意,即使没有"严格凸"的条件,仍有Fenchel不等式 成立:
< x , y > ≤ f ( x ) + f ∗ ( y ) \left<x, y\right> \le f(x) + f^*(y) ⟨x,y⟩≤f(x)+f∗(y)

取等号条件为:

  • f f f是适当凸函数(proper convex)
  • y ∈ ∂ f ( x ) y \in \partial f(x) y∈∂f(x)

Bregman散度的对偶性

我们有关键结论:共轭上的Bregman散度相等

设 x ∗ = ∇ φ ( x ) , y ∗ = ∇ φ ( y ) x^* = \nabla \varphi(x), y^* = \nabla \varphi(y) x∗=∇φ(x),y∗=∇φ(y),则有:
D φ ( x , y ) = D φ ∗ ( y ∗ , x ∗ ) \mathbf{D}\varphi(x, y) = \mathbf{D}{\varphi^*}(y^*, x^*) Dφ(x,y)=Dφ∗(y∗,x∗)

这说明一种对称性:虽然Bregman本身不对称,但通过共轭可以建立一种"对偶对称"

指数族 & Bregman散度

设概率密度函数为:
f ( y ∣ θ ) = h ( y ) exp ⁡ ( y ⊤ θ − b ( θ ) ) f(y\mid \theta) = h(y)\exp(y^\top \theta - b(\theta)) f(y∣θ)=h(y)exp(y⊤θ−b(θ))

定义域 dom b = {   θ ∈ R n : b ( θ ) < + ∞   } \text{dom}b = \set{\theta \in \mathbb{R}^n: b(\theta) < +\infty} domb={θ∈Rn:b(θ)<+∞}是开集,于是对 φ = b ∗ \varphi = b^* φ=b∗,有:
μ ( θ ) : = E ( y ) = ∇ b ( θ ) − log ⁡ f ( y ∣ θ ) = D φ ( y , μ ( θ ) ) + c ( y ) \mu(\theta) := \mathbb{E}(y) = \nabla b(\theta) \\ -\log f(y\mid \theta) = \mathbf{D}_\varphi(y, \mu(\theta)) + c(y) μ(θ):=E(y)=∇b(θ)−logf(y∣θ)=Dφ(y,μ(θ))+c(y)

其中 c ( y ) c(y) c(y)不依赖于 θ \theta θ,这说明负对数似然可以分解为一个 Bregman 散度 加上一个仅依赖于 y y y的项。

所以,负对数似然 ≈ Bregman 散度(从观测值到期望值的距离)

同时我们有 ∀ g ∈ ∂ φ , D φ ( y , μ ( θ ) ) = △ b ( θ , g ( y ) ) \forall g \in \partial \varphi, D_\varphi (y, \mu(\theta)) = \triangle _b(\theta, g(y)) ∀g∈∂φ,Dφ(y,μ(θ))=△b(θ,g(y))。

如果 b ∈ C ( 1 ) b\in \mathcal{C}^{(1)} b∈C(1)且是严格凸的, g = ∇ φ = ( ∇ b ) − 1 g = \nabla \varphi = (\nabla b)^{-1} g=∇φ=(∇b)−1且
D φ ( y , μ ( θ ) ) = D b ( θ , g ( y ) ) \mathbf{D}_\varphi(y, \mu(\theta)) = \mathbf{D}_b(\theta, g(y)) Dφ(y,μ(θ))=Db(θ,g(y))

证明:
− < y , θ > + b ( θ ) = − < y , θ > + {   < μ , θ > − φ ( μ )   } = − φ ( μ ) − < y − μ , θ > = − φ ( μ ) − < y − μ , ∇ φ ( μ ) > = D φ ( y , μ ) − φ ( y ) \begin{align*} -\left<y, \theta\right> + b(\theta) &= -\left<y, \theta\right> + \set{\left<\mu, \theta\right> - \varphi(\mu)} \\ &= -\varphi(\mu) - \left<y-\mu, \theta\right> \\ &= -\varphi(\mu) - \left<y-\mu, \nabla \varphi(\mu)\right> \\ &= \mathbf{D}_\varphi(y, \mu) - \varphi(y) \end{align*} −⟨y,θ⟩+b(θ)=−⟨y,θ⟩+{⟨μ,θ⟩−φ(μ)}=−φ(μ)−⟨y−μ,θ⟩=−φ(μ)−⟨y−μ,∇φ(μ)⟩=Dφ(y,μ)−φ(y)

熵(Entropy)

对于概率向量 y ∈ P n y \in \mathcal{P}^n y∈Pn(即所有分量非负且和为1的向量),其对应的随机变量的熵定义为:
H ( y ) : = − ∑ y i log ⁡ y i H(y) := -\sum y_i\log y_i H(y):=−∑yilogyi

通常我们会选用负熵 − H ( y ) -H(y) −H(y)来做优化。

连续情况下: H ( p ) = − ∫ p ( x ) log ⁡ p ( x ) d x H(p) = -\int p(x) \log p(x) dx H(p)=−∫p(x)logp(x)dx

KL散度(Kullback-Leibler Divergence)

定义两个离散概率分布 p p p和 q q q之间的KL散度 为:
K ( p ∥ q ) = ∑ p i log ⁡ p i q i K(p \| q) = \sum p_i \log \frac{p_i}{q_i} K(p∥q)=∑pilogqipi

这也被称为相对熵(relative entropy)

  • 有限性条件:当 q i = 0 q_i=0 qi=0,必须有 p i = 0 p_i=0 pi=0,否则KL散度为无穷大,同时约定 0 log ⁡ 0 = 0 0\log 0 = 0 0log0=0
  • 非归一化形式:
    K ( p ∥ q ) = ∑ {   p i log ⁡ p i q i − p i + q i   } K(p \| q) = \sum \set{p_i\log \frac{p_i}{q_i} - p_i + q_i} K(p∥q)=∑{pilogqipi−pi+qi}
    这是函数 ∑ t i log ⁡ t i \sum t_i\log t_i ∑tilogti的Bregman散度。

等价表示:
K ( p ∥ q ) = − ∑ p i log ⁡ q i + ∑ p i log ⁡ p i = H ( p , q ) − H ( p ) K(p\| q) = -\sum p_i \log q_i + \sum p_i\log p_i = H(p, q) - H(p) K(p∥q)=−∑pilogqi+∑pilogpi=H(p,q)−H(p)

其中:

  • H ( p , q ) = − ∑ p i log ⁡ q i H(p ,q) = -\sum p_i \log q_i H(p,q)=−∑pilogqi被称为交叉熵(cross-entropy)
  • H ( p ) H(p) H(p)是 p p p的熵

连续情况下: K ( p ∥ q ) = ∫ p ( x ) log ⁡ ( p ( x ) q ( x ) ) d x K(p\|q) = \int p(x) \log \left(\frac{p(x)}{q(x)}\right)dx K(p∥q)=∫p(x)log(q(x)p(x))dx

相关推荐
崎岖Qiu2 小时前
【设计模式笔记07】:迪米特法则
java·笔记·设计模式·迪米特法则
摇滚侠4 小时前
Spring Boot3零基础教程,SpringApplication 自定义 banner,笔记54
java·spring boot·笔记
colus_SEU7 小时前
【编译原理笔记】3.4 Tokens Recognization
笔记·编译原理
RE-19017 小时前
《深入浅出统计学》学习笔记(一)
大数据·数学·概率论·统计学·数理统计·知识笔记·深入浅出
摇滚侠7 小时前
Spring Boot3零基础教程,KafkaTemplate 发送消息,笔记77
java·spring boot·笔记·后端·kafka
武清伯MVP13 小时前
阮一峰《TypeScript 教程》学习笔记——类型映射
笔记·学习·typescript
ouliten13 小时前
cuda编程笔记(34)-- 内存访问控制与缓存提示
笔记·cuda
报错小能手14 小时前
C++笔记(面向对象)深赋值 浅赋值
c++·笔记·学习
superlls14 小时前
(场景题)怎么实现数据的批量插入?
笔记·mybatis