【机器学习教程】第04章 指数族分布

第04章 指数族分布

前言

在概率论的浩瀚海洋中,指数族分布 (Exponential Family) 是一座灯塔。它不仅仅是高斯分布、伯努利分布等常见分布的集合,更是它们背后的通用模版

为什么线性回归、逻辑回归的梯度公式长得一模一样?为什么最大熵原理最终指向了它?为什么贝叶斯推断需要共轭先验?

本章将带你深入这个"上帝的指纹",揭示看似无关的算法背后统一的数学本质。学完本章,你将不再是一个个地记忆公式,而是掌握了生成公式的元规则


目录

  • 引言
  • [1. 指数族分布的定义](#1. 指数族分布的定义)
    • [1.1 从伯努利分布开始](#1.1 从伯努利分布开始)
    • [1.2 高斯分布的改写](#1.2 高斯分布的改写)
    • [1.3 指数族的标准形式](#1.3 指数族的标准形式)
    • [1.4 对数配分函数的定义](#1.4 对数配分函数的定义)
    • [1.5 常见分布的指数族形式](#1.5 常见分布的指数族形式)
  • [2. 指数族分布的性质](#2. 指数族分布的性质)
    • [2.1 一阶导数:期望](#2.1 一阶导数:期望)
    • [2.2 二阶导数:方差](#2.2 二阶导数:方差)
    • [2.3 Fisher 信息矩阵](#2.3 Fisher 信息矩阵)
    • [2.4 最大似然估计的矩匹配](#2.4 最大似然估计的矩匹配)
  • [3. 指数族分布与最大熵](#3. 指数族分布与最大熵)
    • [3.1 问题:如何选择概率分布?](#3.1 问题:如何选择概率分布?)
    • [3.2 熵与最大熵原理](#3.2 熵与最大熵原理)
    • [3.3 推导:最大熵分布是指数族](#3.3 推导:最大熵分布是指数族)
    • [3.4 例子 1:高斯分布](#3.4 例子 1:高斯分布)
    • [3.5 例子 2:指数分布](#3.5 例子 2:指数分布)
    • [3.6 例子 3:离散均匀分布](#3.6 例子 3:离散均匀分布)
  • [4. 指数族分布与广义线性模型 (GLM)](#4. 指数族分布与广义线性模型 (GLM))
    • [4.1 问题:线性回归与逻辑回归的统一](#4.1 问题:线性回归与逻辑回归的统一)
    • [4.2 GLM 的定义](#4.2 GLM 的定义)
    • [4.3 核心推导:GLM 的统一梯度公式](#4.3 核心推导:GLM 的统一梯度公式)
    • [4.4 Hessian 矩阵:凸性保证](#4.4 Hessian 矩阵:凸性保证)
    • [4.5 例子 1:线性回归 (高斯 GLM)](#4.5 例子 1:线性回归 (高斯 GLM))
    • [4.6 例子 2:逻辑回归 (伯努利 GLM)](#4.6 例子 2:逻辑回归 (伯努利 GLM))
    • [4.7 例子 3:泊松回归 (泊松 GLM)](#4.7 例子 3:泊松回归 (泊松 GLM))
    • [4.8 GLM 的几何理解](#4.8 GLM 的几何理解)
  • [5. 总结](#5. 总结)
    • [5.1 主要结论](#5.1 主要结论)
    • [5.2 为什么指数族如此重要?](#5.2 为什么指数族如此重要?)
    • [5.3 关键公式速查表](#5.3 关键公式速查表)
  • 参考文献

引言

在机器学习中,我们会遇到各种各样的概率分布:

  • 线性回归使用高斯分布 N ( μ , σ 2 ) \mathcal{N}(\mu, \sigma^2) N(μ,σ2)
  • 逻辑回归使用伯努利分布 Bernoulli ( μ ) \text{Bernoulli}(\mu) Bernoulli(μ)
  • 泊松回归使用泊松分布 Poisson ( λ ) \text{Poisson}(\lambda) Poisson(λ)

它们看起来截然不同:高斯处理连续变量,伯努利处理二元事件,泊松处理计数。但它们实际上共享同一个数学结构 ------这就是指数族分布

本章我们将:

  1. 从具体分布推导出指数族的统一形式
  2. 深入理解对数配分函数的核心性质
  3. 从信息论角度理解指数族的必然性(最大熵原理)
  4. 揭示广义线性模型的统一本质

图1: 指数族分布的统一视角------看似截然不同的分布,实际上都是同一个模版 P ( x ∣ η ) = h ( x ) exp ⁡ ( η T T ( x ) − A ( η ) ) P(x|\eta) = h(x)\exp(\eta^T T(x) - A(\eta)) P(x∣η)=h(x)exp(ηTT(x)−A(η)) 的特例,唯一的差异在于对数配分函数 A ( η ) A(\eta) A(η) 的形式。


1. 指数族分布的定义

1.1 从伯努利分布开始

考虑抛硬币实验, x ∈ { 0 , 1 } x \in \{0, 1\} x∈{0,1},正面概率为 μ \mu μ:

P ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x P(x|\mu) = \mu^x (1-\mu)^{1-x} P(x∣μ)=μx(1−μ)1−x

取对数:

log ⁡ P ( x ∣ μ ) = x log ⁡ μ + ( 1 − x ) log ⁡ ( 1 − μ ) \log P(x|\mu) = x \log \mu + (1-x) \log(1-\mu) logP(x∣μ)=xlogμ+(1−x)log(1−μ)

重新整理:

log ⁡ P ( x ∣ μ ) = x log ⁡ μ + log ⁡ ( 1 − μ ) − x log ⁡ ( 1 − μ ) = x [ log ⁡ μ − log ⁡ ( 1 − μ ) ] + log ⁡ ( 1 − μ ) = x log ⁡ μ 1 − μ + log ⁡ ( 1 − μ ) \begin{aligned} \log P(x|\mu) &= x \log \mu + \log(1-\mu) - x \log(1-\mu) \\ &= x \left[\log \mu - \log(1-\mu)\right] + \log(1-\mu) \\ &= x \log \frac{\mu}{1-\mu} + \log(1-\mu) \end{aligned} logP(x∣μ)=xlogμ+log(1−μ)−xlog(1−μ)=x[logμ−log(1−μ)]+log(1−μ)=xlog1−μμ+log(1−μ)

引入新参数 η = log ⁡ μ 1 − μ \eta = \log \frac{\mu}{1-\mu} η=log1−μμ (logit 函数)。注意到 1 − μ = 1 1 + e η 1-\mu = \frac{1}{1+e^\eta} 1−μ=1+eη1,因此:

log ⁡ ( 1 − μ ) = − log ⁡ ( 1 + e η ) \log(1-\mu) = -\log(1+e^\eta) log(1−μ)=−log(1+eη)

代入得:

log ⁡ P ( x ∣ η ) = x η − log ⁡ ( 1 + e η ) \log P(x|\eta) = x \eta - \log(1+e^\eta) logP(x∣η)=xη−log(1+eη)

指数化:

P ( x ∣ η ) = exp ⁡ ( η x − log ⁡ ( 1 + e η ) ) P(x|\eta) = \exp\left(\eta x - \log(1+e^\eta)\right) P(x∣η)=exp(ηx−log(1+eη))

观察这个形式:

  • 参数 η \eta η 乘以数据 x x x
  • 减去一个只依赖于 η \eta η 的项 log ⁡ ( 1 + e η ) \log(1+e^\eta) log(1+eη)

1.2 高斯分布的改写

考虑高斯分布 N ( μ , σ 2 ) \mathcal{N}(\mu, \sigma^2) N(μ,σ2) (假设 σ 2 \sigma^2 σ2 已知):

P ( x ∣ μ ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) P(x|\mu) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) P(x∣μ)=2πσ2 1exp(−2σ2(x−μ)2)

展开平方项:

− ( x − μ ) 2 2 σ 2 = − x 2 2 σ 2 + μ x σ 2 − μ 2 2 σ 2 -\frac{(x-\mu)^2}{2\sigma^2} = -\frac{x^2}{2\sigma^2} + \frac{\mu x}{\sigma^2} - \frac{\mu^2}{2\sigma^2} −2σ2(x−μ)2=−2σ2x2+σ2μx−2σ2μ2

因此:

P ( x ∣ μ ) = 1 2 π σ 2 exp ⁡ ( − x 2 2 σ 2 ) ⏟ h ( x ) exp ⁡ ( μ σ 2 x − μ 2 2 σ 2 ) P(x|\mu) = \underbrace{\frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{x^2}{2\sigma^2}\right)}_{h(x)} \exp\left(\frac{\mu}{\sigma^2} x - \frac{\mu^2}{2\sigma^2}\right) P(x∣μ)=h(x) 2πσ2 1exp(−2σ2x2)exp(σ2μx−2σ2μ2)

定义自然参数 η = μ σ 2 \eta = \frac{\mu}{\sigma^2} η=σ2μ,则 μ 2 2 σ 2 = σ 2 η 2 2 \frac{\mu^2}{2\sigma^2} = \frac{\sigma^2 \eta^2}{2} 2σ2μ2=2σ2η2:

P ( x ∣ η ) = h ( x ) exp ⁡ ( η x − σ 2 η 2 2 ) P(x|\eta) = h(x) \exp\left(\eta x - \frac{\sigma^2 \eta^2}{2}\right) P(x∣η)=h(x)exp(ηx−2σ2η2)

再次观察:同样的模式!

  • 参数 η \eta η 乘以数据 x x x
  • 减去一个只依赖于 η \eta η 的项
  • 外加一个与参数无关的基础项 h ( x ) h(x) h(x)

1.3 指数族的标准形式

基于以上观察,我们定义指数族分布:

P ( x ∣ η ) = h ( x ) exp ⁡ ( η T T ( x ) − A ( η ) ) \boxed{P(x|\eta) = h(x) \exp\left(\eta^T T(x) - A(\eta)\right)} P(x∣η)=h(x)exp(ηTT(x)−A(η))

其中:

  • η ∈ R d \eta \in \mathbb{R}^d η∈Rd: 自然参数 (Natural Parameter)
  • T ( x ) ∈ R d T(x) \in \mathbb{R}^d T(x)∈Rd : 充分统计量 (Sufficient Statistic),是关于数据 x x x 的函数
  • A ( η ) ∈ R A(\eta) \in \mathbb{R} A(η)∈R: 对数配分函数 (Log-Partition Function)
  • h ( x ) > 0 h(x) > 0 h(x)>0 : 基础测度 (Base Measure),与参数 η \eta η 无关

充分统计量的含义 : T ( x ) T(x) T(x) 包含了关于参数 η \eta η 的所有信息。对于 i.i.d. 样本 { x 1 , ... , x N } \{x_1, \ldots, x_N\} {x1,...,xN},充分统计量为 ∑ i = 1 N T ( x i ) \sum_{i=1}^N T(x_i) ∑i=1NT(xi) 或其均值 T ˉ = 1 N ∑ i = 1 N T ( x i ) \bar{T} = \frac{1}{N}\sum_{i=1}^N T(x_i) Tˉ=N1∑i=1NT(xi)。


1.4 对数配分函数的定义

概率分布必须归一化:

∫ P ( x ∣ η )   d x = ∫ h ( x ) exp ⁡ ( η T T ( x ) − A ( η ) )   d x = 1 \int P(x|\eta) \, dx = \int h(x) \exp(\eta^T T(x) - A(\eta)) \, dx = 1 ∫P(x∣η)dx=∫h(x)exp(ηTT(x)−A(η))dx=1

移项:

∫ h ( x ) exp ⁡ ( η T T ( x ) )   d x = e A ( η ) \int h(x) \exp(\eta^T T(x)) \, dx = e^{A(\eta)} ∫h(x)exp(ηTT(x))dx=eA(η)

取对数:

A ( η ) = log ⁡ ∫ h ( x ) exp ⁡ ( η T T ( x ) )   d x \boxed{A(\eta) = \log \int h(x) \exp(\eta^T T(x)) \, dx} A(η)=log∫h(x)exp(ηTT(x))dx

这就是对数配分函数的显式定义。它保证了概率的归一化,但它的作用远不止于此------它的导数蕴含了分布的所有统计性质。


1.5 常见分布的指数族形式

伯努利分布 Bernoulli ( μ ) \text{Bernoulli}(\mu) Bernoulli(μ):
η = log ⁡ μ 1 − μ T ( x ) = x A ( η ) = log ⁡ ( 1 + e η ) h ( x ) = 1 \begin{aligned} \eta &= \log \frac{\mu}{1-\mu} \\ T(x) &= x \\ A(\eta) &= \log(1+e^\eta) \\ h(x) &= 1 \end{aligned} ηT(x)A(η)h(x)=log1−μμ=x=log(1+eη)=1

高斯分布 N ( μ , σ 2 ) \mathcal{N}(\mu, \sigma^2) N(μ,σ2) ( σ 2 \sigma^2 σ2 已知):
η = μ σ 2 T ( x ) = x A ( η ) = σ 2 η 2 2 h ( x ) = 1 2 π σ 2 exp ⁡ ( − x 2 2 σ 2 ) \begin{aligned} \eta &= \frac{\mu}{\sigma^2} \\ T(x) &= x \\ A(\eta) &= \frac{\sigma^2 \eta^2}{2} \\ h(x) &= \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{x^2}{2\sigma^2}\right) \end{aligned} ηT(x)A(η)h(x)=σ2μ=x=2σ2η2=2πσ2 1exp(−2σ2x2)

泊松分布 Poisson ( λ ) \text{Poisson}(\lambda) Poisson(λ):
η = log ⁡ λ T ( x ) = x A ( η ) = e η h ( x ) = 1 x ! \begin{aligned} \eta &= \log \lambda \\ T(x) &= x \\ A(\eta) &= e^\eta \\ h(x) &= \frac{1}{x!} \end{aligned} ηT(x)A(η)h(x)=logλ=x=eη=x!1

指数分布 Exp ( λ ) \text{Exp}(\lambda) Exp(λ):
η = − λ T ( x ) = x A ( η ) = − log ⁡ ( − η ) ( η < 0 ) h ( x ) = I ( x ≥ 0 ) \begin{aligned} \eta &= -\lambda \\ T(x) &= x \\ A(\eta) &= -\log(-\eta) \quad (\eta < 0) \\ h(x) &= \mathbb{I}(x \geq 0) \end{aligned} ηT(x)A(η)h(x)=−λ=x=−log(−η)(η<0)=I(x≥0)


2. 指数族分布的性质

对数配分函数 A ( η ) A(\eta) A(η) 不仅仅是归一化常数,它的导数编码了分布的所有矩信息。

2.1 一阶导数:期望

定理 1 (对数配分函数的梯度):
∇ η A ( η ) = E P ( x ∣ η ) [ T ( x ) ] \boxed{\nabla_\eta A(\eta) = \mathbb{E}_{P(x|\eta)}[T(x)]} ∇ηA(η)=EP(x∣η)[T(x)]

证明:

从 A ( η ) A(\eta) A(η) 的定义出发:

A ( η ) = log ⁡ ∫ h ( x ) exp ⁡ ( η T T ( x ) )   d x A(\eta) = \log \int h(x) \exp(\eta^T T(x)) \, dx A(η)=log∫h(x)exp(ηTT(x))dx

对 η i \eta_i ηi 求偏导。使用对数求导法则 d d x log ⁡ f ( x ) = 1 f ( x ) d f d x \frac{d}{dx}\log f(x) = \frac{1}{f(x)} \frac{df}{dx} dxdlogf(x)=f(x)1dxdf:

∂ A ( η ) ∂ η i = 1 ∫ h ( x ) exp ⁡ ( η T T ( x ) )   d x ⋅ ∂ ∂ η i ∫ h ( x ) exp ⁡ ( η T T ( x ) )   d x \frac{\partial A(\eta)}{\partial \eta_i} = \frac{1}{\int h(x) \exp(\eta^T T(x)) \, dx} \cdot \frac{\partial}{\partial \eta_i} \int h(x) \exp(\eta^T T(x)) \, dx ∂ηi∂A(η)=∫h(x)exp(ηTT(x))dx1⋅∂ηi∂∫h(x)exp(ηTT(x))dx

利用 Leibniz 积分法则,将导数穿过积分号:

∂ ∂ η i ∫ h ( x ) exp ⁡ ( η T T ( x ) )   d x = ∫ h ( x ) ∂ ∂ η i exp ⁡ ( η T T ( x ) )   d x \frac{\partial}{\partial \eta_i} \int h(x) \exp(\eta^T T(x)) \, dx = \int h(x) \frac{\partial}{\partial \eta_i} \exp(\eta^T T(x)) \, dx ∂ηi∂∫h(x)exp(ηTT(x))dx=∫h(x)∂ηi∂exp(ηTT(x))dx

计算指数函数的导数(链式法则):

∂ ∂ η i exp ⁡ ( η T T ( x ) ) = exp ⁡ ( η T T ( x ) ) ⋅ ∂ ∂ η i ( η T T ( x ) ) = exp ⁡ ( η T T ( x ) ) ⋅ T i ( x ) \frac{\partial}{\partial \eta_i} \exp(\eta^T T(x)) = \exp(\eta^T T(x)) \cdot \frac{\partial}{\partial \eta_i}(\eta^T T(x)) = \exp(\eta^T T(x)) \cdot T_i(x) ∂ηi∂exp(ηTT(x))=exp(ηTT(x))⋅∂ηi∂(ηTT(x))=exp(ηTT(x))⋅Ti(x)

因为 η T T ( x ) = ∑ j η j T j ( x ) \eta^T T(x) = \sum_j \eta_j T_j(x) ηTT(x)=∑jηjTj(x),对 η i \eta_i ηi 求导只留下 T i ( x ) T_i(x) Ti(x)。

代入:

∂ A ( η ) ∂ η i = ∫ h ( x ) T i ( x ) exp ⁡ ( η T T ( x ) )   d x ∫ h ( x ) exp ⁡ ( η T T ( x ) )   d x \frac{\partial A(\eta)}{\partial \eta_i} = \frac{\int h(x) T_i(x) \exp(\eta^T T(x)) \, dx}{\int h(x) \exp(\eta^T T(x)) \, dx} ∂ηi∂A(η)=∫h(x)exp(ηTT(x))dx∫h(x)Ti(x)exp(ηTT(x))dx

注意分母恰好是 e A ( η ) e^{A(\eta)} eA(η),分子分母同除以 e A ( η ) e^{A(\eta)} eA(η):

∂ A ( η ) ∂ η i = ∫ T i ( x ) h ( x ) exp ⁡ ( η T T ( x ) − A ( η ) ) ⏟ P ( x ∣ η )   d x = ∫ T i ( x ) P ( x ∣ η )   d x = E [ T i ( x ) ] \frac{\partial A(\eta)}{\partial \eta_i} = \int T_i(x) \underbrace{h(x) \exp(\eta^T T(x) - A(\eta))}_{P(x|\eta)} \, dx = \int T_i(x) P(x|\eta) \, dx = \mathbb{E}[T_i(x)] ∂ηi∂A(η)=∫Ti(x)P(x∣η) h(x)exp(ηTT(x)−A(η))dx=∫Ti(x)P(x∣η)dx=E[Ti(x)]

以向量形式:

∇ η A ( η ) = E [ T ( x ) ] □ \boxed{\nabla_\eta A(\eta) = \mathbb{E}[T(x)]} \quad \square ∇ηA(η)=E[T(x)]□


物理意义:

定义均值参数 (Mean Parameter):
μ = E [ T ( x ) ] \mu = \mathbb{E}[T(x)] μ=E[T(x)]

定理 1 告诉我们:
μ = ∇ η A ( η ) \mu = \nabla_\eta A(\eta) μ=∇ηA(η)

这建立了自然参数 η \eta η 和均值参数 μ \mu μ 之间的对应关系。改变 η \eta η,就改变了 μ \mu μ。

验证 :对于伯努利分布, A ( η ) = log ⁡ ( 1 + e η ) A(\eta) = \log(1+e^\eta) A(η)=log(1+eη):

d A ( η ) d η = e η 1 + e η = 1 1 + e − η = σ ( η ) = μ \frac{dA(\eta)}{d\eta} = \frac{e^\eta}{1+e^\eta} = \frac{1}{1+e^{-\eta}} = \sigma(\eta) = \mu dηdA(η)=1+eηeη=1+e−η1=σ(η)=μ

这正是 sigmoid 函数!自然参数 η ∈ R \eta \in \mathbb{R} η∈R 通过 sigmoid 映射到概率 μ ∈ ( 0 , 1 ) \mu \in (0,1) μ∈(0,1)。


2.2 二阶导数:方差

定理 2 (对数配分函数的 Hessian):
∇ η 2 A ( η ) = Cov [ T ( x ) ] \boxed{\nabla^2_\eta A(\eta) = \text{Cov}[T(x)]} ∇η2A(η)=Cov[T(x)]

其中 Hessian 矩阵的 ( i , j ) (i,j) (i,j) 元素为:

∇ η 2 A ( η ) \] i j = ∂ 2 A ( η ) ∂ η i ∂ η j \\left\[\\nabla\^2_\\eta A(\\eta)\\right\]_{ij} = \\frac{\\partial\^2 A(\\eta)}{\\partial \\eta_i \\partial \\eta_j} \[∇η2A(η)\]ij=∂ηi∂ηj∂2A(η) 协方差矩阵定义为: Cov \[ T ( x ) \] i j = E \[ T i ( x ) T j ( x ) \] − E \[ T i ( x ) \] E \[ T j ( x ) \] \\text{Cov}\[T(x)\]_{ij} = \\mathbb{E}\[T_i(x) T_j(x)\] - \\mathbb{E}\[T_i(x)\] \\mathbb{E}\[T_j(x)\] Cov\[T(x)\]ij=E\[Ti(x)Tj(x)\]−E\[Ti(x)\]E\[Tj(x)

证明:

从定理 1 我们知道:

∂ A ( η ) ∂ η i = E [ T i ( x ) ] = ∫ T i ( x ) P ( x ∣ η )   d x \frac{\partial A(\eta)}{\partial \eta_i} = \mathbb{E}[T_i(x)] = \int T_i(x) P(x|\eta) \, dx ∂ηi∂A(η)=E[Ti(x)]=∫Ti(x)P(x∣η)dx

对 η j \eta_j ηj 再次求导:

∂ 2 A ( η ) ∂ η i ∂ η j = ∂ ∂ η j ∫ T i ( x ) P ( x ∣ η )   d x = ∫ T i ( x ) ∂ P ( x ∣ η ) ∂ η j   d x \frac{\partial^2 A(\eta)}{\partial \eta_i \partial \eta_j} = \frac{\partial}{\partial \eta_j} \int T_i(x) P(x|\eta) \, dx = \int T_i(x) \frac{\partial P(x|\eta)}{\partial \eta_j} \, dx ∂ηi∂ηj∂2A(η)=∂ηj∂∫Ti(x)P(x∣η)dx=∫Ti(x)∂ηj∂P(x∣η)dx

关键是计算 ∂ P ( x ∣ η ) ∂ η j \frac{\partial P(x|\eta)}{\partial \eta_j} ∂ηj∂P(x∣η)。从 P ( x ∣ η ) = h ( x ) exp ⁡ ( η T T ( x ) − A ( η ) ) P(x|\eta) = h(x) \exp(\eta^T T(x) - A(\eta)) P(x∣η)=h(x)exp(ηTT(x)−A(η)),取对数:

log ⁡ P ( x ∣ η ) = log ⁡ h ( x ) + η T T ( x ) − A ( η ) \log P(x|\eta) = \log h(x) + \eta^T T(x) - A(\eta) logP(x∣η)=logh(x)+ηTT(x)−A(η)

对 η j \eta_j ηj 求导:

∂ log ⁡ P ( x ∣ η ) ∂ η j = T j ( x ) − ∂ A ( η ) ∂ η j = T j ( x ) − E [ T j ( x ) ] \frac{\partial \log P(x|\eta)}{\partial \eta_j} = T_j(x) - \frac{\partial A(\eta)}{\partial \eta_j} = T_j(x) - \mathbb{E}[T_j(x)] ∂ηj∂logP(x∣η)=Tj(x)−∂ηj∂A(η)=Tj(x)−E[Tj(x)]

利用对数导数技巧 ∂ P ∂ η j = P ∂ log ⁡ P ∂ η j \frac{\partial P}{\partial \eta_j} = P \frac{\partial \log P}{\partial \eta_j} ∂ηj∂P=P∂ηj∂logP:

∂ P ( x ∣ η ) ∂ η j = P ( x ∣ η ) [ T j ( x ) − E [ T j ( x ) ] ] \frac{\partial P(x|\eta)}{\partial \eta_j} = P(x|\eta) \left[T_j(x) - \mathbb{E}[T_j(x)]\right] ∂ηj∂P(x∣η)=P(x∣η)[Tj(x)−E[Tj(x)]]

代入二阶导数:

∂ 2 A ( η ) ∂ η i ∂ η j = ∫ T i ( x ) P ( x ∣ η ) [ T j ( x ) − E [ T j ( x ) ] ]   d x \frac{\partial^2 A(\eta)}{\partial \eta_i \partial \eta_j} = \int T_i(x) P(x|\eta) \left[T_j(x) - \mathbb{E}[T_j(x)]\right] \, dx ∂ηi∂ηj∂2A(η)=∫Ti(x)P(x∣η)[Tj(x)−E[Tj(x)]]dx

展开:

= ∫ T i ( x ) T j ( x ) P ( x ∣ η )   d x − ∫ T i ( x ) P ( x ∣ η )   d x ⋅ E [ T j ( x ) ] = E [ T i ( x ) T j ( x ) ] − E [ T i ( x ) ] E [ T j ( x ) ] = Cov [ T i ( x ) , T j ( x ) ] \begin{aligned} &= \int T_i(x) T_j(x) P(x|\eta) \, dx - \int T_i(x) P(x|\eta) \, dx \cdot \mathbb{E}[T_j(x)] \\ &= \mathbb{E}[T_i(x) T_j(x)] - \mathbb{E}[T_i(x)] \mathbb{E}[T_j(x)] \\ &= \text{Cov}[T_i(x), T_j(x)] \end{aligned} =∫Ti(x)Tj(x)P(x∣η)dx−∫Ti(x)P(x∣η)dx⋅E[Tj(x)]=E[Ti(x)Tj(x)]−E[Ti(x)]E[Tj(x)]=Cov[Ti(x),Tj(x)]

因此:

∇ η 2 A ( η ) = Cov [ T ( x ) ] □ \boxed{\nabla^2_\eta A(\eta) = \text{Cov}[T(x)]} \quad \square ∇η2A(η)=Cov[T(x)]□


物理意义:

协方差矩阵总是半正定的 ( Cov [ T ( x ) ] ⪰ 0 \text{Cov}[T(x)] \succeq 0 Cov[T(x)]⪰0),因此:

∇ η 2 A ( η ) ⪰ 0 \nabla^2_\eta A(\eta) \succeq 0 ∇η2A(η)⪰0

这意味着 A ( η ) A(\eta) A(η) 是凸函数

推论 (凸性的后果):

  1. 负对数似然 − log ⁡ P ( x ∣ η ) = A ( η ) − η T T ( x ) + const -\log P(x|\eta) = A(\eta) - \eta^T T(x) + \text{const} −logP(x∣η)=A(η)−ηTT(x)+const 是关于 η \eta η 的凸函数
  2. 最大似然估计 (MLE) 是凸优化问题
  3. MLE 的解存在且唯一 (在参数空间内部)
  4. 梯度下降必然收敛到全局最优

这是指数族分布的第一个核心优势:优化问题天然是凸的。


2.3 Fisher 信息矩阵

定义 Fisher 信息矩阵:

I ( η ) = E [ ( ∇ η log ⁡ P ( x ∣ η ) ) ( ∇ η log ⁡ P ( x ∣ η ) ) T ] \mathcal{I}(\eta) = \mathbb{E}\left[\left(\nabla_\eta \log P(x|\eta)\right) \left(\nabla_\eta \log P(x|\eta)\right)^T\right] I(η)=E[(∇ηlogP(x∣η))(∇ηlogP(x∣η))T]

它度量参数 η \eta η 的可估计性:Fisher 信息越大,参数越容易从数据中估计。

对于指数族分布:

∇ η log ⁡ P ( x ∣ η ) = ∇ η [ η T T ( x ) − A ( η ) ] = T ( x ) − ∇ η A ( η ) = T ( x ) − E [ T ( x ) ] \nabla_\eta \log P(x|\eta) = \nabla_\eta \left[\eta^T T(x) - A(\eta)\right] = T(x) - \nabla_\eta A(\eta) = T(x) - \mathbb{E}[T(x)] ∇ηlogP(x∣η)=∇η[ηTT(x)−A(η)]=T(x)−∇ηA(η)=T(x)−E[T(x)]

因此:

I ( η ) = E [ ( T ( x ) − E [ T ( x ) ] ) ( T ( x ) − E [ T ( x ) ] ) T ] = Cov [ T ( x ) ] \begin{aligned} \mathcal{I}(\eta) &= \mathbb{E}\left[(T(x) - \mathbb{E}[T(x)])(T(x) - \mathbb{E}[T(x)])^T\right] \\ &= \text{Cov}[T(x)] \end{aligned} I(η)=E[(T(x)−E[T(x)])(T(x)−E[T(x)])T]=Cov[T(x)]

结合定理 2:

I ( η ) = ∇ η 2 A ( η ) \boxed{\mathcal{I}(\eta) = \nabla^2_\eta A(\eta)} I(η)=∇η2A(η)

意义 : Fisher 信息矩阵等于对数配分函数的 Hessian。这意味着 A ( η ) A(\eta) A(η) 的曲率直接编码了参数的可估计性:曲率越大 (方差越大),参数越难估计,需要更多数据。


2.4 最大似然估计的矩匹配

对于 i.i.d. 样本 { x 1 , ... , x N } \{x_1, \ldots, x_N\} {x1,...,xN},对数似然为:

ℓ ( η ) = ∑ i = 1 N log ⁡ P ( x i ∣ η ) = ∑ i = 1 N [ η T T ( x i ) − A ( η ) + log ⁡ h ( x i ) ] \ell(\eta) = \sum_{i=1}^N \log P(x_i|\eta) = \sum_{i=1}^N \left[\eta^T T(x_i) - A(\eta) + \log h(x_i)\right] ℓ(η)=i=1∑NlogP(xi∣η)=i=1∑N[ηTT(xi)−A(η)+logh(xi)]

去掉与 η \eta η 无关的项:

ℓ ( η ) = N η T T ˉ − N A ( η ) + const \ell(\eta) = N \eta^T \bar{T} - N A(\eta) + \text{const} ℓ(η)=NηTTˉ−NA(η)+const

其中 T ˉ = 1 N ∑ i = 1 N T ( x i ) \bar{T} = \frac{1}{N}\sum_{i=1}^N T(x_i) Tˉ=N1∑i=1NT(xi) 是充分统计量的样本均值。

一阶最优条件:

∇ η ℓ ( η ) = N T ˉ − N ∇ η A ( η ) = 0 \nabla_\eta \ell(\eta) = N \bar{T} - N \nabla_\eta A(\eta) = 0 ∇ηℓ(η)=NTˉ−N∇ηA(η)=0

即:

∇ η A ( η ^ MLE ) = T ˉ \boxed{\nabla_\eta A(\hat{\eta}_{\text{MLE}}) = \bar{T}} ∇ηA(η^MLE)=Tˉ

结合定理 1:

E P ( x ∣ η ^ MLE ) [ T ( x ) ] = T ˉ \boxed{\mathbb{E}{P(x|\hat{\eta}{\text{MLE}})}[T(x)] = \bar{T}} EP(x∣η^MLE)[T(x)]=Tˉ

MLE 的物理意义 : 最大似然估计使得模型的理论期望等于数据的经验期望 。这称为矩匹配 (Moment Matching)。

例子 (伯努利分布):

T ( x ) = x T(x) = x T(x)=x, T ˉ = 1 N ∑ i = 1 N x i = μ ^ \bar{T} = \frac{1}{N}\sum_{i=1}^N x_i = \hat{\mu} Tˉ=N1∑i=1Nxi=μ^ (样本均值)。

MLE 条件:

∇ η A ( η ) = σ ( η ) = μ ^ \nabla_\eta A(\eta) = \sigma(\eta) = \hat{\mu} ∇ηA(η)=σ(η)=μ^

解得:

η ^ MLE = logit ( μ ^ ) = log ⁡ μ ^ 1 − μ ^ \hat{\eta}_{\text{MLE}} = \text{logit}(\hat{\mu}) = \log \frac{\hat{\mu}}{1-\hat{\mu}} η^MLE=logit(μ^)=log1−μ^μ^

这正是我们期望的结果。


3. 指数族分布与最大熵

3.1 问题:如何选择概率分布?

假设我们对一个随机变量 x x x 一无所知,只知道某些统计量的期望值:

E [ T k ( x ) ] = α k , k = 1 , ... , m \mathbb{E}[T_k(x)] = \alpha_k, \quad k = 1, \ldots, m E[Tk(x)]=αk,k=1,...,m

例如:

  • 只知道均值 E [ x ] = μ \mathbb{E}[x] = \mu E[x]=μ
  • 只知道均值和二阶矩 E [ x ] = μ , E [ x 2 ] = σ 2 + μ 2 \mathbb{E}[x] = \mu, \mathbb{E}[x^2] = \sigma^2 + \mu^2 E[x]=μ,E[x2]=σ2+μ2

问题: 在满足这些约束的所有概率分布中,我们应该选择哪一个?

答案 : 选择熵最大的分布。


3.2 熵与最大熵原理

Shannon 熵定义为:

H [ P ] = − ∫ P ( x ) log ⁡ P ( x )   d x H[P] = -\int P(x) \log P(x) \, dx H[P]=−∫P(x)logP(x)dx

熵度量分布的"不确定性":

  • 均匀分布:熵最大 (最不确定)
  • Dirac delta 函数:熵为 0 (完全确定)

最大熵原理 (Maximum Entropy Principle):

在满足已知约束的前提下,选择熵最大的分布。

哲学依据 : 这是"奥卡姆剃刀"的概率版本------不要假设你不知道的东西。给定约束,选择最"无偏"、最"保守"的分布,不引入任何额外的假设。


3.3 推导:最大熵分布是指数族

优化问题:

max ⁡ P ( x ) H [ P ] = − ∫ P ( x ) log ⁡ P ( x )   d x s.t. ∫ P ( x )   d x = 1 ∫ P ( x ) T k ( x )   d x = α k , k = 1 , ... , m \begin{aligned} \max_{P(x)} \quad & H[P] = -\int P(x) \log P(x) \, dx \\ \text{s.t.} \quad & \int P(x) \, dx = 1 \\ & \int P(x) T_k(x) \, dx = \alpha_k, \quad k = 1, \ldots, m \end{aligned} P(x)maxs.t.H[P]=−∫P(x)logP(x)dx∫P(x)dx=1∫P(x)Tk(x)dx=αk,k=1,...,m

构造 Lagrange 泛函:

L [ P ] = − ∫ P ( x ) log ⁡ P ( x )   d x + λ 0 ( ∫ P ( x )   d x − 1 ) + ∑ k = 1 m λ k ( ∫ P ( x ) T k ( x )   d x − α k ) \mathcal{L}[P] = -\int P(x) \log P(x) \, dx + \lambda_0 \left(\int P(x) \, dx - 1\right) + \sum_{k=1}^m \lambda_k \left(\int P(x) T_k(x) \, dx - \alpha_k\right) L[P]=−∫P(x)logP(x)dx+λ0(∫P(x)dx−1)+k=1∑mλk(∫P(x)Tk(x)dx−αk)

对 P ( x ) P(x) P(x) 做变分 (泛函导数):

δ L δ P ( x ) = − log ⁡ P ( x ) − 1 + λ 0 + ∑ k = 1 m λ k T k ( x ) \frac{\delta \mathcal{L}}{\delta P(x)} = -\log P(x) - 1 + \lambda_0 + \sum_{k=1}^m \lambda_k T_k(x) δP(x)δL=−logP(x)−1+λ0+k=1∑mλkTk(x)

令变分为零:

− log ⁡ P ( x ) − 1 + λ 0 + ∑ k = 1 m λ k T k ( x ) = 0 -\log P(x) - 1 + \lambda_0 + \sum_{k=1}^m \lambda_k T_k(x) = 0 −logP(x)−1+λ0+k=1∑mλkTk(x)=0

解出 log ⁡ P ( x ) \log P(x) logP(x):

log ⁡ P ( x ) = − 1 + λ 0 + ∑ k = 1 m λ k T k ( x ) \log P(x) = -1 + \lambda_0 + \sum_{k=1}^m \lambda_k T_k(x) logP(x)=−1+λ0+k=1∑mλkTk(x)

指数化:

P ( x ) = exp ⁡ ( − 1 + λ 0 + ∑ k = 1 m λ k T k ( x ) ) = e λ 0 − 1 exp ⁡ ( ∑ k = 1 m λ k T k ( x ) ) P(x) = \exp\left(-1 + \lambda_0 + \sum_{k=1}^m \lambda_k T_k(x)\right) = e^{\lambda_0 - 1} \exp\left(\sum_{k=1}^m \lambda_k T_k(x)\right) P(x)=exp(−1+λ0+k=1∑mλkTk(x))=eλ0−1exp(k=1∑mλkTk(x))

利用归一化条件 ∫ P ( x )   d x = 1 \int P(x) \, dx = 1 ∫P(x)dx=1 确定常数项。定义:

A ( λ ) = 1 − λ 0 = log ⁡ ∫ exp ⁡ ( ∑ k = 1 m λ k T k ( x ) ) d x A(\lambda) = 1 - \lambda_0 = \log \int \exp\left(\sum_{k=1}^m \lambda_k T_k(x)\right) dx A(λ)=1−λ0=log∫exp(k=1∑mλkTk(x))dx

最终得到:

P ( x ) = exp ⁡ ( ∑ k = 1 m λ k T k ( x ) − A ( λ ) ) P(x) = \exp\left(\sum_{k=1}^m \lambda_k T_k(x) - A(\lambda)\right) P(x)=exp(k=1∑mλkTk(x)−A(λ))

这正是指数族分布的标准形式 (取 h ( x ) = 1 h(x) = 1 h(x)=1, η = λ \eta = \lambda η=λ)!

结论:

最大熵分布 = 指数族分布 \boxed{\text{最大熵分布} = \text{指数族分布}} 最大熵分布=指数族分布

Lagrange 乘子 λ \lambda λ 对应自然参数 η \eta η。 □ \square □


意义:

指数族分布不是人为构造的,而是信息论的必然结果。给定矩约束,指数族是唯一最保守的选择


3.4 例子 1:高斯分布

约束:只知道均值和方差,

E [ x ] = μ , E [ x 2 ] = σ 2 + μ 2 \mathbb{E}[x] = \mu, \quad \mathbb{E}[x^2] = \sigma^2 + \mu^2 E[x]=μ,E[x2]=σ2+μ2

充分统计量:

T ( x ) = [ x x 2 ] T(x) = \begin{bmatrix} x \\ x^2 \end{bmatrix} T(x)=[xx2]

最大熵分布:

P ( x ) = exp ⁡ ( λ 1 x + λ 2 x 2 − A ( λ ) ) P(x) = \exp(\lambda_1 x + \lambda_2 x^2 - A(\lambda)) P(x)=exp(λ1x+λ2x2−A(λ))

配方:

λ 2 x 2 + λ 1 x = λ 2 ( x + λ 1 2 λ 2 ) 2 − λ 1 2 4 λ 2 \lambda_2 x^2 + \lambda_1 x = \lambda_2 \left(x + \frac{\lambda_1}{2\lambda_2}\right)^2 - \frac{\lambda_1^2}{4\lambda_2} λ2x2+λ1x=λ2(x+2λ2λ1)2−4λ2λ12

要使其是有效概率分布 (可积),必须 λ 2 < 0 \lambda_2 < 0 λ2<0。设:

λ 2 = − 1 2 σ 2 , λ 1 = μ σ 2 \lambda_2 = -\frac{1}{2\sigma^2}, \quad \lambda_1 = \frac{\mu}{\sigma^2} λ2=−2σ21,λ1=σ2μ

代入并整理,得到:

P ( x ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) P(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) P(x)=2πσ2 1exp(−2σ2(x−μ)2)

结论: 高斯分布是给定均值和方差的最大熵分布。

物理意义 : 如果你只知道一个随机变量的均值和方差,你能做的最保守假设就是它服从高斯分布。这就是为什么高斯分布无处不在------不是因为自然"喜欢"高斯,而是因为我们通常只掌握有限的矩信息


3.5 例子 2:指数分布

约束 (假设 x ≥ 0 x \geq 0 x≥0):

E [ x ] = μ \mathbb{E}[x] = \mu E[x]=μ

充分统计量:

T ( x ) = x T(x) = x T(x)=x

最大熵分布:

P ( x ) = exp ⁡ ( λ x − A ( λ ) ) P(x) = \exp(\lambda x - A(\lambda)) P(x)=exp(λx−A(λ))

归一化:

A ( λ ) = log ⁡ ∫ 0 ∞ exp ⁡ ( λ x )   d x A(\lambda) = \log \int_0^\infty \exp(\lambda x) \, dx A(λ)=log∫0∞exp(λx)dx

为使积分收敛,必须 λ < 0 \lambda < 0 λ<0。设 λ = − 1 / μ \lambda = -1/\mu λ=−1/μ,则:

∫ 0 ∞ exp ⁡ ( − x / μ )   d x = μ \int_0^\infty \exp(-x/\mu) \, dx = \mu ∫0∞exp(−x/μ)dx=μ

因此:

A ( λ ) = log ⁡ μ = − log ⁡ ( − λ ) A(\lambda) = \log \mu = -\log(-\lambda) A(λ)=logμ=−log(−λ)

最终分布:

P ( x ) = 1 μ exp ⁡ ( − x μ ) P(x) = \frac{1}{\mu} \exp\left(-\frac{x}{\mu}\right) P(x)=μ1exp(−μx)

这是指数分布 Exp ( 1 / μ ) \text{Exp}(1/\mu) Exp(1/μ)。

物理意义: 如果你只知道一个非负随机变量的均值,指数分布是最保守的选择。这解释了为什么等待时间、寿命等常服从指数分布------当我们对过程的细节一无所知时,指数分布是最自然的选择。


3.6 例子 3:离散均匀分布

约束:无约束 (除了归一化)。

在有限集合 { x 1 , ... , x n } \{x_1, \ldots, x_n\} {x1,...,xn} 上,最大熵分布是:

P ( x i ) = 1 n , i = 1 , ... , n P(x_i) = \frac{1}{n}, \quad i = 1, \ldots, n P(xi)=n1,i=1,...,n

这是离散均匀分布

物理意义: 如果你对一个离散随机变量一无所知,最保守的假设就是等概率。


4. 指数族分布与广义线性模型 (GLM)

4.1 问题:线性回归与逻辑回归的统一

看看两个经典模型:

线性回归:

  • 模型: y ∣ x ∼ N ( w T x , σ 2 ) y|x \sim \mathcal{N}(w^T x, \sigma^2) y∣x∼N(wTx,σ2)
  • 损失函数:最小二乘 ∑ ( y i − w T x i ) 2 \sum (y_i - w^T x_i)^2 ∑(yi−wTxi)2

逻辑回归:

  • 模型: y ∣ x ∼ Bernoulli ( σ ( w T x ) ) y|x \sim \text{Bernoulli}(\sigma(w^T x)) y∣x∼Bernoulli(σ(wTx))
  • 损失函数:交叉熵 − ∑ [ y i log ⁡ σ ( w T x i ) + ( 1 − y i ) log ⁡ ( 1 − σ ( w T x i ) ) ] -\sum [y_i \log \sigma(w^T x_i) + (1-y_i) \log(1-\sigma(w^T x_i))] −∑[yilogσ(wTxi)+(1−yi)log(1−σ(wTxi))]

它们看起来完全不同!损失函数的形式天差地别。

但它们本质相同------都是广义线性模型 (Generalized Linear Model, GLM)。


4.2 GLM 的定义

广义线性模型由三部分组成:

1. 随机成分 : 响应变量 y y y 服从指数族分布

P ( y ∣ x , w ) = h ( y ) exp ⁡ ( η ( x , w ) ⋅ y − A ( η ( x , w ) ) ) P(y|x, w) = h(y) \exp\left(\eta(x, w) \cdot y - A(\eta(x, w))\right) P(y∣x,w)=h(y)exp(η(x,w)⋅y−A(η(x,w)))

这里假设 T ( y ) = y T(y) = y T(y)=y,称为规范形式 (Canonical Form)。

2. 系统成分: 自然参数是输入的线性函数

η ( x , w ) = w T x \eta(x, w) = w^T x η(x,w)=wTx

3. 连接函数 : 自然参数 η \eta η 与均值 μ = E [ y ∣ x ] \mu = \mathbb{E}[y|x] μ=E[y∣x] 的关系

由定理 1:

μ = ∇ η A ( η ) \mu = \nabla_\eta A(\eta) μ=∇ηA(η)

定义连接函数 g g g:

η = g ( μ ) \eta = g(\mu) η=g(μ)

若 g g g 使得 η = w T x \eta = w^T x η=wTx 直接对应自然参数化,称为规范连接 (Canonical Link)。对于规范形式的指数族,规范连接就是 g = ( ∇ η A ) − 1 g = (\nabla_\eta A)^{-1} g=(∇ηA)−1。


4.3 核心推导:GLM 的统一梯度公式

这是本章最激动人心的推导:无论分布是什么,梯度公式都一样

给定数据 { ( x i , y i ) } i = 1 N \{(x_i, y_i)\}_{i=1}^N {(xi,yi)}i=1N,负对数似然为:

L ( w ) = − ∑ i = 1 N log ⁡ P ( y i ∣ x i , w ) = − ∑ i = 1 N [ η i y i − A ( η i ) + log ⁡ h ( y i ) ] \mathcal{L}(w) = -\sum_{i=1}^N \log P(y_i|x_i, w) = -\sum_{i=1}^N \left[\eta_i y_i - A(\eta_i) + \log h(y_i)\right] L(w)=−i=1∑NlogP(yi∣xi,w)=−i=1∑N[ηiyi−A(ηi)+logh(yi)]

其中 η i = w T x i \eta_i = w^T x_i ηi=wTxi。去掉与 w w w 无关的项:

L ( w ) = − ∑ i = 1 N [ w T x i ⋅ y i − A ( w T x i ) ] + const \mathcal{L}(w) = -\sum_{i=1}^N \left[w^T x_i \cdot y_i - A(w^T x_i)\right] + \text{const} L(w)=−i=1∑N[wTxi⋅yi−A(wTxi)]+const

对 w w w 求梯度,使用链式法则:

∇ w L ( w ) = − ∑ i = 1 N [ y i x i − ∂ A ( η i ) ∂ η i ⋅ ∂ η i ∂ w ] \nabla_w \mathcal{L}(w) = -\sum_{i=1}^N \left[y_i x_i - \frac{\partial A(\eta_i)}{\partial \eta_i} \cdot \frac{\partial \eta_i}{\partial w}\right] ∇wL(w)=−i=1∑N[yixi−∂ηi∂A(ηi)⋅∂w∂ηi]

注意:

  • ∂ η i ∂ w = ∂ ( w T x i ) ∂ w = x i \frac{\partial \eta_i}{\partial w} = \frac{\partial (w^T x_i)}{\partial w} = x_i ∂w∂ηi=∂w∂(wTxi)=xi
  • ∂ A ( η i ) ∂ η i = E [ y i ∣ x i ] = μ i \frac{\partial A(\eta_i)}{\partial \eta_i} = \mathbb{E}[y_i|x_i] = \mu_i ∂ηi∂A(ηi)=E[yi∣xi]=μi (由定理 1)

代入:

∇ w L ( w ) = − ∑ i = 1 N ( y i − μ i ) x i \nabla_w \mathcal{L}(w) = -\sum_{i=1}^N (y_i - \mu_i) x_i ∇wL(w)=−i=1∑N(yi−μi)xi

GLM 的核心公式:

∇ w L ( w ) = − ∑ i = 1 N ( y i − μ i ) x i \boxed{\nabla_w \mathcal{L}(w) = -\sum_{i=1}^N (y_i - \mu_i) x_i} ∇wL(w)=−i=1∑N(yi−μi)xi

其中 μ i = E [ y i ∣ x i ] = ∇ η A ( η i ) ∣ η i = w T x i \mu_i = \mathbb{E}[y_i|x_i] = \nabla_\eta A(\eta_i)|_{\eta_i = w^T x_i} μi=E[yi∣xi]=∇ηA(ηi)∣ηi=wTxi。


公式的物理意义:

∇ w L ( w ) = − ∑ i = 1 N ( y i − μ i ) ⏟ 残差 ⋅ x i ⏟ 特征 \nabla_w \mathcal{L}(w) = -\sum_{i=1}^N \underbrace{(y_i - \mu_i)}{\text{残差}} \cdot \underbrace{x_i}{\text{特征}} ∇wL(w)=−i=1∑N残差 (yi−μi)⋅特征 xi

梯度是残差与特征的加权和

关键观察: 无论分布是什么 (高斯、伯努利、泊松),梯度都是这个形式!唯一的差异在于:

  • μ i = ∇ η A ( η i ) \mu_i = \nabla_\eta A(\eta_i) μi=∇ηA(ηi) 的具体计算
  • 而这由对数配分函数 A ( η ) A(\eta) A(η) 完全决定

这不仅仅是巧合------这是指数族分布的几何本质。对数配分函数的导数性质统一了所有回归模型的优化。


4.4 Hessian 矩阵:凸性保证

继续对梯度求导:

∇ w 2 L ( w ) = ∑ i = 1 N ∂ μ i ∂ w x i T \nabla^2_w \mathcal{L}(w) = \sum_{i=1}^N \frac{\partial \mu_i}{\partial w} x_i^T ∇w2L(w)=i=1∑N∂w∂μixiT

使用链式法则:

∂ μ i ∂ w = ∂ μ i ∂ η i ⋅ ∂ η i ∂ w = ∂ μ i ∂ η i ⋅ x i \frac{\partial \mu_i}{\partial w} = \frac{\partial \mu_i}{\partial \eta_i} \cdot \frac{\partial \eta_i}{\partial w} = \frac{\partial \mu_i}{\partial \eta_i} \cdot x_i ∂w∂μi=∂ηi∂μi⋅∂w∂ηi=∂ηi∂μi⋅xi

注意 μ i = ∇ η A ( η i ) \mu_i = \nabla_\eta A(\eta_i) μi=∇ηA(ηi),因此:

∂ μ i ∂ η i = ∇ η 2 A ( η i ) = Var [ y i ∣ x i ] \frac{\partial \mu_i}{\partial \eta_i} = \nabla^2_\eta A(\eta_i) = \text{Var}[y_i|x_i] ∂ηi∂μi=∇η2A(ηi)=Var[yi∣xi]

(由定理 2,对于标量情况协方差就是方差)

代入:

∇ w 2 L ( w ) = ∑ i = 1 N Var [ y i ∣ x i ] ⋅ x i x i T \nabla^2_w \mathcal{L}(w) = \sum_{i=1}^N \text{Var}[y_i|x_i] \cdot x_i x_i^T ∇w2L(w)=i=1∑NVar[yi∣xi]⋅xixiT

以矩阵形式:

∇ w 2 L ( w ) = X T W X \nabla^2_w \mathcal{L}(w) = X^T W X ∇w2L(w)=XTWX

其中:

  • X ∈ R N × d X \in \mathbb{R}^{N \times d} X∈RN×d 是设计矩阵 (第 i i i 行是 x i T x_i^T xiT)
  • W = diag ( Var [ y 1 ∣ x 1 ] , ... , Var [ y N ∣ x N ] ) ∈ R N × N W = \text{diag}(\text{Var}[y_1|x_1], \ldots, \text{Var}[y_N|x_N]) \in \mathbb{R}^{N \times N} W=diag(Var[y1∣x1],...,Var[yN∣xN])∈RN×N 是权重矩阵

凸性:

因为方差 Var [ y i ∣ x i ] > 0 \text{Var}[y_i|x_i] > 0 Var[yi∣xi]>0,且假设 X X X 列满秩,Hessian 正定:

∇ w 2 L ( w ) ≻ 0 \nabla^2_w \mathcal{L}(w) \succ 0 ∇w2L(w)≻0

因此:

L ( w ) 是严格凸函数 \boxed{\mathcal{L}(w) \text{ 是严格凸函数}} L(w) 是严格凸函数

推论:

  1. MLE 存在且唯一
  2. 梯度下降保证收敛到全局最优
  3. 无局部最优问题

这是指数族分布送给统计学习的第二个礼物 (第一个是统一的梯度公式)。


4.5 例子 1:线性回归 (高斯 GLM)

模型 : y ∣ x ∼ N ( w T x , σ 2 ) y|x \sim \mathcal{N}(w^T x, \sigma^2) y∣x∼N(wTx,σ2)

指数族参数:

  • 自然参数: η = w T x \eta = w^T x η=wTx
  • 对数配分函数: A ( η ) = σ 2 η 2 2 A(\eta) = \frac{\sigma^2 \eta^2}{2} A(η)=2σ2η2
  • 均值参数: μ = ∇ η A ( η ) = σ 2 η = w T x \mu = \nabla_\eta A(\eta) = \sigma^2 \eta = w^T x μ=∇ηA(η)=σ2η=wTx

梯度:

∇ w L ( w ) = − ∑ i = 1 N ( y i − w T x i ) x i \nabla_w \mathcal{L}(w) = -\sum_{i=1}^N (y_i - w^T x_i) x_i ∇wL(w)=−i=1∑N(yi−wTxi)xi

这正是最小二乘的梯度!

Hessian:

Var [ y i ∣ x i ] = σ 2 ( 常数 ) \text{Var}[y_i|x_i] = \sigma^2 \quad (\text{常数}) Var[yi∣xi]=σ2(常数)

因此:

∇ w 2 L ( w ) = σ 2 X T X \nabla^2_w \mathcal{L}(w) = \sigma^2 X^T X ∇w2L(w)=σ2XTX

这正是线性回归的 Hessian。


4.6 例子 2:逻辑回归 (伯努利 GLM)

模型 : y ∣ x ∼ Bernoulli ( σ ( w T x ) ) y|x \sim \text{Bernoulli}(\sigma(w^T x)) y∣x∼Bernoulli(σ(wTx))

指数族参数:

  • 自然参数: η = w T x \eta = w^T x η=wTx
  • 对数配分函数: A ( η ) = log ⁡ ( 1 + e η ) A(\eta) = \log(1 + e^\eta) A(η)=log(1+eη)
  • 均值参数: μ = ∇ η A ( η ) = e η 1 + e η = σ ( η ) = σ ( w T x ) \mu = \nabla_\eta A(\eta) = \frac{e^\eta}{1+e^\eta} = \sigma(\eta) = \sigma(w^T x) μ=∇ηA(η)=1+eηeη=σ(η)=σ(wTx)

梯度:

∇ w L ( w ) = − ∑ i = 1 N ( y i − σ ( w T x i ) ) x i \nabla_w \mathcal{L}(w) = -\sum_{i=1}^N (y_i - \sigma(w^T x_i)) x_i ∇wL(w)=−i=1∑N(yi−σ(wTxi))xi

这正是逻辑回归的梯度!

Hessian:

Var [ y i ∣ x i ] = μ i ( 1 − μ i ) = σ ( w T x i ) ( 1 − σ ( w T x i ) ) \text{Var}[y_i|x_i] = \mu_i(1-\mu_i) = \sigma(w^T x_i)(1-\sigma(w^T x_i)) Var[yi∣xi]=μi(1−μi)=σ(wTxi)(1−σ(wTxi))

因此:

∇ w 2 L ( w ) = X T W X , W = diag ( μ 1 ( 1 − μ 1 ) , ... , μ N ( 1 − μ N ) ) \nabla^2_w \mathcal{L}(w) = X^T W X, \quad W = \text{diag}(\mu_1(1-\mu_1), \ldots, \mu_N(1-\mu_N)) ∇w2L(w)=XTWX,W=diag(μ1(1−μ1),...,μN(1−μN))

这正是逻辑回归的 Hessian (也是 IRLS 算法的权重矩阵)。


4.7 例子 3:泊松回归 (泊松 GLM)

模型 : y ∣ x ∼ Poisson ( e w T x ) y|x \sim \text{Poisson}(e^{w^T x}) y∣x∼Poisson(ewTx)

指数族参数:

  • 自然参数: η = w T x \eta = w^T x η=wTx
  • 对数配分函数: A ( η ) = e η A(\eta) = e^\eta A(η)=eη
  • 均值参数: μ = ∇ η A ( η ) = e η = e w T x \mu = \nabla_\eta A(\eta) = e^\eta = e^{w^T x} μ=∇ηA(η)=eη=ewTx

梯度:

∇ w L ( w ) = − ∑ i = 1 N ( y i − e w T x i ) x i \nabla_w \mathcal{L}(w) = -\sum_{i=1}^N (y_i - e^{w^T x_i}) x_i ∇wL(w)=−i=1∑N(yi−ewTxi)xi

Hessian:

Var [ y i ∣ x i ] = μ i = e w T x i \text{Var}[y_i|x_i] = \mu_i = e^{w^T x_i} Var[yi∣xi]=μi=ewTxi

因此:

∇ w 2 L ( w ) = X T W X , W = diag ( e w T x 1 , ... , e w T x N ) \nabla^2_w \mathcal{L}(w) = X^T W X, \quad W = \text{diag}(e^{w^T x_1}, \ldots, e^{w^T x_N}) ∇w2L(w)=XTWX,W=diag(ewTx1,...,ewTxN)


4.8 GLM 的几何理解

所有 GLM 都在做同一件事:

  1. 通过线性组合 w T x w^T x wTx 构造自然参数 η \eta η
  2. 通过 μ = ∇ η A ( η ) \mu = \nabla_\eta A(\eta) μ=∇ηA(η) 将 η \eta η 映射到均值参数空间
  3. 优化目标是最小化观测值 y y y 与预测均值 μ \mu μ 之间的"距离"

不同的 GLM 只是选择了不同的分布 (即不同的 A ( η ) A(\eta) A(η)),从而对应不同的均值-方差关系:

  • 高斯: Var [ y ∣ x ] = σ 2 \text{Var}[y|x] = \sigma^2 Var[y∣x]=σ2 (常数)
  • 伯努利: Var [ y ∣ x ] = μ ( 1 − μ ) \text{Var}[y|x] = \mu(1-\mu) Var[y∣x]=μ(1−μ) (二次函数)
  • 泊松: Var [ y ∣ x ] = μ \text{Var}[y|x] = \mu Var[y∣x]=μ (均值-方差相等)

但优化的本质是相同的:所有 GLM 的梯度都是残差与特征的线性组合


5. 总结

5.1 主要结论

1. 指数族的标准形式:

P ( x ∣ η ) = h ( x ) exp ⁡ ( η T T ( x ) − A ( η ) ) P(x|\eta) = h(x) \exp\left(\eta^T T(x) - A(\eta)\right) P(x∣η)=h(x)exp(ηTT(x)−A(η))

这是概率分布的"元素周期表",涵盖了几乎所有常用的分布。

2. 对数配分函数的核心性质:

∇ η A ( η ) = E [ T ( x ) ] (一阶导数 = 期望) ∇ η 2 A ( η ) = Cov [ T ( x ) ] (二阶导数 = 协方差) I ( η ) = ∇ η 2 A ( η ) (Fisher 信息) \begin{aligned} \nabla_\eta A(\eta) &= \mathbb{E}[T(x)] \quad \text{(一阶导数 = 期望)} \\ \nabla^2_\eta A(\eta) &= \text{Cov}[T(x)] \quad \text{(二阶导数 = 协方差)} \\ \mathcal{I}(\eta) &= \nabla^2_\eta A(\eta) \quad \text{(Fisher 信息)} \end{aligned} ∇ηA(η)∇η2A(η)I(η)=E[T(x)](一阶导数 = 期望)=Cov[T(x)](二阶导数 = 协方差)=∇η2A(η)(Fisher 信息)

这些性质使得 MLE 成为凸优化问题,保证了优化的稳定性和唯一性。

3. 最大熵原理:

给定矩约束,指数族分布是唯一最大熵分布:

max ⁡ H [ P ] s.t. E [ T k ( x ) ] = α k ⇒ P ( x ) = exp ⁡ ( ∑ λ k T k ( x ) − A ( λ ) ) \max H[P] \quad \text{s.t.} \quad \mathbb{E}[T_k(x)] = \alpha_k \quad \Rightarrow \quad P(x) = \exp\left(\sum \lambda_k T_k(x) - A(\lambda)\right) maxH[P]s.t.E[Tk(x)]=αk⇒P(x)=exp(∑λkTk(x)−A(λ))

这从信息论角度解释了为什么指数族无处不在:它们是最保守、最无偏的选择。

4. GLM 的统一公式:

所有广义线性模型共享同一个梯度:

∇ w L ( w ) = − ∑ i = 1 N ( y i − μ i ) x i \nabla_w \mathcal{L}(w) = -\sum_{i=1}^N (y_i - \mu_i) x_i ∇wL(w)=−i=1∑N(yi−μi)xi

其中 μ i = ∇ η A ( η i ) ∣ η i = w T x i \mu_i = \nabla_\eta A(\eta_i)|_{\eta_i = w^T x_i} μi=∇ηA(ηi)∣ηi=wTxi。

线性回归、逻辑回归、泊松回归本质相同,只是选择了不同的 A ( η ) A(\eta) A(η)。


5.2 为什么指数族如此重要?

  1. 统计学: 充分统计量、MLE 的矩匹配、Fisher 信息
  2. 信息论: 最大熵原理
  3. 优化: 凸性保证
  4. 机器学习: GLM、变分推断的基础 (将在第5章讨论)

指数族不仅仅是一个数学定义,而是:

  • 统计学的基础
  • 信息论的体现
  • 优化的福音
  • 机器学习的支柱

当你遇到一个新的概率模型时,首先问:它是指数族吗? 如果是,你就拥有了这一整套强大的工具。


5.3 关键公式速查表

性质 公式 备注
标准形式 P ( x ∣ η ) = h ( x ) exp ⁡ ( η T T ( x ) − A ( η ) ) P(x \mid \eta) = h(x) \exp(\eta^T T(x) - A(\eta)) P(x∣η)=h(x)exp(ηTT(x)−A(η)) 定义
对数配分函数 A ( η ) = log ⁡ ∫ h ( x ) exp ⁡ ( η T T ( x ) )   d x A(\eta) = \log \int h(x) \exp(\eta^T T(x)) \, dx A(η)=log∫h(x)exp(ηTT(x))dx 归一化
一阶导数 ∇ η A ( η ) = E [ T ( x ) ] \nabla_\eta A(\eta) = \mathbb{E}[T(x)] ∇ηA(η)=E[T(x)] 期望
二阶导数 ∇ η 2 A ( η ) = Cov [ T ( x ) ] \nabla^2_\eta A(\eta) = \text{Cov}[T(x)] ∇η2A(η)=Cov[T(x)] 协方差
Fisher 信息 I ( η ) = ∇ η 2 A ( η ) \mathcal{I}(\eta) = \nabla^2_\eta A(\eta) I(η)=∇η2A(η) 可估计性
MLE 条件 ∇ η A ( η ^ ) = T ˉ \nabla_\eta A(\hat{\eta}) = \bar{T} ∇ηA(η^)=Tˉ 矩匹配
GLM 梯度 ∇ w L = − ∑ ( y i − μ i ) x i \nabla_w \mathcal{L} = -\sum (y_i - \mu_i) x_i ∇wL=−∑(yi−μi)xi 统一公式
最大熵 P ( x ) = exp ⁡ ( ∑ λ k T k ( x ) − A ( λ ) ) P(x) = \exp(\sum \lambda_k T_k(x) - A(\lambda)) P(x)=exp(∑λkTk(x)−A(λ)) 无偏选择
凸性 A ( η ) 是凸函数 A(\eta) \text{ 是凸函数} A(η) 是凸函数 优化保证

参考文献

  1. Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer, Chapter 2.
  2. Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction. MIT Press, Chapter 3.
  3. Wainwright, M. J., & Jordan, M. I. (2008). Graphical Models, Exponential Families, and Variational Inference. Foundations and Trends in Machine Learning, 1(1-2), 1-305.
  4. Jaynes, E. T. (1957). Information Theory and Statistical Mechanics. Physical Review, 106(4), 620-630.
  5. Nelder, J. A., & Wedderburn, R. W. M. (1972). Generalized Linear Models. Journal of the Royal Statistical Society: Series A, 135(3), 370-384.
相关推荐
无聊的小坏坏1 小时前
实习笔记:用 /etc/crontab 实现定期数据/日志清理
笔记·实习日记
小咖自动剪辑2 小时前
Base64与图片互转工具增强版:一键编码/解码,支持多格式
人工智能·pdf·word·媒体
独自归家的兔2 小时前
从 “局部凑活“ 到 “全局最优“:AI 规划能力的技术突破与产业落地实践
大数据·人工智能
一个处女座的程序猿2 小时前
AI:解读Sam Altman与多位 AI 构建者对话—构建可落地的 AI—剖析 OpenAI Town Hall 与给创业者、产品/工程/安全团队的实用指南
人工智能
依依yyy2 小时前
沪深300指数收益率波动性分析与预测——基于ARMA-GARCH模型
人工智能·算法·机器学习
海域云-罗鹏2 小时前
国内公司与英国总部数据中心/ERP系统互连,SD-WAN专线实操指南
大数据·数据库·人工智能
冬奇Lab2 小时前
深入理解 Claude Code:架构、上下文与工具系统
人工智能·ai编程
Up九五小庞2 小时前
本地部署 + Docker 容器化实战:中医舌诊 AI 项目 TongueDiagnosis 部署全记录-九五小庞
人工智能
John_ToDebug2 小时前
2025年度个人总结:在技术深海中锚定价值,于时代浪潮中重塑自我
人工智能·程序人生