Fisher信息矩阵(Fisher Information Matrix,简称FIM)

Fisher信息矩阵简介

Fisher信息矩阵(Fisher Information Matrix,简称FIM)是统计学和信息理论中的一个重要概念,广泛应用于参数估计、统计推断和机器学习领域。它以统计学家罗纳德·费希尔(Ronald Fisher)的名字命名,反映了概率分布对参数变化的敏感度,是衡量模型参数估计不确定性的核心工具。

什么是Fisher信息矩阵?

Fisher信息矩阵是一个对称的方阵,用于描述概率密度函数(或概率质量函数)在其参数下的信息含量。简单来说,它告诉我们通过观测数据能够获得多少关于未知参数的信息。对于一个参数化的概率分布 ( p ( x ∣ θ ) p(x|\theta) p(x∣θ) ),其中 ( θ \theta θ ) 是参数向量,Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 的定义基于对数似然函数的二阶导数。

数学定义

假设我们有一个概率密度函数 ( p ( x ∣ θ ) p(x|\theta) p(x∣θ) ),其中 ( θ = ( θ 1 , θ 2 , ... , θ k ) \theta = (\theta_1, \theta_2, \dots, \theta_k) θ=(θ1,θ2,...,θk) ) 是 ( k k k ) 维参数向量。Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 的元素可以通过以下两种等价的方式定义:

  1. 基于期望的定义
    I ( θ ) i j = E [ ∂ log ⁡ p ( x ∣ θ ) ∂ θ i ∂ log ⁡ p ( x ∣ θ ) ∂ θ j ∣ θ ] I(\theta)_{ij} = E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta_i} \frac{\partial \log p(x|\theta)}{\partial \theta_j} \bigg| \theta \right] I(θ)ij=E[∂θi∂logp(x∣θ)∂θj∂logp(x∣θ) θ]

    这里,( E [ ⋅ ] E[\cdot] E[⋅] ) 表示在给定 ( θ \theta θ ) 下的期望,( ∂ log ⁡ p ( x ∣ θ ) ∂ θ i \frac{\partial \log p(x|\theta)}{\partial \theta_i} ∂θi∂logp(x∣θ) ) 是对数似然函数对第 ( i i i ) 个参数的偏导数,也称为得分函数(score function)。

  2. 基于二阶导数的定义 (在一定条件下等价):
    I ( θ ) i j = − E [ ∂ 2 log ⁡ p ( x ∣ θ ) ∂ θ i ∂ θ j ∣ θ ] I(\theta)_{ij} = -E\left[ \frac{\partial^2 \log p(x|\theta)}{\partial \theta_i \partial \theta_j} \bigg| \theta \right] I(θ)ij=−E[∂θi∂θj∂2logp(x∣θ) θ]

    这是对数似然函数的二阶偏导数的负期望值,通常称为Hessian矩阵的期望。

这两种定义在正则条件下(例如,分布满足可微性和期望的可交换性)是等价的。

一个简单例子

为了更好地理解,假设我们有一个正态分布 ( N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) ),其中参数 ( θ = ( μ , σ 2 ) \theta = (\mu, \sigma^2) θ=(μ,σ2) )。我们来计算它的Fisher信息矩阵:

对数似然函数

对于单个观测值 ( x x x ):
log ⁡ p ( x ∣ μ , σ 2 ) = − 1 2 log ⁡ ( 2 π σ 2 ) − ( x − μ ) 2 2 σ 2 \log p(x|\mu, \sigma^2) = -\frac{1}{2} \log (2\pi \sigma^2) - \frac{(x - \mu)^2}{2\sigma^2} logp(x∣μ,σ2)=−21log(2πσ2)−2σ2(x−μ)2

计算得分函数
  • 对 ( μ \mu μ ) 求偏导:
    ∂ log ⁡ p ∂ μ = x − μ σ 2 \frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2} ∂μ∂logp=σ2x−μ
  • 对 ( σ 2 \sigma^2 σ2 ) 求偏导:
    ∂ log ⁡ p ∂ σ 2 = − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} ∂σ2∂logp=−2σ21+2(σ2)2(x−μ)2
Fisher信息矩阵元素
  • ( I 11 = E [ ( x − μ σ 2 ) 2 ] = 1 σ 2 I_{11} = E\left[ \left( \frac{x - \mu}{\sigma^2} \right)^2 \right] = \frac{1}{\sigma^2} I11=E[(σ2x−μ)2]=σ21 ),因为 ( E [ ( x − μ ) 2 ] = σ 2 E[(x - \mu)^2] = \sigma^2 E[(x−μ)2]=σ2 )。
  • ( I 22 = E [ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 ] = 1 2 ( σ 2 ) 2 I_{22} = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right] = \frac{1}{2(\sigma^2)^2} I22=E[(−2σ21+2(σ2)2(x−μ)2)2]=2(σ2)21 )。计算过程见下文。
  • ( I 12 = I 21 = E [ x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) ] = 0 I_{12} = I_{21} = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] = 0 I12=I21=E[σ2x−μ⋅(−2σ21+2(σ2)2(x−μ)2)]=0 )(交叉项期望为零)。计算过程见下文。

于是,Fisher信息矩阵为:
I ( θ ) = [ 1 σ 2 0 0 1 2 ( σ 2 ) 2 ] I(\theta) = \begin{bmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2(\sigma^2)^2} \end{bmatrix} I(θ)=[σ21002(σ2)21]

Fisher信息矩阵的性质

  1. 正定性:如果模型是可识别的(即不同参数对应不同分布),Fisher信息矩阵通常是正定的,这意味着它可以用来衡量参数估计的"曲率"。
  2. 对角元素 :对角线上的元素 ( I i i I_{ii} Iii ) 表示单个参数 ( θ i \theta_i θi ) 的信息量。
  3. 独立性:如果参数之间是独立的(得分函数的交叉项期望为零),矩阵将是对角矩阵。

应用

  1. Cramér-Rao下界

    Fisher信息矩阵的一个重要应用是提供参数估计方差的下界。对于一个无偏估计器 ( θ ^ \hat{\theta} θ^ ),其协方差矩阵满足:
    Cov ( θ ^ ) ≥ I ( θ ) − 1 \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} Cov(θ^)≥I(θ)−1

    其中 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)−1 ) 是Fisher信息矩阵的逆矩阵。这表明,估计器的精度受限于Fisher信息。

  2. 最大似然估计

    在最大似然估计(MLE)中,Fisher信息矩阵的逆可以用来近似估计参数的协方差矩阵,尤其是在大样本情况下。

  3. 机器学习

    在深度学习中,Fisher信息矩阵被用于优化算法(如自然梯度下降)和模型正则化,帮助理解损失函数的几何结构。

总结

Fisher信息矩阵是统计学中的一个强大工具,它连接了概率分布、参数估计和信息理论。通过量化数据中包含的参数信息,它为我们提供了理解模型行为和估计精度的基础。尽管计算复杂,但在许多实际问题中,它可以通过数值方法或近似来实现。

如果你需要更深入的探讨或具体例子,请告诉我,我可以进一步扩展!

I 22 I_{22} I22复杂计算过程

以下是关于Fisher信息矩阵元素 ( I 22 I_{22} I22 ) 的计算过程


第一部分:计算 ( I 22 I_{22} I22 )

给出的表达式是:

I 22 = E [ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 ] I_{22} = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right] I22=E[(−2σ21+2(σ2)2(x−μ)2)2]

并提到它等于 ( 1 2 ( σ 2 ) 2 \frac{1}{2(\sigma^2)^2} 2(σ2)21 )。让我们一步步验证这个计算过程,假设 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) x∼N(μ,σ2) ),因为Fisher信息矩阵通常在正态分布的背景下计算。

步骤 1:定义对数似然函数

对于来自正态分布 ( N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) ) 的单个观测值 ( x x x ),概率密度函数为:

p ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) p(x∣μ,σ2)=2πσ2 1exp(−2σ2(x−μ)2)

对数似然函数为:

log ⁡ p ( x ∣ μ , σ 2 ) = − 1 2 log ⁡ ( 2 π σ 2 ) − ( x − μ ) 2 2 σ 2 \log p(x | \mu, \sigma^2) = -\frac{1}{2} \log (2\pi \sigma^2) - \frac{(x - \mu)^2}{2\sigma^2} logp(x∣μ,σ2)=−21log(2πσ2)−2σ2(x−μ)2

步骤 2:对 ( σ 2 \sigma^2 σ2 ) 求偏导数

由于 ( I 22 I_{22} I22 ) 对应参数 ( θ 2 = σ 2 \theta_2 = \sigma^2 θ2=σ2 ),我们需要计算:

∂ log ⁡ p ∂ σ 2 \frac{\partial \log p}{\partial \sigma^2} ∂σ2∂logp

  • 第一项:( − 1 2 log ⁡ ( 2 π σ 2 ) = − 1 2 log ⁡ 2 π − 1 2 log ⁡ σ 2 -\frac{1}{2} \log (2\pi \sigma^2) = -\frac{1}{2} \log 2\pi - \frac{1}{2} \log \sigma^2 −21log(2πσ2)=−21log2π−21logσ2 )

∂ ∂ σ 2 ( − 1 2 log ⁡ σ 2 ) = − 1 2 ⋅ 1 σ 2 = − 1 2 σ 2 \frac{\partial}{\partial \sigma^2} \left( -\frac{1}{2} \log \sigma^2 \right) = -\frac{1}{2} \cdot \frac{1}{\sigma^2} = -\frac{1}{2\sigma^2} ∂σ2∂(−21logσ2)=−21⋅σ21=−2σ21

(这里使用了链式法则:( d d σ 2 log ⁡ σ 2 = 1 σ 2 \frac{d}{d\sigma^2} \log \sigma^2 = \frac{1}{\sigma^2} dσ2dlogσ2=σ21 )。)

  • 第二项:( − ( x − μ ) 2 2 σ 2 -\frac{(x - \mu)^2}{2\sigma^2} −2σ2(x−μ)2 )

∂ ∂ σ 2 ( − ( x − μ ) 2 2 σ 2 ) = − ( x − μ ) 2 2 ⋅ ( − 1 ) ( σ 2 ) − 2 = ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial}{\partial \sigma^2} \left( -\frac{(x - \mu)^2}{2\sigma^2} \right) = -\frac{(x - \mu)^2}{2} \cdot (-1) (\sigma^2)^{-2} = \frac{(x - \mu)^2}{2(\sigma^2)^2} ∂σ2∂(−2σ2(x−μ)2)=−2(x−μ)2⋅(−1)(σ2)−2=2(σ2)2(x−μ)2

因此:

∂ log ⁡ p ∂ σ 2 = − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} ∂σ2∂logp=−2σ21+2(σ2)2(x−μ)2

这与给出的期望内的表达式一致.

步骤 3:对偏导数平方

I 22 = E [ ( ∂ log ⁡ p ∂ σ 2 ) 2 ] = E [ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 ] I_{22} = E\left[ \left( \frac{\partial \log p}{\partial \sigma^2} \right)^2 \right] = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right] I22=E[(∂σ2∂logp)2]=E[(−2σ21+2(σ2)2(x−μ)2)2]

展开平方:

( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 = ( − 1 2 σ 2 ) 2 + 2 ( − 1 2 σ 2 ) ( ( x − μ ) 2 2 ( σ 2 ) 2 ) + ( ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 = \left( -\frac{1}{2\sigma^2} \right)^2 + 2 \left( -\frac{1}{2\sigma^2} \right) \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) + \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 (−2σ21+2(σ2)2(x−μ)2)2=(−2σ21)2+2(−2σ21)(2(σ2)2(x−μ)2)+(2(σ2)2(x−μ)2)2

逐项简化:

  1. ( ( − 1 2 σ 2 ) 2 = 1 4 ( σ 2 ) 2 \left( -\frac{1}{2\sigma^2} \right)^2 = \frac{1}{4(\sigma^2)^2} (−2σ21)2=4(σ2)21 )

  2. ( 2 ( − 1 2 σ 2 ) ( ( x − μ ) 2 2 ( σ 2 ) 2 ) = − ( x − μ ) 2 2 ( σ 2 ) 3 2 \left( -\frac{1}{2\sigma^2} \right) \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) = -\frac{(x - \mu)^2}{2(\sigma^2)^3} 2(−2σ21)(2(σ2)2(x−μ)2)=−2(σ2)3(x−μ)2 )

  3. ( ( ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 = ( x − μ ) 4 4 ( σ 2 ) 4 \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 = \frac{(x - \mu)^4}{4(\sigma^2)^4} (2(σ2)2(x−μ)2)2=4(σ2)4(x−μ)4 )

因此:

I 22 = E [ 1 4 ( σ 2 ) 2 − ( x − μ ) 2 2 ( σ 2 ) 3 + ( x − μ ) 4 4 ( σ 2 ) 4 ] I_{22} = E\left[ \frac{1}{4(\sigma^2)^2} - \frac{(x - \mu)^2}{2(\sigma^2)^3} + \frac{(x - \mu)^4}{4(\sigma^2)^4} \right] I22=E[4(σ2)21−2(σ2)3(x−μ)2+4(σ2)4(x−μ)4]

步骤 4:计算期望

由于 ( σ 2 \sigma^2 σ2 ) 是参数(常数),我们对 ( x x x ) 取期望:

  • ( E [ 1 4 ( σ 2 ) 2 ] = 1 4 ( σ 2 ) 2 E\left[ \frac{1}{4(\sigma^2)^2} \right] = \frac{1}{4(\sigma^2)^2} E[4(σ2)21]=4(σ2)21 ) (常数)

  • ( E [ − ( x − μ ) 2 2 ( σ 2 ) 3 ] = − 1 2 ( σ 2 ) 3 E [ ( x − μ ) 2 ] E\left[ -\frac{(x - \mu)^2}{2(\sigma^2)^3} \right] = -\frac{1}{2(\sigma^2)^3} E[(x - \mu)^2] E[−2(σ2)3(x−μ)2]=−2(σ2)31E[(x−μ)2] )

  • ( E [ ( x − μ ) 4 4 ( σ 2 ) 4 ] = 1 4 ( σ 2 ) 4 E [ ( x − μ ) 4 ] E\left[ \frac{(x - \mu)^4}{4(\sigma^2)^4} \right] = \frac{1}{4(\sigma^2)^4} E[(x - \mu)^4] E[4(σ2)4(x−μ)4]=4(σ2)41E[(x−μ)4] )

对于 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) x∼N(μ,σ2) ):

  • ( E [ ( x − μ ) 2 ] = 方差 = σ 2 E[(x - \mu)^2] = \text{方差} = \sigma^2 E[(x−μ)2]=方差=σ2 )

  • ( E [ ( x − μ ) 4 ] = 3 ( σ 2 ) 2 E[(x - \mu)^4] = 3(\sigma^2)^2 E[(x−μ)4]=3(σ2)2 ) (正态分布的四阶中心矩)

代入:

I 22 = 1 4 ( σ 2 ) 2 − 1 2 ( σ 2 ) 3 ⋅ σ 2 + 1 4 ( σ 2 ) 4 ⋅ 3 ( σ 2 ) 2 I_{22} = \frac{1}{4(\sigma^2)^2} - \frac{1}{2(\sigma^2)^3} \cdot \sigma^2 + \frac{1}{4(\sigma^2)^4} \cdot 3(\sigma^2)^2 I22=4(σ2)21−2(σ2)31⋅σ2+4(σ2)41⋅3(σ2)2

= 1 4 ( σ 2 ) 2 − 1 2 ( σ 2 ) 2 + 3 4 ( σ 2 ) 2 = \frac{1}{4(\sigma^2)^2} - \frac{1}{2(\sigma^2)^2} + \frac{3}{4(\sigma^2)^2} =4(σ2)21−2(σ2)21+4(σ2)23

= ( 1 4 − 2 4 + 3 4 ) 1 ( σ 2 ) 2 = 2 4 1 ( σ 2 ) 2 = 1 2 ( σ 2 ) 2 = \left( \frac{1}{4} - \frac{2}{4} + \frac{3}{4} \right) \frac{1}{(\sigma^2)^2} = \frac{2}{4} \frac{1}{(\sigma^2)^2} = \frac{1}{2(\sigma^2)^2} =(41−42+43)(σ2)21=42(σ2)21=2(σ2)21

这证实了:

I 22 = 1 2 ( σ 2 ) 2 I_{22} = \frac{1}{2(\sigma^2)^2} I22=2(σ2)21

这个计算依赖于对偏导数平方后展开,并利用正态分布的矩,结果如上所示。


第二部分:两个偏导的乘积是否等价于平方?

两个偏导的乘积等价成平方了吗?让我们在 ( θ = ( μ , σ 2 ) \theta = (\mu, \sigma^2) θ=(μ,σ2) ) 的Fisher信息矩阵背景下解释这个问题。

Fisher信息矩阵元素
  • ( I 11 = E [ ( ∂ log ⁡ p ∂ μ ) 2 ] I_{11} = E\left[ \left( \frac{\partial \log p}{\partial \mu} \right)^2 \right] I11=E[(∂μ∂logp)2] )

  • ( I 12 = I 21 = E [ ∂ log ⁡ p ∂ μ ∂ log ⁡ p ∂ σ 2 ] I_{12} = I_{21} = E\left[ \frac{\partial \log p}{\partial \mu} \frac{\partial \log p}{\partial \sigma^2} \right] I12=I21=E[∂μ∂logp∂σ2∂logp] )

  • ( I 22 = E [ ( ∂ log ⁡ p ∂ σ 2 ) 2 ] I_{22} = E\left[ \left( \frac{\partial \log p}{\partial \sigma^2} \right)^2 \right] I22=E[(∂σ2∂logp)2] ) (如上计算)

对角元素是平方,非对角元素是乘积。

解答交叉项期望为零

为什么 ( I 12 = I 21 = E [ x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) ] = 0 I_{12} = I_{21} = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] = 0 I12=I21=E[σ2x−μ⋅(−2σ21+2(σ2)2(x−μ)2)]=0 )?


背景

在Fisher信息矩阵中,( I i j I_{ij} Iij ) 表示参数 ( θ i \theta_i θi ) 和 ( θ j \theta_j θj ) 的信息关联。对于正态分布 ( N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) ),我们令 ( θ 1 = μ \theta_1 = \mu θ1=μ ),( θ 2 = σ 2 \theta_2 = \sigma^2 θ2=σ2 )。这里,( I 12 I_{12} I12 ) 是交叉项,定义为:

I 12 = E [ ∂ log ⁡ p ∂ μ ⋅ ∂ log ⁡ p ∂ σ 2 ] I_{12} = E\left[ \frac{\partial \log p}{\partial \mu} \cdot \frac{\partial \log p}{\partial \sigma^2} \right] I12=E[∂μ∂logp⋅∂σ2∂logp]

它衡量了 ( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 之间的信息相关性。如果 ( I 12 = 0 I_{12} = 0 I12=0 ),说明这两个参数在信息上是"正交"的,也就是说,一个参数的得分函数(score function)与另一个参数的得分函数在期望上是无关的。


计算过程

步骤 1:计算交叉项 ( I 12 I_{12} I12 )

I 12 = E [ ∂ log ⁡ p ∂ μ ⋅ ∂ log ⁡ p ∂ σ 2 ] = E [ x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) ] I_{12} = E\left[ \frac{\partial \log p}{\partial \mu} \cdot \frac{\partial \log p}{\partial \sigma^2} \right] = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] I12=E[∂μ∂logp⋅∂σ2∂logp]=E[σ2x−μ⋅(−2σ21+2(σ2)2(x−μ)2)]

展开乘积:

x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) = x − μ σ 2 ⋅ ( − 1 2 σ 2 ) + x − μ σ 2 ⋅ ( x − μ ) 2 2 ( σ 2 ) 2 \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) = \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} \right) + \frac{x - \mu}{\sigma^2} \cdot \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2x−μ⋅(−2σ21+2(σ2)2(x−μ)2)=σ2x−μ⋅(−2σ21)+σ2x−μ⋅2(σ2)2(x−μ)2

= − x − μ 2 ( σ 2 ) 2 + ( x − μ ) 3 2 ( σ 2 ) 3 = -\frac{x - \mu}{2(\sigma^2)^2} + \frac{(x - \mu)^3}{2(\sigma^2)^3} =−2(σ2)2x−μ+2(σ2)3(x−μ)3

因此:

I 12 = E [ − x − μ 2 ( σ 2 ) 2 + ( x − μ ) 3 2 ( σ 2 ) 3 ] I_{12} = E\left[ -\frac{x - \mu}{2(\sigma^2)^2} + \frac{(x - \mu)^3}{2(\sigma^2)^3} \right] I12=E[−2(σ2)2x−μ+2(σ2)3(x−μ)3]

由于期望是线性的,我们可以分开计算:

I 12 = − 1 2 ( σ 2 ) 2 E [ x − μ ] + 1 2 ( σ 2 ) 3 E [ ( x − μ ) 3 ] I_{12} = -\frac{1}{2(\sigma^2)^2} E[x - \mu] + \frac{1}{2(\sigma^2)^3} E[(x - \mu)^3] I12=−2(σ2)21E[x−μ]+2(σ2)31E[(x−μ)3]

步骤 2:计算正态分布的矩

对于 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) x∼N(μ,σ2) ):

  • ( E [ x − μ ] = 0 E[x - \mu] = 0 E[x−μ]=0 ) (一阶中心矩,因为均值为 ( μ \mu μ ))

  • ( E [ ( x − μ ) 3 ] = 0 E[(x - \mu)^3] = 0 E[(x−μ)3]=0 ) (三阶中心矩,由于正态分布是对称的,奇数阶中心矩为零)

代入:

I 12 = − 1 2 ( σ 2 ) 2 ⋅ 0 + 1 2 ( σ 2 ) 3 ⋅ 0 = 0 I_{12} = -\frac{1}{2(\sigma^2)^2} \cdot 0 + \frac{1}{2(\sigma^2)^3} \cdot 0 = 0 I12=−2(σ2)21⋅0+2(σ2)31⋅0=0

所以:

I 12 = 0 I_{12} = 0 I12=0

这就是为什么交叉项期望为零。


解释:为什么会是零?

这个结果的背后有深刻的统计意义:

  1. 正态分布的对称性

    • ( x − μ x - \mu x−μ ) 的分布是对称的(服从 ( N ( 0 , σ 2 ) N(0, \sigma^2) N(0,σ2) )),其奇数阶中心矩(如 ( E [ x − μ ] E[x - \mu] E[x−μ] ) 和 ( E [ ( x − μ ) 3 ] E[(x - \mu)^3] E[(x−μ)3] ))都为零。
    • ( ∂ log ⁡ p ∂ μ = x − μ σ 2 \frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2} ∂μ∂logp=σ2x−μ ) 是线性项,期望为零。
    • ( ∂ log ⁡ p ∂ σ 2 = − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} ∂σ2∂logp=−2σ21+2(σ2)2(x−μ)2 ) 包含常数项和二次项,乘以奇数项 ( x − μ x - \mu x−μ ) 后,奇数阶的部分在期望下消失。
  2. 参数的正交性

    • 在正态分布中,( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 的得分函数是"正交"的,意味着它们提供的信息在统计上是独立的。
    • 当 ( I 12 = 0 I_{12} = 0 I12=0 ),Fisher信息矩阵是对角矩阵,表明 ( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 的估计不会相互干扰。
  3. 直观理解

    • ( x − μ σ 2 \frac{x - \mu}{\sigma^2} σ2x−μ ) 表示数据偏离均值的程度,是随机的正负波动。
    • ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} −2σ21+2(σ2)2(x−μ)2 ) 与方差相关,是关于偏差大小的量。
    • 这两者乘积的正负波动在对称分布下互相抵消,期望为零。

验证:另一种方法(二阶导数)

Fisher信息矩阵也可以用二阶导数的负期望定义:

I 12 = − E [ ∂ 2 log ⁡ p ∂ μ ∂ σ 2 ] I_{12} = -E\left[ \frac{\partial^2 \log p}{\partial \mu \partial \sigma^2} \right] I12=−E[∂μ∂σ2∂2logp]

计算二阶混合偏导:

∂ ∂ σ 2 ( x − μ σ 2 ) = ( x − μ ) ⋅ ( − 1 ) ( σ 2 ) − 2 = − x − μ ( σ 2 ) 2 \frac{\partial}{\partial \sigma^2} \left( \frac{x - \mu}{\sigma^2} \right) = (x - \mu) \cdot (-1) (\sigma^2)^{-2} = -\frac{x - \mu}{(\sigma^2)^2} ∂σ2∂(σ2x−μ)=(x−μ)⋅(−1)(σ2)−2=−(σ2)2x−μ

I 12 = − E [ − x − μ ( σ 2 ) 2 ] = 1 ( σ 2 ) 2 E [ x − μ ] = 0 I_{12} = -E\left[ -\frac{x - \mu}{(\sigma^2)^2} \right] = \frac{1}{(\sigma^2)^2} E[x - \mu] = 0 I12=−E[−(σ2)2x−μ]=(σ2)21E[x−μ]=0

这与得分函数方法一致,进一步确认 ( I 12 = 0 I_{12} = 0 I12=0 )。


结论

( I 12 = 0 I_{12} = 0 I12=0 ) 是因为正态分布的奇数阶中心矩为零,导致 ( ∂ log ⁡ p ∂ μ \frac{\partial \log p}{\partial \mu} ∂μ∂logp ) 和 ( ∂ log ⁡ p ∂ σ 2 \frac{\partial \log p}{\partial \sigma^2} ∂σ2∂logp ) 的乘积在期望下抵消。这反映了 ( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 在信息上的独立性,是正态分布的一个重要特性。

后记

2025年2月24日21点43分于上海,在Grok3大模型辅助下完成。

相关推荐
冷雨夜中漫步1 分钟前
Claude Code源码分析——Claude Code Agent Loop 详细设计文档
java·开发语言·人工智能·ai
xixixi777774 分钟前
英伟达Agent专用全模态模型出击,仿冒AI智能体泛滥成灾,《AI伦理安全指引》即将落地——AI治理迎来“技术-风险-规范”三重奏
人工智能·5g·安全·ai·大模型·英伟达·智能体
直奔標竿6 分钟前
Java开发者AI转型第二十六课!Spring AI 个人知识库实战(五)——联网搜索增强实战
java·开发语言·人工智能·spring boot·后端·spring
数据皮皮侠AI10 分钟前
中国城市可再生能源数据集(2005-2021)|顶刊 Sci Data 11 种能源面板
大数据·人工智能·笔记·能源·1024程序员节
G311354227314 分钟前
如何用 QClaw 龙虾做一个规律作息健康助理 Agent
大数据·人工智能·ai·云计算
幂律智能16 分钟前
零售行业合同管理数智化转型解决方案
大数据·人工智能·零售
旺财矿工17 分钟前
零基础搭建 OpenClaw 2.6.6 Win11 本地化运行环境
人工智能·openclaw·小龙虾·龙虾·openclaw安装包
九成宫18 分钟前
动手学深度学习PyTorch版初步安装过程
人工智能·pytorch·深度学习
Traving Yu19 分钟前
Prompt提示词工程
人工智能·prompt
NOCSAH19 分钟前
统好AI CRM功能解析:智能录入与跟进
人工智能