【返璞归真】score检验：似然比的得分检验（Likelihood Ratio Score Test）

Score检验（Score Test）是一种用于假设检验的方法，特别是在统计建模中，常用于估计模型参数时检验某个假设是否成立。它的全名是"似然比的得分检验"（Likelihood Ratio Score Test），通常用于大样本条件下对参数进行检验。

Score检验的基本思路是基于得分函数（score function），即似然函数对参数的偏导数。得分函数反映了在某个参数值下，似然函数的变化率，表示了该点附近模型拟合优度的敏感性。

主要步骤：

选择假设：
- 原假设（H0）：某些参数等于特定值，通常是零。
- 备择假设（H1）：参数不等于这个特定值。
得分函数（Score Function） ：

得分函数是似然函数对参数的导数。假设我们有似然函数 L ( θ ) L(\theta) L(θ)，得分函数就是它的导数：
U ( θ ) = ∂ ∂ θ log ⁡ L ( θ ) U(\theta) = \frac{\partial}{\partial \theta} \log L(\theta) U(θ)=∂θ∂logL(θ)
计算Score检验统计量 ：

得分检验的检验统计量通常为：
S = U ( θ ^ 0 ) T I ( θ ^ 0 ) − 1 U ( θ ^ 0 ) n S = \frac{U(\hat{\theta}_0)^T I(\hat{\theta}_0)^{-1} U(\hat{\theta}_0)}{n} S=nU(θ^0)TI(θ^0)−1U(θ^0)

其中， U ( θ ^ 0 ) U(\hat{\theta}_0) U(θ^0) 是在原假设下估计的得分函数， I ( θ ^ 0 ) I(\hat{\theta}_0) I(θ^0) 是Fisher信息矩阵（即得分函数的二阶导数的期望）， n n n 是样本大小。
比较临界值 ：

该统计量的分布在原假设成立的条件下通常近似于卡方分布。因此，可以将统计量与卡方分布的临界值进行比较，从而决定是否拒绝原假设。

优点：

大样本性质：Score检验在大样本下非常有效，尤其适用于似然函数没有显式解的情况。
无需完整拟合模型：与其他检验方法（如似然比检验）不同，score检验只需要估计原假设下的得分函数，而不需要拟合完全模型。

应用：

参数检验：用于检验某些参数是否等于零或者其他特定值。
模型拟合：常用于检验复杂模型中某些参数的显著性，尤其是在无法直接计算似然比时。

例子：

假设我们想检验某个回归模型中的某个参数是否为零。我们可以计算这个参数的得分函数，构造Score检验统计量，并与卡方分布的临界值进行比较，从而决定是否拒绝原假设（即该参数为零）。

下面我会通过详细的公式推导来解释Score检验的过程，直接进入数学推导。

1. 假设模型与似然函数

假设我们有一个包含参数 θ \theta θ 的统计模型，样本 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn 来自这个模型的概率分布，似然函数为 L ( θ ) = P ( X 1 , X 2 , ... , X n ∣ θ ) L(\theta) = P(X_1, X_2, \dots, X_n \mid \theta) L(θ)=P(X1,X2,...,Xn∣θ)。

通常我们取似然函数的对数，称之为对数似然函数：
ℓ ( θ ) = log ⁡ L ( θ ) \ell(\theta) = \log L(\theta) ℓ(θ)=logL(θ)

2. 得分函数

得分函数是对数似然函数对参数 θ \theta θ 的一阶导数：
U ( θ ) = ∂ ∂ θ ℓ ( θ ) U(\theta) = \frac{\partial}{\partial \theta} \ell(\theta) U(θ)=∂θ∂ℓ(θ)

即：
U ( θ ) = ∂ ∂ θ log ⁡ L ( θ ) U(\theta) = \frac{\partial}{\partial \theta} \log L(\theta) U(θ)=∂θ∂logL(θ)

3. Fisher 信息矩阵

Fisher信息矩阵是得分函数的二阶导数的期望：
I ( θ ) = − E [ ∂ 2 ∂ θ 2 ℓ ( θ ) ] I(\theta) = - \mathbb{E} \left[ \frac{\partial^2}{\partial \theta^2} \ell(\theta) \right] I(θ)=−E[∂θ2∂2ℓ(θ)]

这描述了参数估计的不确定性。它是一个关于参数 θ \theta θ 的矩阵（如果参数有多个）。

4. 在原假设下的得分

在进行Score检验时，我们通常有一个原假设 H 0 : θ = θ 0 H_0: \theta = \theta_0 H0:θ=θ0，我们需要检验原假设下的得分统计量。

设 θ ^ \hat{\theta} θ^ 是最大似然估计（MLE），我们构造原假设下的得分为：
U ( θ 0 ) = ∂ ∂ θ ℓ ( θ ) ∣ θ = θ 0 U(\theta_0) = \frac{\partial}{\partial \theta} \ell(\theta) \Big|_{\theta = \theta_0} U(θ0)=∂θ∂ℓ(θ) θ=θ0

5. Score检验统计量

Score检验的统计量 S S S 通过以下公式定义：
S = U ( θ ^ 0 ) T [ I ( θ ^ 0 ) ] − 1 U ( θ ^ 0 ) S = U(\hat{\theta}_0)^T \left[ I(\hat{\theta}_0) \right]^{-1} U(\hat{\theta}_0) S=U(θ^0)T[I(θ^0)]−1U(θ^0)

其中：

θ ^ 0 \hat{\theta}_0 θ^0 是在原假设下的估计值；
I ( θ ^ 0 ) I(\hat{\theta}_0) I(θ^0) 是Fisher信息矩阵在 θ 0 \theta_0 θ0 下的值。

6. 统计量的分布

在原假设 H 0 H_0 H0 成立时，Score检验的统计量 S S S 近似服从卡方分布：
S ∼ χ k 2 S \sim \chi^2_k S∼χk2

其中 k k k 是参数空间的维度，即 θ \theta θ 的维度。

7. 决策规则

我们根据检验统计量与卡方分布的临界值 χ k 2 ( α ) \chi^2_k(\alpha) χk2(α) 进行比较：

如果 S > χ k 2 ( α ) S > \chi^2_k(\alpha) S>χk2(α)，拒绝原假设 H 0 H_0 H0。
如果 S ≤ χ k 2 ( α ) S \leq \chi^2_k(\alpha) S≤χk2(α)，不拒绝原假设。

8. 结论

通过这些步骤，Score检验给出了一个基于得分函数的检验统计量，该统计量的分布特性（卡方分布）使得它在大样本条件下非常有效，且不需要完全估计整个模型的参数。

通过一个具体的案例来详细展示Score检验的使用过程。

案例：检验正态分布的均值

假设我们有一组样本数据，来自于一个正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)，其中 μ \mu μ 是均值， σ 2 \sigma^2 σ2 是方差。我们想要检验正态分布的均值 μ \mu μ 是否等于某个特定值 μ 0 \mu_0 μ0。

步骤 1：设定假设

我们设定原假设和备择假设：

原假设 H 0 : μ = μ 0 H_0: \mu = \mu_0 H0:μ=μ0
备择假设 H 1 : μ ≠ μ 0 H_1: \mu \neq \mu_0 H1:μ=μ0

步骤 2：似然函数和对数似然函数

正态分布的概率密度函数为：
f ( x i ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x i − μ ) 2 2 σ 2 ) f(x_i \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( - \frac{(x_i - \mu)^2}{2\sigma^2} \right) f(xi∣μ,σ2)=2πσ2 1exp(−2σ2(xi−μ)2)

对于一个样本 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn，似然函数为：
L ( μ , σ 2 ) = ∏ i = 1 n f ( x i ∣ μ , σ 2 ) L(\mu, \sigma^2) = \prod_{i=1}^n f(x_i \mid \mu, \sigma^2) L(μ,σ2)=i=1∏nf(xi∣μ,σ2)

对数似然函数是：
ℓ ( μ , σ 2 ) = log ⁡ L ( μ , σ 2 ) = − n 2 log ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \ell(\mu, \sigma^2) = \log L(\mu, \sigma^2) = - \frac{n}{2} \log(2\pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 ℓ(μ,σ2)=logL(μ,σ2)=−2nlog(2πσ2)−2σ21i=1∑n(xi−μ)2

步骤 3：得分函数

得分函数是对数似然函数对 μ \mu μ 的一阶导数：
U ( μ ) = ∂ ∂ μ ℓ ( μ , σ 2 ) U(\mu) = \frac{\partial}{\partial \mu} \ell(\mu, \sigma^2) U(μ)=∂μ∂ℓ(μ,σ2)

我们计算该导数：
U ( μ ) = 1 σ 2 ∑ i = 1 n ( x i − μ ) U(\mu) = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) U(μ)=σ21i=1∑n(xi−μ)

步骤 4：Fisher信息矩阵

Fisher信息矩阵是得分函数的二阶导数的期望。我们首先对得分函数进行二阶导数：
I ( μ ) = − E [ ∂ 2 ∂ μ 2 ℓ ( μ , σ 2 ) ] I(\mu) = - \mathbb{E} \left[ \frac{\partial^2}{\partial \mu^2} \ell(\mu, \sigma^2) \right] I(μ)=−E[∂μ2∂2ℓ(μ,σ2)]

计算该二阶导数：
I ( μ ) = n σ 2 I(\mu) = \frac{n}{\sigma^2} I(μ)=σ2n

步骤 5：Score检验统计量

我们现在来计算Score检验的统计量。首先，我们在原假设下（即 μ = μ 0 \mu = \mu_0 μ=μ0）计算得分函数：
U ( μ 0 ) = 1 σ 2 ∑ i = 1 n ( x i − μ 0 ) U(\mu_0) = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu_0) U(μ0)=σ21i=1∑n(xi−μ0)

然后计算Score检验的统计量：
S = U ( μ 0 ) 2 ⋅ 1 I ( μ 0 ) = ( 1 σ 2 ∑ i = 1 n ( x i − μ 0 ) ) 2 ⋅ σ 2 n S = U(\mu_0)^2 \cdot \frac{1}{I(\mu_0)} = \left( \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu_0) \right)^2 \cdot \frac{\sigma^2}{n} S=U(μ0)2⋅I(μ0)1=(σ21i=1∑n(xi−μ0))2⋅nσ2
S = 1 n ( ∑ i = 1 n ( x i − μ 0 ) ) 2 S = \frac{1}{n} \left( \sum_{i=1}^n (x_i - \mu_0) \right)^2 S=n1(i=1∑n(xi−μ0))2

步骤 6：检验统计量的分布

在原假设 H 0 : μ = μ 0 H_0: \mu = \mu_0 H0:μ=μ0 下，Score检验的统计量 S S S 服从卡方分布 χ 1 2 \chi^2_1 χ12，因为 μ \mu μ 只有一个参数。

步骤 7：进行假设检验

计算样本数据 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn 中的 S S S 值。
比较该统计量 S S S 与卡方分布的临界值 χ 1 2 ( α ) \chi^2_1(\alpha) χ12(α)，通常 α = 0.05 \alpha = 0.05 α=0.05。

如果 S > χ 1 2 ( α ) S > \chi^2_1(\alpha) S>χ12(α)，我们拒绝原假设，认为 μ ≠ μ 0 \mu \neq \mu_0 μ=μ0。
如果 S ≤ χ 1 2 ( α ) S \leq \chi^2_1(\alpha) S≤χ12(α)，我们不拒绝原假设，认为没有足够证据表明 μ ≠ μ 0 \mu \neq \mu_0 μ=μ0。

例子：具体计算

假设我们有以下样本数据：
x 1 = 2.3 , x 2 = 2.5 , x 3 = 2.7 , x 4 = 2.9 , x 5 = 3.1 x_1 = 2.3, \, x_2 = 2.5, \, x_3 = 2.7, \, x_4 = 2.9, \, x_5 = 3.1 x1=2.3,x2=2.5,x3=2.7,x4=2.9,x5=3.1

并且我们想要检验均值是否为 μ 0 = 2.5 \mu_0 = 2.5 μ0=2.5，且已知样本方差 σ 2 = 0.1 \sigma^2 = 0.1 σ2=0.1。

计算得分函数：
U ( 2.5 ) = 1 0.1 ( ( 2.3 − 2.5 ) + ( 2.5 − 2.5 ) + ( 2.7 − 2.5 ) + ( 2.9 − 2.5 ) + ( 3.1 − 2.5 ) ) = 1 0.1 ( − 0.2 + 0 + 0.2 + 0.4 + 0.6 ) = 1 0.1 × 1 = 10 U(2.5) = \frac{1}{0.1} \left( (2.3 - 2.5) + (2.5 - 2.5) + (2.7 - 2.5) + (2.9 - 2.5) + (3.1 - 2.5) \right) = \frac{1}{0.1} \left( -0.2 + 0 + 0.2 + 0.4 + 0.6 \right) = \frac{1}{0.1} \times 1 = 10 U(2.5)=0.11((2.3−2.5)+(2.5−2.5)+(2.7−2.5)+(2.9−2.5)+(3.1−2.5))=0.11(−0.2+0+0.2+0.4+0.6)=0.11×1=10
计算Fisher信息矩阵：
I ( 2.5 ) = 5 0.1 = 50 I(2.5) = \frac{5}{0.1} = 50 I(2.5)=0.15=50
计算Score检验统计量：
S = U ( 2.5 ) 2 I ( 2.5 ) = 1 0 2 50 = 100 50 = 2 S = \frac{U(2.5)^2}{I(2.5)} = \frac{10^2}{50} = \frac{100}{50} = 2 S=I(2.5)U(2.5)2=50102=50100=2
查找卡方分布的临界值：
- 对于 α = 0.05 \alpha = 0.05 α=0.05 和自由度 k = 1 k = 1 k=1，卡方分布的临界值 χ 1 2 ( 0.05 ) = 3.841 \chi^2_1(0.05) = 3.841 χ12(0.05)=3.841。
比较统计量与临界值：
S = 2 < 3.841 S = 2 < 3.841 S=2<3.841

因此，我们不能拒绝原假设，认为均值 μ = 2.5 \mu = 2.5 μ=2.5 是合理的。

总结

通过这个案例，我们展示了如何应用Score检验来检验正态分布的均值。我们通过计算得分函数、Fisher信息矩阵，得到检验统计量，并根据卡方分布进行假设检验。

Score检验的依据

Score检验 的依据主要来源于大样本统计理论中的得分函数 和渐近分布的性质。要理解为什么Score得分能够用来进行假设检验，我们需要从以下几个核心的概念和推导来详细解释：

1. 得分函数与似然函数

假设我们有一个模型，包含未知的参数 θ \theta θ，而我们从该模型中获取了样本数据 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn。似然函数 L ( θ ) L(\theta) L(θ) 描述了参数 θ \theta θ 给定数据的可能性，具体是：
L ( θ ) = P ( X 1 , X 2 , ... , X n ∣ θ ) L(\theta) = P(X_1, X_2, \dots, X_n \mid \theta) L(θ)=P(X1,X2,...,Xn∣θ)

而我们对似然函数取对数，得到对数似然函数：
ℓ ( θ ) = log ⁡ L ( θ ) \ell(\theta) = \log L(\theta) ℓ(θ)=logL(θ)

得分函数是对数似然函数关于参数 θ \theta θ 的一阶导数：
U ( θ ) = ∂ ∂ θ ℓ ( θ ) U(\theta) = \frac{\partial}{\partial \theta} \ell(\theta) U(θ)=∂θ∂ℓ(θ)

得分函数的直观意义是：它反映了似然函数相对于参数变化的灵敏度，即数据给定时，参数的变化方向和大小。得分函数为零的点通常是最大似然估计（MLE）的候选点。

2. 大样本渐近理论

在大样本条件下，似然估计 θ ^ \hat{\theta} θ^ 具有一致性和渐近正态性，也就是说，随着样本量 n → ∞ n \to \infty n→∞， θ ^ \hat{\theta} θ^ 会收敛到真实值 θ 0 \theta_0 θ0，并且其分布趋向于正态分布。

似然函数在 θ 0 \theta_0 θ0 处取得最大值（即最大似然估计 θ ^ \hat{\theta} θ^），得分函数在 θ 0 \theta_0 θ0 处趋于零。
得分函数的期望 E [ U ( θ 0 ) ] = 0 \mathbb{E}[U(\theta_0)] = 0 E[U(θ0)]=0，并且在 θ 0 \theta_0 θ0 处的方差由Fisher信息矩阵表示，即：
I ( θ 0 ) = − E [ ∂ 2 ℓ ( θ 0 ) ∂ θ 2 ] I(\theta_0) = - \mathbb{E}\left[\frac{\partial^2 \ell(\theta_0)}{\partial \theta^2}\right] I(θ0)=−E[∂θ2∂2ℓ(θ0)]
Fisher信息矩阵刻画了估计量的精度。

3. 渐近正态性与得分检验

在大样本条件下，得分函数 U ( θ ) U(\theta) U(θ) 和最大似然估计 θ ^ \hat{\theta} θ^ 之间有一种近似关系。具体地，得分函数可以用来检验原假设 H 0 : θ = θ 0 H_0: \theta = \theta_0 H0:θ=θ0 是否成立。

通过大样本的渐近理论，如果我们假设参数 θ \theta θ 在原假设 H 0 H_0 H0 下等于某个特定值 θ 0 \theta_0 θ0，则得分函数 U ( θ 0 ) U(\theta_0) U(θ0) 的分布近似为：
U ( θ 0 ) ∼ N ( 0 , I ( θ 0 ) ) U(\theta_0) \sim \mathcal{N}(0, I(\theta_0)) U(θ0)∼N(0,I(θ0))

换句话说，在原假设 H 0 H_0 H0 下，得分函数趋近于正态分布，均值为零，方差为Fisher信息矩阵的逆。

4. Score检验的构造与依据

Score检验 的核心思想就是利用得分函数的这一渐近性质来进行假设检验。具体地，我们检验某个参数是否为特定值（如 θ 0 \theta_0 θ0）。在原假设 H 0 : θ = θ 0 H_0: \theta = \theta_0 H0:θ=θ0 下，得分函数的期望为零，且其方差由Fisher信息矩阵给出。因此，我们可以构造如下的检验统计量：
S = U ( θ ^ 0 ) T I ( θ ^ 0 ) − 1 U ( θ ^ 0 ) S = U(\hat{\theta}_0)^T I(\hat{\theta}_0)^{-1} U(\hat{\theta}_0) S=U(θ^0)TI(θ^0)−1U(θ^0)

在原假设 H 0 H_0 H0 下，统计量 S S S 服从卡方分布 χ k 2 \chi^2_k χk2（其中 k k k 是参数的维度），因此可以根据卡方分布进行假设检验。

为什么得分函数能用来判断？

得分函数的渐近零性 ：在原假设 H 0 H_0 H0 下，得分函数趋于零。通过计算得分函数的值，我们实际上在测试是否存在显著的偏离原假设。如果得分函数不接近零，那么原假设就可能被拒绝。
大样本近似正态性：得分函数在大样本下服从正态分布，均值为零，方差由Fisher信息矩阵控制。因此，得分函数的平方和标准化后（通过 Fisher信息矩阵）可以构成检验统计量，这个统计量在大样本下呈现卡方分布，从而可以用来做假设检验。

5. 总结

Score检验的依据是基于得分函数在大样本下的渐近分布特性：

得分函数反映了似然函数对参数变化的灵敏度。
在原假设下，得分函数的期望为零，并且其分布近似正态，标准化后服从卡方分布。
因此，Score检验通过得分函数与Fisher信息矩阵的组合，构造检验统计量，利用卡方分布来进行假设检验。

通过这一过程，Score检验能够有效地判断原假设是否成立，尤其适用于大样本的情形。