【TJU】研究生应用统计学课程笔记（4）——第二章参数估计（2.1 矩估计和极大似然估计、2.2估计量的优良性原则）

【TJU】研究生应用统计学课程笔记（4）------第二章参数估计（2.1 矩估计和极大似然估计、2.2估计量的优良性原则）

[2.1 矩估计和极大似然估计](#2.1 矩估计和极大似然估计)
- - [1️⃣ 参数估计的分类](#1️⃣ 参数估计的分类)
- [2.1.1 矩估计](#2.1.1 矩估计)
- - [1️⃣ 矩估计的基本思想](#1️⃣ 矩估计的基本思想)
  - [2️⃣ 矩估计的方法](#2️⃣ 矩估计的方法)
- [2.1.2 极大似然估计](#2.1.2 极大似然估计)
- - [1️⃣ 极大似然估计的基本思想](#1️⃣ 极大似然估计的基本思想)
  - [2️⃣ 极大似然估计的定义](#2️⃣ 极大似然估计的定义)
  - [3️⃣ 求极大似然估计的方法](#3️⃣ 求极大似然估计的方法)
[2.2 估计量的优良性原则](#2.2 估计量的优良性原则)
- [2.2.1 无偏估计](#2.2.1 无偏估计)
- - [1️⃣ 无偏估计的定义](#1️⃣ 无偏估计的定义)
- [2.2.2 一致最小方差无偏估计](#2.2.2 一致最小方差无偏估计)
- - [1️⃣ 一致最小方差无偏估计的定义](#1️⃣ 一致最小方差无偏估计的定义)
- [2.2.3 相合估计量](#2.2.3 相合估计量)
- - [1️⃣ 相合估计量的定义](#1️⃣ 相合估计量的定义)
  - [2️⃣ 证明相合估计的方法](#2️⃣ 证明相合估计的方法)

2.1 矩估计和极大似然估计

1️⃣ 参数估计的分类

非参数估计问题：总体分布类型未知，需要由样本构造统计量来估计总体的分布函数或密度函数。
参数估计问题：总体分布类型已知，但含有未知参数，需要由样本构造统计量来估计未知参数。

常见例子：

1、若学生成绩服从正态分布 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) X∼N(μ,σ2)，但 μ , σ 2 \mu,\sigma^2 μ,σ2 未知，就需要通过样本估计参数。
2、若单位时间内事故次数服从 Poisson 分布 X ∼ P ( λ ) X \sim P(\lambda) X∼P(λ)，但 λ \lambda λ 未知，也需要由样本估计。

对于参数估计，按问题的性质不同可以分为两类：

点估计：选择一个统计量 θ ^ = θ ^ ( X 1 , ... , X n ) \hat\theta=\hat\theta(X_1,\dots,X_n) θ^=θ^(X1,...,Xn) 作为参数 θ \theta θ 的估计值。
区间估计：构造一个随机区间，使它以较大概率包含未知参数。

2.1.1 矩估计

1️⃣ 矩估计的基本思想

定义：用样本 k k k 阶矩作为总体 k k k 阶矩的估计量，建立含有待估参数的方程，从而解出待估参数。

矩估计的依据：辛钦大数定律。

设 ξ 1 , ξ 2 , ... , ξ n , ... \xi_1, \xi_2, \dots, \xi_n, \dots ξ1,ξ2,...,ξn,... 是相互独立同分布的随机变量，且 E ξ i k , i = 1 , 2 , ... E\xi_i^k, i=1, 2, \dots Eξik,i=1,2,... 存在，则 lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n ξ i k − E ξ i k ∣ ≥ ϵ ) = 0 \lim_{n \to \infty} P \left( \left| \frac{1}{n} \sum_{i=1}^n \xi_i^k - E\xi_i^k \right| \ge \epsilon \right) = 0 n→∞limP( n1i=1∑nξik−Eξik ≥ϵ)=0

设 ( X 1 , X 2 , ... , X n ) (X_1, X_2, \dots, X_n) (X1,X2,...,Xn) 是取自总体 X X X 的一个样本， X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn 相互独立，与总体 X X X 有相同分布样本 k k k 阶原点矩： A k = 1 n ∑ i = 1 n X i k A_k = \frac{1}{n} \sum_{i=1}^n X_i^k Ak=n1∑i=1nXik 总体 k k k 阶原点矩： E X k = E X i k EX^k = EX_i^k EXk=EXik lim ⁡ n → ∞ P ( ∣ 1 n ∑ i = 1 n X i k − E X k ∣ ≥ ϵ ) = 0. \lim_{n \to \infty} P \left( \left| \frac{1}{n} \sum_{i=1}^n X_i^k - EX^k \right| \ge \epsilon \right) = 0. n→∞limP( n1i=1∑nXik−EXk ≥ϵ)=0.

所以可用样本矩代替总体矩，求得未知参数 θ \theta θ。

2️⃣ 矩估计的方法

定义：设 X ∼ F ( x ; θ ) , θ = ( θ 1 , ... , θ k ) X \sim F(x; \theta), \theta = (\theta_1, \dots, \theta_k) X∼F(x;θ),θ=(θ1,...,θk) 是未知参数向量，若 F ( x ; θ ) F(x; \theta) F(x;θ) 的 k k k 阶矩存在， α ν ( θ ) = ∫ − ∞ ∞ x ν d F ( x ; θ ) , 1 ≤ ν ≤ k \alpha_{\nu}(\theta) = \int_{-\infty}^{\infty} x^{\nu} dF(x; \theta), \quad 1 \le \nu \le k αν(θ)=∫−∞∞xνdF(x;θ),1≤ν≤k

是 θ = ( θ 1 , ... , θ k ) \theta = (\theta_1, \dots, \theta_k) θ=(θ1,...,θk) 的函数.

设 ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 是取自总体 X X X 的一个样本，则由下列方程组 { 1 n ∑ i = 1 n X i = α 1 ( θ 1 , ... , θ k ) ; 1 n ∑ i = 1 n X i 2 = α 2 ( θ 1 , ... , θ k ) ; ⋮ 1 n ∑ i = 1 n X i k = α k ( θ 1 , ... , θ k ) , \begin{cases} \frac{1}{n} \sum_{i=1}^n X_i = \alpha_1(\theta_1, \dots, \theta_k); \\ \frac{1}{n} \sum_{i=1}^n X_i^2 = \alpha_2(\theta_1, \dots, \theta_k); \\ \quad \vdots \\ \frac{1}{n} \sum_{i=1}^n X_i^k = \alpha_k(\theta_1, \dots, \theta_k), \end{cases} ⎩ ⎨ ⎧n1∑i=1nXi=α1(θ1,...,θk);n1∑i=1nXi2=α2(θ1,...,θk);⋮n1∑i=1nXik=αk(θ1,...,θk),

得到 θ = ( θ 1 , ... , θ k ) \theta = (\theta_1, \dots, \theta_k) θ=(θ1,...,θk) 的一组解 θ ^ = ( θ ^ 1 , ... , θ ^ k ) \hat{\theta} = (\hat{\theta}1, \dots, \hat{\theta}k) θ^=(θ^1,...,θ^k)，其中 θ ^ ν = θ ^ ν ( X 1 , ... , X n ) \hat{\theta}\nu = \hat{\theta}\nu(X_1, \dots, X_n) θ^ν=θ^ν(X1,...,Xn)，并以 θ ^ ν \hat{\theta}\nu θ^ν 作为参数 θ ν \theta\nu θν 的估计量， ν = 1 , ... , k \nu = 1, \dots, k ν=1,...,k，则称 θ ^ ν \hat{\theta}\nu θ^ν 为未知参数 θ ν \theta\nu θν 的矩估计量。

例1：求总体 X X X 的均值 E X = μ EX = \mu EX=μ 和方差 D X = σ 2 DX = \sigma^2 DX=σ2 的矩估计。

解： ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 是取自总体 X X X 的一个样本, 若总体的二阶矩 α 2 \alpha_2 α2 存在, 则有 E ( X 2 ) = α 2 = σ 2 + μ 2 E(X^2) = \alpha_2 = \sigma^2 + \mu^2 E(X2)=α2=σ2+μ2,
{ X ˉ = 1 n ∑ i = 1 n X i = μ ; 1 n ∑ i = 1 n X i 2 = α 2 = μ 2 + σ 2 . \begin{cases} \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i = \mu; \\ \frac{1}{n} \sum_{i=1}^n X_i^2 = \alpha_2 = \mu^2 + \sigma^2. \end{cases} {Xˉ=n1∑i=1nXi=μ;n1∑i=1nXi2=α2=μ2+σ2.

以此方程组的解作为 μ , σ 2 \mu, \sigma^2 μ,σ2 的估计。
μ ^ = X ˉ ; σ ^ 2 = 1 n ∑ i = 1 n X i 2 − X ˉ 2 = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 = S ~ 2 . \begin{aligned} \hat{\mu} &= \bar{X}; \\ \hat{\sigma}^2 &= \frac{1}{n} \sum_{i=1}^n X_i^2 - \bar{X}^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 = \tilde{S}^2. \end{aligned} μ^σ^2=Xˉ;=n1i=1∑nXi2−Xˉ2=n1i=1∑n(Xi−Xˉ)2=S~2.所以，总体均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2 的矩估计，分别是样本均值 X ˉ \bar{X} Xˉ 和样本二阶中心矩 S ~ 2 \tilde{S}^2 S~2. 这个结论对任何总体都成立.

结论：总体均值 μ \mu μ 和方差 σ 2 \sigma^2 σ2 的矩估计，分别是样本均值 X ˉ \bar{X} Xˉ 和样本二阶中心矩 S ~ 2 \tilde{S}^2 S~2，这个结论对任何总体都成立。

例2：设 X X X 的密度函数为 f ( x ) = { λ e − λ x , x > 0 0 , x ≤ 0 f(x) = \begin{cases} \lambda e^{-\lambda x}, & x > 0 \\ 0, & x \le 0 \end{cases} f(x)={λe−λx,0,x>0x≤0，求 λ \lambda λ 的矩估计。

解： X ˉ = 1 n ∑ i = 1 n X i = E X = 1 λ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i = EX = \frac{1}{\lambda} Xˉ=n1∑i=1nXi=EX=λ1，所以 λ ^ = 1 X ˉ \hat{\lambda} = \frac{1}{\bar{X}} λ^=Xˉ1 为 λ \lambda λ 的矩估计。

注意：

(1) 矩估计直观简便
(2) 要求总体的原点矩存在，若不存在则不能用，如柯西分布
(3) 没有充分利用总体分布 F ( x ; θ ) F(x; \theta) F(x;θ) 对 θ \theta θ 所提供的信息

2.1.2 极大似然估计

1️⃣ 极大似然估计的基本思想

原理：极大似然估计是建立在极大似然原理基础之上。

引例：两外形相同的箱子，各装 100 个球，其中第一箱有 99 个白球和 1 个红球，第二箱有 1 个白球和 99 个红球，现从两箱中任取一箱，并从箱中任取一球，所取球为白球，问所取球来自哪一箱。

注：概率最大的事件最可能发生

2️⃣ 极大似然估计的定义

定义：设 ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 为取自具有概率分布族 { f ( x ; θ ) : θ ∈ Θ } \{f(x; \theta) : \theta \in \Theta\} {f(x;θ):θ∈Θ} 的离散型总体 X X X 的一个样本，其中 θ = ( θ 1 , ... , θ k ) \theta = (\theta_1, \dots, \theta_k) θ=(θ1,...,θk) 是未知的 k k k 维参数向量， ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 取观测值 ( x 1 , ... , x n ) (x_1, \dots, x_n) (x1,...,xn) 的概率为
L ( x 1 , ... , x n ; θ ) ≜ ∏ i = 1 n f ( x i ; θ ) , L(x_1, \dots, x_n; \theta) \triangleq \prod_{i=1}^n f(x_i; \theta), L(x1,...,xn;θ)≜i=1∏nf(xi;θ),

L ( x 1 , ... , x n ; θ ) L(x_1, \dots, x_n; \theta) L(x1,...,xn;θ) 称为 θ \theta θ 的似然函数 (Likelihood Function). 若 θ ^ \hat{\theta} θ^ 使

L ( x 1 , ... , x n ; θ ^ ) = sup ⁡ θ ∈ Θ L ( x 1 , ... , x n ; θ ) L(x_1, \dots, x_n; \hat{\theta}) = \sup_{\theta \in \Theta} L(x_1, \dots, x_n; \theta) L(x1,...,xn;θ^)=θ∈ΘsupL(x1,...,xn;θ)

并以 θ ^ \hat{\theta} θ^ 作为参数 θ \theta θ 的估计值，则称 θ ^ \hat{\theta} θ^ 为 θ \theta θ 的极大似然估计值，其相应的统计量 θ ^ ( X 1 , ... , X n ) \hat{\theta}(X_1, \dots, X_n) θ^(X1,...,Xn) 称为 θ \theta θ 的极大似然估计量。

3️⃣ 求极大似然估计的方法

求解方法：

(1) 先求似然函数 L ( x 1 , ... , x n ; θ ) ≜ ∏ i = 1 n f ( x i ; θ ) ≜ L ( θ ) L(x_1, \dots, x_n; \theta) \triangleq \prod_{i=1}^n f(x_i; \theta) \triangleq L(\theta) L(x1,...,xn;θ)≜∏i=1nf(xi;θ)≜L(θ)

(2) L ( θ ) L(\theta) L(θ) 与 ln ⁡ L ( θ ) \ln L(\theta) lnL(θ) 有相同的极大值点，求 θ ^ \hat{\theta} θ^ 使得 ln ⁡ L ( θ ^ ) = sup ⁡ θ ∈ Θ ln ⁡ L ( θ ) \ln L(\hat{\theta}) = \sup_{\theta \in \Theta} \ln L(\theta) lnL(θ^)=supθ∈ΘlnL(θ)，

若 L L L 可微， ln ⁡ L ( θ ) \ln L(\theta) lnL(θ) 关于 θ 1 , ... , θ k \theta_1, \dots, \theta_k θ1,...,θk 分别求导数，并令其等于 0 0 0，得 ∂ ln ⁡ L ( θ ) ∂ θ i = 0 , i = 1 , ... , k \frac{\partial \ln L(\theta)}{\partial \theta_i} = 0, i = 1, \dots, k ∂θi∂lnL(θ)=0,i=1,...,k求解似然方程组，得 θ ^ \hat{\theta} θ^ 并证明 θ ^ \hat{\theta} θ^ 使 L ( θ ) L(\theta) L(θ) 达到最大， θ ^ \hat{\theta} θ^ 即为 θ \theta θ 的极大似然估计；
若 L L L 不可微，则用其他方法求出极大似然估计值。

例1：设 X X X 的密度函数为 f ( x ) = { λ e − λ x , x > 0 0 , x ≤ 0 f(x) = \begin{cases} \lambda e^{-\lambda x}, & x > 0 \\ 0, & x \le 0 \end{cases} f(x)={λe−λx,0,x>0x≤0，求参数 λ \lambda λ 的极大似然估计。

解：设 ( x 1 , ... , x n ) (x_1, \dots, x_n) (x1,...,xn) 是样本 ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 的一组观测值，似然函数为 L ( x 1 , ... , x n ; λ ) = ∏ i = 1 n f ( x i ; λ ) = ∏ i = 1 n λ e − λ x i = λ n e − λ ∑ i = 1 n x i L(x_1, \dots, x_n; \lambda) = \prod_{i=1}^n f(x_i; \lambda) = \prod_{i=1}^n \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum_{i=1}^n x_i} L(x1,...,xn;λ)=i=1∏nf(xi;λ)=i=1∏nλe−λxi=λne−λ∑i=1nxi则 ln ⁡ L ( x 1 , ... , x n ; λ ) = n ln ⁡ λ − λ ∑ i = 1 n x i \ln L(x_1, \dots, x_n; \lambda) = n \ln \lambda - \lambda \sum_{i=1}^n x_i lnL(x1,...,xn;λ)=nlnλ−λ∑i=1nxi. 令 ∂ ln ⁡ L ∂ λ = n λ − ∑ i = 1 n x i = 0 \frac{\partial \ln L}{\partial \lambda} = \frac{n}{\lambda} - \sum_{i=1}^n x_i = 0 ∂λ∂lnL=λn−i=1∑nxi=0经验证， λ ^ = 1 X ˉ \hat{\lambda} = \frac{1}{\bar{X}} λ^=Xˉ1 是 λ \lambda λ 的极大似然估计。

例2：设总体 X X X 具有均匀分布，密度函数为 f ( x , θ ) = { 1 θ , 0 < x < θ ; 0 , 其它 , f(x, \theta) = \begin{cases} \frac{1}{\theta}, & 0 < x < \theta; \\ 0, & \text{其它}, \end{cases} f(x,θ)={θ1,0,0<x<θ;其它,，其中 θ > 0 \theta > 0 θ>0 是未知参数，求 θ \theta θ 的极大似然估计。

解：设 ( x 1 , ... , x n ) (x_1, \dots, x_n) (x1,...,xn) 是样本 ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 的一组观测值，似然函数为 L ( θ ) = { 1 θ n , 0 < x i < θ , i = 1 , 2 , ... , n ; 0 , 其它 , L(\theta) = \begin{cases} \frac{1}{\theta^n}, & 0 < x_i < \theta, i = 1, 2, \dots, n; \\ 0, & \text{其它}, \end{cases} L(θ)={θn1,0,0<xi<θ,i=1,2,...,n;其它, ln ⁡ L ( x 1 , ... , x n ; θ ) = − n ln ⁡ θ , 0 < x i < θ , i = 1 , 2 , ... , n . \ln L(x_1, \dots, x_n; \theta) = -n \ln \theta, 0 < x_i < \theta, i = 1, 2, \dots, n. lnL(x1,...,xn;θ)=−nlnθ,0<xi<θ,i=1,2,...,n. ∂ ln ⁡ L ∂ θ = − n θ = 0 无解. \frac{\partial \ln L}{\partial \theta} = -\frac{n}{\theta} = 0 \text{ 无解.} ∂θ∂lnL=−θn=0 无解.要使 L L L 最大，必须使 θ \theta θ 最小，当 θ = max ⁡ 1 ≤ i ≤ n x i = x ( n ) \theta = \max_{1 \le i \le n} x_i = x_{(n)} θ=max1≤i≤nxi=x(n) 时，可使 L L L 最大，故 θ ^ = X ( n ) \hat{\theta} = X_{(n)} θ^=X(n) 为参数 θ \theta θ 的极大似然估计量。

例3：设总体 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2)，其中 θ = ( μ , σ 2 ) \theta = (\mu, \sigma^2) θ=(μ,σ2) 为未知参数向量，参数空间 Θ = { ( μ , σ 2 ) : − ∞ < μ < ∞ , σ 2 > 0 } \Theta = \{(\mu, \sigma^2) : -\infty < \mu < \infty, \sigma^2 > 0\} Θ={(μ,σ2):−∞<μ<∞,σ2>0}，求 μ , σ 2 \mu, \sigma^2 μ,σ2 的极大似然估计。

解：设 ( x 1 , ... , x n ) (x_1, \dots, x_n) (x1,...,xn) 是样本 ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 的一组观测值，于是似然函数为 L ( μ , σ 2 ) = ( 1 2 π σ ) n exp ⁡ { − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 } , L(\mu, \sigma^2) = \left( \frac{1}{\sqrt{2\pi}\sigma} \right)^n \exp \left\{ -\frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \right\}, L(μ,σ2)=(2π σ1)nexp{−2σ21i=1∑n(xi−μ)2},两边取对数得 ln ⁡ L ( μ , σ 2 ) = − n 2 ln ⁡ 2 π − n 2 ln ⁡ σ 2 − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 , \ln L(\mu, \sigma^2) = -\frac{n}{2} \ln 2\pi - \frac{n}{2} \ln \sigma^2 - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2, lnL(μ,σ2)=−2nln2π−2nlnσ2−2σ21i=1∑n(xi−μ)2,分别求上式关于 μ \mu μ 和 σ 2 \sigma^2 σ2 的偏导数，并令它们为 0 0 0，得似然方程组： { ∂ ln ⁡ L ∂ μ = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 ; ∂ ln ⁡ L ∂ σ 2 = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 0 , ⇒ { μ ^ = 1 n ∑ i = 1 n x i = x ˉ ; σ ^ 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 = s ~ n 2 . \begin{cases} \frac{\partial \ln L}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) = 0; \\ \frac{\partial \ln L}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i - \mu)^2 = 0, \end{cases} \Rightarrow \begin{cases} \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i = \bar{x}; \\ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 = \tilde{s}n^2. \end{cases} {∂μ∂lnL=σ21∑i=1n(xi−μ)=0;∂σ2∂lnL=−2σ2n+2σ41∑i=1n(xi−μ)2=0,⇒{μ^=n1∑i=1nxi=xˉ;σ^2=n1∑i=1n(xi−xˉ)2=s~n2.经验证 μ ^ , σ ^ 2 \hat{\mu}, \hat{\sigma}^2 μ^,σ^2 满足关系式： L ( μ ^ , σ ^ 2 ) = sup ⁡ − ∞ < μ < ∞ , σ 2 > 0 L ( μ , σ 2 ) , L(\hat{\mu}, \hat{\sigma}^2) = \sup{-\infty < \mu < \infty, \sigma^2 > 0} L(\mu, \sigma^2), L(μ^,σ^2)=−∞<μ<∞,σ2>0supL(μ,σ2),所以 X ˉ \bar{X} Xˉ 和 S ~ n 2 \tilde{S}_n^2 S~n2 分别是 μ \mu μ 和 σ 2 \sigma^2 σ2 的极大似然估计量。

注意：

(1) 极大似然估计充分利用了总体分布所提供的信息，比矩法估计优，特别是对大样本的情况。
(2) 必须知道总体的分布，且有时不易求出似然方程组的解。
(3) 若函数 g ( θ ) g(\theta) g(θ) 具有单值反函数， θ ^ \hat{\theta} θ^ 是 θ \theta θ 的极大似然估计，则 g ( θ ^ ) g(\hat{\theta}) g(θ^) 是 g ( θ ) g(\theta) g(θ) 的极大似然估计。

2.2 估计量的优良性原则

2.2.1 无偏估计

1️⃣ 无偏估计的定义

定义1 ：设总体 X X X 具有分布族 { F ( x ; θ ) : θ ∈ Θ } \{F(x; \theta) : \theta \in \Theta\} {F(x;θ):θ∈Θ}, ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 是取自这个总体的一个样本， θ ^ = θ ^ ( X 1 , ... , X n ) \hat{\theta} = \hat{\theta}(X_1, \dots, X_n) θ^=θ^(X1,...,Xn) 是未知参数 θ \theta θ 的一个估计量, 如果对于一切 θ ∈ Θ \theta \in \Theta θ∈Θ, 都有 E θ $θ \^ ( X 1 , ... , X n )$ = θ E_{\theta} $\\hat{\\theta}(X_1, \\dots, X_n)$ = \theta Eθ $θ\^(X1,...,Xn)$ =θ

则称 θ ^ ( X 1 , ... , X n ) \hat{\theta}(X_1, \dots, X_n) θ^(X1,...,Xn) 为 θ \theta θ 的无偏估计，简记为 UE。

定义2 ：若 E ( θ ^ ) ≠ θ E(\hat{\theta}) \neq \theta E(θ^)=θ，则称它是有偏的，且称函数 b ( θ , θ ^ ) = E ( θ ^ ) − θ b(\theta, \hat{\theta}) = E(\hat{\theta}) - \theta b(θ,θ^)=E(θ^)−θ 为 θ ^ \hat{\theta} θ^ 估计 θ \theta θ 时的偏。

定义3 ：若有一列 θ \theta θ 的估计 θ ^ n = θ ^ n ( X 1 , ... , X n ) \hat{\theta}n = \hat{\theta}n(X_1, \dots, X_n) θ^n=θ^n(X1,...,Xn)，对一切 θ ∈ Θ \theta \in \Theta θ∈Θ 满足 lim ⁡ n → ∞ E θ ( θ ^ n ) = θ \lim{n \to \infty} E{\theta}(\hat{\theta}n) = \theta limn→∞Eθ(θ^n)=θ，即 lim ⁡ n → ∞ b n = 0 \lim{n \to \infty} b_n = 0 limn→∞bn=0，则称 θ ^ n \hat{\theta}_n θ^n 为 θ \theta θ 的渐近无偏估计量。

定义4 ：若对 θ \theta θ 的任一实值函数 g ( θ ) g(\theta) g(θ), 如果存在估计量 T = T ( X 1 , ... , X n ) T = T(X_1, \dots, X_n) T=T(X1,...,Xn), 使得对一切 θ ∈ Θ \theta \in \Theta θ∈Θ, 有 E θ ( T ) = g ( θ ) E_\theta(T) = g(\theta) Eθ(T)=g(θ), 则 g ( θ ) g(\theta) g(θ) 称为可估计函数。

例1：设总体 X X X 的均值为 μ \mu μ，方差为 σ 2 \sigma^2 σ2， ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 为取自总体的样本，则：

(1) E ( X ˉ ) = μ E(\bar{X}) = \mu E(Xˉ)=μ;
(2) 总体 X X X 的 k k k 阶原点矩 m k = E ( X k ) m_k = E(X^k) mk=E(Xk) 存在，则样本 k k k 阶原点矩 A k A_k Ak 满足 E ( A k ) = m k E(A_k) = m_k E(Ak)=mk。

解：因为 E ( X i ) = E ( X ) = μ , D ( X i ) = D ( X ) = σ 2 , i = 1 , ... , n E(X_i) = E(X) = \mu, D(X_i) = D(X) = \sigma^2, i = 1, \dots, n E(Xi)=E(X)=μ,D(Xi)=D(X)=σ2,i=1,...,n，且 X 1 , ... , X n X_1, \dots, X_n X1,...,Xn 相互独立，则 E ( X ˉ ) = E $1 n \sum i = 1 n X i$ = 1 n ∑ i = 1 n E ( X i ) = 1 n ∑ i = 1 n μ = μ . E(\bar{X}) = E \left $\\frac{1}{n} \\sum_{i=1}\^n X_i \\right$ = \frac{1}{n} \sum_{i=1}^n E(X_i) = \frac{1}{n} \sum_{i=1}^n \mu = \mu. E(Xˉ)=E $n1i=1\sumnXi$ =n1i=1∑nE(Xi)=n1i=1∑nμ=μ. E ( A k ) = E ( 1 n ∑ i = 1 n X i k ) = 1 n ∑ i = 1 n E ( X i k ) = m k . E(A_k) = E \left( \frac{1}{n} \sum_{i=1}^n X_i^k \right) = \frac{1}{n} \sum_{i=1}^n E(X_i^k) = m_k. E(Ak)=E(n1i=1∑nXik)=n1i=1∑nE(Xik)=mk.

例2：（续）验证 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 , S ~ n 2 = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2, \tilde{S}n^2 = \frac{1}{n} \sum{i=1}^n (X_i - \bar{X})^2 S2=n−11∑i=1n(Xi−Xˉ)2,S~n2=n1∑i=1n(Xi−Xˉ)2 是否为 σ 2 \sigma^2 σ2 的无偏估计。

解：由定理知 E ( S 2 ) = σ 2 E(S^2) = \sigma^2 E(S2)=σ2，所以 S 2 S^2 S2 是 σ 2 \sigma^2 σ2 的无偏估计。 E ( S ~ n 2 ) = E ( n − 1 n S 2 ) = n − 1 n σ 2 ≠ σ 2 E(\tilde{S}_n^2) = E \left( \frac{n-1}{n} S^2 \right) = \frac{n-1}{n} \sigma^2 \neq \sigma^2 E(S~n2)=E(nn−1S2)=nn−1σ2=σ2所以 S ~ n 2 \tilde{S}_n^2 S~n2 不是 σ 2 \sigma^2 σ2 的无偏估计，其偏为： E ( S ~ n 2 ) − σ 2 = ( n − 1 n − 1 ) σ 2 = − σ 2 n . E(\tilde{S}n^2) - \sigma^2 = \left( \frac{n-1}{n} - 1 \right) \sigma^2 = -\frac{\sigma^2}{n}. E(S~n2)−σ2=(nn−1−1)σ2=−nσ2.但 lim ⁡ n → ∞ E ( S ~ n 2 ) = σ 2 \lim{n \to \infty} E(\tilde{S}_n^2) = \sigma^2 limn→∞E(S~n2)=σ2，所以 S ~ n 2 \tilde{S}_n^2 S~n2 是 σ 2 \sigma^2 σ2 的渐近无偏估计。

例3：设 ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 是从正态总体 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) 中抽取的一个样本， X ˉ ∼ N ( μ , σ 2 n ) \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) Xˉ∼N(μ,nσ2)，虽然 X ˉ \bar{X} Xˉ 是 μ \mu μ 的一个无偏估计，但 X ˉ 2 \bar{X}^2 Xˉ2 不是 μ 2 \mu^2 μ2 的无偏估计。

E μ ( X ˉ 2 ) = D μ ( X ˉ ) + $E μ ( X ˉ )$ 2 = σ 2 n + μ 2 ≠ μ 2 . E_\mu(\bar{X}^2) = D_\mu(\bar{X}) + $E_\\mu(\\bar{X})$ ^2 = \frac{\sigma^2}{n} + \mu^2 \neq \mu^2. Eμ(Xˉ2)=Dμ(Xˉ)+ $Eμ(Xˉ)$ 2=nσ2+μ2=μ2.

注意：

(1) 若 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的有偏估计，且 E ( θ ^ ) = a + b θ , ( a , b ≠ 0 为常数 ) E(\hat{\theta}) = a + b\theta, (a, b \neq 0 \text{ 为常数}) E(θ^)=a+bθ,(a,b=0 为常数)，则可以构造一个 θ \theta θ 的无偏估计 θ ^ ∗ = θ ^ − a b \hat{\theta}^* = \frac{\hat{\theta}-a}{b} θ^∗=bθ^−a。 E ( θ ^ ∗ ) = E ( θ ^ − a b ) = 1 b $E ( θ \^ ) − a$ = θ . E(\hat{\theta}^*) = E\left(\frac{\hat{\theta}-a}{b}\right) = \frac{1}{b} $E(\\hat{\\theta}) - a$ = \theta. E(θ^∗)=E(bθ^−a)=b1 $E(θ\^)−a$ =θ.
(2) 若 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的无偏估计，除了 f f f 是线性函数外，并不能推出 f ( θ ^ ) f(\hat{\theta}) f(θ^) 是 f ( θ ) f(\theta) f(θ) 的无偏估计。

例4. 设总体 X X X 服从均匀分布，密度函数为 f ( x ; θ ) = { 1 θ , 0 < x < θ ; 0 , 其它 , f(x; \theta) = \begin{cases} \frac{1}{\theta}, & 0 < x < \theta; \\ 0, & \text{其它}, \end{cases} f(x;θ)={θ1,0,0<x<θ;其它,， ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 是取自这个总体的一个样本，

(1) 求 θ \theta θ 的矩估计，验证无偏性。

(2) 求 θ \theta θ 的极大似然估计，验证无偏性。

解：令 X ˉ = E X = θ 2 \bar{X} = EX = \frac{\theta}{2} Xˉ=EX=2θ，得 θ ^ = 2 X ˉ \hat{\theta} = 2\bar{X} θ^=2Xˉ 是 θ \theta θ 的矩估计， E θ ^ = 2 E X ˉ = 2 E X = θ E\hat{\theta} = 2E\bar{X} = 2EX = \theta Eθ^=2EXˉ=2EX=θ。由前知 θ ^ L = X ( n ) \hat{\theta}L = X{(n)} θ^L=X(n) 是 θ \theta θ 的极大似然估计。 E θ ( θ ^ L ) = ∫ 0 θ x ⋅ n θ ( x θ ) n − 1 d x = n n + 1 θ E_\theta(\hat{\theta}_L) = \int_0^\theta x \cdot \frac{n}{\theta} \left( \frac{x}{\theta} \right)^{n-1} dx = \frac{n}{n+1}\theta Eθ(θ^L)=∫0θx⋅θn(θx)n−1dx=n+1nθ即 θ ^ L \hat{\theta}_L θ^L 不是 θ \theta θ 的无偏估计，但 θ ^ L \hat{\theta}L θ^L 是 θ \theta θ 的渐近无偏估计。由 θ ^ L = X ( n ) \hat{\theta}L = X{(n)} θ^L=X(n) 可以构造 θ \theta θ 的一个无偏估计量 θ ^ ∗ = n + 1 n X ( n ) \hat{\theta}^* = \frac{n+1}{n}X{(n)} θ^∗=nn+1X(n)。

考虑 θ \theta θ 的这两个无偏估计量 θ ^ \hat{\theta} θ^ 与 θ ^ ∗ \hat{\theta}^* θ^∗ 的方差， D θ ( θ ^ ) = D θ ( 2 X ˉ ) = 4 D θ ( X ˉ ) = 4 n D θ ( X ) = θ 2 3 n ; D_\theta(\hat{\theta}) = D_\theta(2\bar{X}) = 4D_\theta(\bar{X}) = \frac{4}{n}D_\theta(X) = \frac{\theta^2}{3n}; Dθ(θ^)=Dθ(2Xˉ)=4Dθ(Xˉ)=n4Dθ(X)=3nθ2; D θ ( θ ^ L ) = ∫ 0 θ x 2 ⋅ n x n − 1 θ n d x − ( n n + 1 θ ) 2 = n θ 2 ( n + 1 ) 2 ( n + 2 ) , D_\theta(\hat{\theta}L) = \int_0^\theta x^2 \cdot n\frac{x^{n-1}}{\theta^n} dx - \left(\frac{n}{n+1}\theta\right)^2 = \frac{n\theta^2}{(n+1)^2(n+2)}, Dθ(θ^L)=∫0θx2⋅nθnxn−1dx−(n+1nθ)2=(n+1)2(n+2)nθ2,所以 D θ ( θ ^ ∗ ) = D θ ( n + 1 n θ ^ L ) = ( n + 1 ) 2 n 2 D θ ( θ ^ L ) = θ 2 n ( n + 2 ) . D\theta(\hat{\theta}^*) = D_\theta\left(\frac{n+1}{n}\hat{\theta}L\right) = \frac{(n+1)^2}{n^2}D\theta(\hat{\theta}L) = \frac{\theta^2}{n(n+2)}. Dθ(θ^∗)=Dθ(nn+1θ^L)=n2(n+1)2Dθ(θ^L)=n(n+2)θ2.显然， D θ ( θ ^ ∗ ) ≤ D θ ( θ ^ ) D\theta(\hat{\theta}^*) \le D_\theta(\hat{\theta}) Dθ(θ^∗)≤Dθ(θ^)，而且当 n n n 很大时，有 lim ⁡ n → ∞ D θ ( θ ^ ∗ ) D θ ( θ ^ ) = lim ⁡ n → ∞ 3 n + 2 = 0 \lim_{n \to \infty} \frac{D_\theta(\hat{\theta}^*)}{D_\theta(\hat{\theta})} = \lim_{n \to \infty} \frac{3}{n+2} = 0 limn→∞Dθ(θ^)Dθ(θ^∗)=limn→∞n+23=0。可见 θ ^ ∗ \hat{\theta}^* θ^∗ 和 θ ^ \hat{\theta} θ^ 的取值都在参数真值 θ \theta θ 的周围波动，但 θ ^ ∗ \hat{\theta}^* θ^∗ 比 θ ^ \hat{\theta} θ^ 取值更集中，作为 θ \theta θ 的估计量， θ ^ ∗ \hat{\theta}^* θ^∗ 比 θ ^ \hat{\theta} θ^ 好。

2.2.2 一致最小方差无偏估计

1️⃣ 一致最小方差无偏估计的定义

定义：设 T 1 ( X 1 , ... , X n ) T_1(X_1, \dots, X_n) T1(X1,...,Xn) 为可估函数 g ( θ ) g(\theta) g(θ) 的无偏估计量，若对于任意的 θ ∈ Θ \theta \in \Theta θ∈Θ 和任意的 g ( θ ) g(\theta) g(θ) 的无偏估计量 T ( X 1 , ... , X n ) T(X_1, \dots, X_n) T(X1,...,Xn)，都有：

D θ $T 1 ( X 1 , ... , X n )$ ≤ D θ $T ( X 1 , ... , X n )$ , D_\theta $T_1(X_1, \\dots, X_n)$ \le D_\theta $T(X_1, \\dots, X_n)$ , Dθ $T1(X1,...,Xn)$ ≤Dθ $T(X1,...,Xn)$ ,

则称 T 1 ( X 1 , ... , X n ) T_1(X_1, \dots, X_n) T1(X1,...,Xn) 是 g ( θ ) g(\theta) g(θ) 的一致最小方差无偏估计量，简记为 UMVUE。

记 U ≜ { T : E θ ( T ) = g ( θ ) , D θ ( T ) < ∞ , 对一切 θ ∈ Θ } U \triangleq \{T : E_\theta(T) = g(\theta), D_\theta(T) < \infty, \text{对一切 } \theta \in \Theta\} U≜{T:Eθ(T)=g(θ),Dθ(T)<∞,对一切 θ∈Θ}，为可估函数 g ( θ ) g(\theta) g(θ) 的方差有限的无偏估计量的集合。

U 0 ≜ { T : E θ ( T ) = 0 , D θ ( T ) < ∞ , 对一切 θ ∈ Θ } U_0 \triangleq \{T : E_\theta(T) = 0, D_\theta(T) < \infty, \text{对一切 } \theta \in \Theta\} U0≜{T:Eθ(T)=0,Dθ(T)<∞,对一切 θ∈Θ}，为数学期望为零且方差有限的估计量的集合。

定理：设 T 1 ∈ U T_1 \in U T1∈U, 则 T 1 T_1 T1 是 g ( θ ) g(\theta) g(θ) 的一致最小方差无偏估计的充要条件为：对一切 θ ∈ Θ \theta \in \Theta θ∈Θ 和 T 0 ∈ U 0 T_0 \in U_0 T0∈U0, 有 E θ ( T 1 T 0 ) = 0 E_\theta(T_1 T_0) = 0 Eθ(T1T0)=0。

推论：设 T 1 , T 2 T_1, T_2 T1,T2 分别是参数 θ \theta θ 的可估函数 g 1 ( θ ) , g 2 ( θ ) g_1(\theta), g_2(\theta) g1(θ),g2(θ) 的一致最小方差无偏估计量, 则 b 1 T 1 + b 2 T 2 b_1 T_1 + b_2 T_2 b1T1+b2T2 是 b 1 g 1 ( θ ) + b 2 g 2 ( θ ) b_1 g_1(\theta) + b_2 g_2(\theta) b1g1(θ)+b2g2(θ) 的一致最小方差无偏估计量, 其中 b 1 , b 2 b_1, b_2 b1,b2 为固定常数。

证明： E θ ( b 1 T 1 + b 2 T 2 ) = b 1 E θ ( T 1 ) + b 2 E θ ( T 2 ) = b 1 g 1 ( θ ) + b 2 g 2 ( θ ) E_\theta(b_1 T_1 + b_2 T_2) = b_1 E_\theta(T_1) + b_2 E_\theta(T_2) = b_1 g_1(\theta) + b_2 g_2(\theta) Eθ(b1T1+b2T2)=b1Eθ(T1)+b2Eθ(T2)=b1g1(θ)+b2g2(θ). 由定理得, ∀ T 0 ∈ U 0 , E θ ( T 0 T 1 ) = 0 , E θ ( T 0 T 2 ) = 0 , ∴ E θ $T 0 ( b 1 T 1 + b 2 T 2 )$ = 0. \forall T_0 \in U_0, E_\theta(T_0 T_1) = 0, E_\theta(T_0 T_2) = 0, \quad \therefore E_\theta $T_0 (b_1 T_1 + b_2 T_2)$ = 0. ∀T0∈U0,Eθ(T0T1)=0,Eθ(T0T2)=0,∴Eθ $T0(b1T1+b2T2)$ =0.所以 b 1 T 1 + b 2 T 2 b_1 T_1 + b_2 T_2 b1T1+b2T2 是 b 1 g 1 ( θ ) + b 2 g 2 ( θ ) b_1 g_1(\theta) + b_2 g_2(\theta) b1g1(θ)+b2g2(θ) 的一致最小方差无偏估计量.

定理：(一致最小方差无偏估计的唯一性) U ≜ { T : E θ ( T ) = g ( θ ) , V a r θ ( T ) < ∞ , ∀ θ ∈ Θ } U \triangleq \{T : E_\theta(T) = g(\theta), Var_\theta(T) < \infty, \forall \theta \in \Theta\} U≜{T:Eθ(T)=g(θ),Varθ(T)<∞,∀θ∈Θ}，则至多存在一个 g ( θ ) g(\theta) g(θ) 的一致最小方差无偏估计量。

2.2.3 相合估计量

1️⃣ 相合估计量的定义

定义：设 T n = T n ( X 1 , ... , X n ) T_n = T_n(X_1, \dots, X_n) Tn=Tn(X1,...,Xn) 是 g ( θ ) g(\theta) g(θ) 的估计量，若对任何 θ ∈ Θ \theta \in \Theta θ∈Θ， T n T_n Tn 依概率收敛于 g ( θ ) g(\theta) g(θ)，则称 T n T_n Tn 是 g ( θ ) g(\theta) g(θ) 的相合估计。

注意：

(1) 另一种表述： ∀ ϵ > 0 , lim ⁡ n → ∞ P { ∣ T n − g ( θ ) ∣ ≥ ϵ } = 0 \forall \epsilon > 0, \lim_{n \to \infty} P \{ |T_n - g(\theta)| \ge \epsilon \} = 0 ∀ϵ>0,limn→∞P{∣Tn−g(θ)∣≥ϵ}=0。
(2) 相合性是在极限意义下引入的，适用大样本情况。
(3) 若 T n T_n Tn 以概率 1 (几乎处处) 收敛于 g ( θ ) g(\theta) g(θ)，即 P θ { lim ⁡ n → ∞ T n ( X 1 , ... , X n ) = g ( θ ) } = 1 P_\theta \{ \lim_{n \to \infty} T_n(X_1, \dots, X_n) = g(\theta) \} = 1 Pθ{n→∞limTn(X1,...,Xn)=g(θ)}=1 则称 T n T_n Tn 是 g ( θ ) g(\theta) g(θ) 的强相合估计。
(4) 若 T n T_n Tn 是 g ( θ ) g(\theta) g(θ) 的强相合估计，它也是 g ( θ ) g(\theta) g(θ) 的相合估计。

2️⃣ 证明相合估计的方法

定义：利用切比雪夫不等式 P { ∣ X − E X ∣ ≥ ϵ } ≤ D X ϵ 2 P \{ |X - EX| \ge \epsilon \} \le \frac{DX}{\epsilon^2} P{∣X−EX∣≥ϵ}≤ϵ2DX。

定理：设 T n T_n Tn 是 g ( θ ) g(\theta) g(θ) 的一个估计量，若 lim ⁡ n → ∞ E T n = g ( θ ) \lim_{n \to \infty} ET_n = g(\theta) limn→∞ETn=g(θ)， lim ⁡ n → ∞ D T n = 0 \lim_{n \to \infty} DT_n = 0 limn→∞DTn=0，则 T n T_n Tn 是 g ( θ ) g(\theta) g(θ) 的相合估计。

例5：设总体 X X X 服从均匀分布，密度函数为 f ( x ; θ ) = { 1 θ , 0 < x < θ ; 0 , 其它 , f(x; \theta) = \begin{cases} \frac{1}{\theta}, & 0 < x < \theta; \\ 0, & \text{其它}, \end{cases} f(x;θ)={θ1,0,0<x<θ;其它,， ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 是取自这个总体的一个样本，证明： θ ^ = X ( n ) \hat{\theta} = X_{(n)} θ^=X(n) 是 θ \theta θ 的相合估计。

解： θ ^ = X ( n ) \hat{\theta} = X_{(n)} θ^=X(n) 的密度函数为 f n ( x ; θ ) = { n ( x θ ) n − 1 1 θ = n θ n x n − 1 , 0 < x < θ ; 0 , 其它 , f_n(x; \theta) = \begin{cases} n \left( \frac{x}{\theta} \right)^{n-1} \frac{1}{\theta} = \frac{n}{\theta^n} x^{n-1}, & 0 < x < \theta; \\ 0, & \text{其它}, \end{cases} fn(x;θ)={n(θx)n−1θ1=θnnxn−1,0,0<x<θ;其它,
E ( θ ^ ) = ∫ 0 θ x ⋅ n θ n x n − 1 d x = n n + 1 θ , E(\hat{\theta}) = \int_0^\theta x \cdot \frac{n}{\theta^n} x^{n-1} dx = \frac{n}{n+1} \theta, E(θ^)=∫0θx⋅θnnxn−1dx=n+1nθ, E ( θ ^ 2 ) = ∫ 0 θ x 2 ⋅ n θ n x n − 1 d x = n n + 2 θ 2 , E(\hat{\theta}^2) = \int_0^\theta x^2 \cdot \frac{n}{\theta^n} x^{n-1} dx = \frac{n}{n+2} \theta^2, E(θ^2)=∫0θx2⋅θnnxn−1dx=n+2nθ2, D ( θ ^ ) = E ( θ ^ 2 ) − $E ( θ \^ )$ 2 = n n + 2 θ 2 − $n n + 1 θ$ 2 = n ( n + 1 ) 2 ( n + 2 ) θ 2 D(\hat{\theta}) = E(\hat{\theta}^2) - $E(\\hat{\\theta})$ ^2 = \frac{n}{n+2} \theta^2 - \left $\\frac{n}{n+1} \\theta \\right$ ^2 = \frac{n}{(n+1)^2(n+2)} \theta^2 D(θ^)=E(θ^2)− $E(θ\^)$ 2=n+2nθ2− $n+1nθ$ 2=(n+1)2(n+2)nθ2

(方法1) 因为 lim ⁡ n → ∞ E ( θ ^ ) = θ , lim ⁡ n → ∞ D ( θ ^ ) = 0 \lim_{n \to \infty} E(\hat{\theta}) = \theta, \lim_{n \to \infty} D(\hat{\theta}) = 0 limn→∞E(θ^)=θ,limn→∞D(θ^)=0 所以由定理得 θ ^ = X ( n ) \hat{\theta} = X_{(n)} θ^=X(n) 是 θ \theta θ 的相合估计。

(方法2) P { ∣ θ ^ − θ ∣ ≥ ϵ } = P { ∣ θ ^ − n n + 1 θ − 1 n + 1 θ ∣ ≥ ϵ } ≤ P { ∣ θ ^ − n n + 1 θ ∣ + 1 n + 1 θ ≥ ϵ } = P { ∣ θ ^ − n n + 1 θ ∣ ≥ ϵ − 1 n + 1 θ } = P { ∣ θ ^ − E ( θ ^ ) ∣ ≥ ϵ − 1 n + 1 θ } ≤ D ( θ ^ ) ( ϵ − 1 n + 1 θ ) 2 = n θ 2 ( n + 1 ) 2 ( n + 2 ) ( ϵ − 1 n + 1 θ ) 2 ⟶ 0 , n → ∞ \begin{aligned} P \{ |\hat{\theta} - \theta| \ge \epsilon \} &= P \left\{ \left| \hat{\theta} - \frac{n}{n+1}\theta - \frac{1}{n+1}\theta \right| \ge \epsilon \right\} \\ &\le P \left\{ \left| \hat{\theta} - \frac{n}{n+1}\theta \right| + \frac{1}{n+1}\theta \ge \epsilon \right\} \\ &= P \left\{ \left| \hat{\theta} - \frac{n}{n+1}\theta \right| \ge \epsilon - \frac{1}{n+1}\theta \right\} \\ &= P \left\{ | \hat{\theta} - E(\hat{\theta}) | \ge \epsilon - \frac{1}{n+1}\theta \right\} \\ &\le \frac{D(\hat{\theta})}{(\epsilon - \frac{1}{n+1}\theta)^2} \\ &= \frac{n\theta^2}{(n+1)^2(n+2)(\epsilon - \frac{1}{n+1}\theta)^2} \\ &\longrightarrow 0, n \to \infty \end{aligned} P{∣θ^−θ∣≥ϵ}=P{ θ^−n+1nθ−n+11θ ≥ϵ}≤P{ θ^−n+1nθ +n+11θ≥ϵ}=P{ θ^−n+1nθ ≥ϵ−n+11θ}=P{∣θ^−E(θ^)∣≥ϵ−n+11θ}≤(ϵ−n+11θ)2D(θ^)=(n+1)2(n+2)(ϵ−n+11θ)2nθ2⟶0,n→∞

定理：设 ( X 1 , ... , X n ) (X_1, \dots, X_n) (X1,...,Xn) 是取自具有分布族 { F ( x ; θ ) : θ ∈ Θ } \{F(x; \theta) : \theta \in \Theta\} {F(x;θ):θ∈Θ} 的总体 X X X 的一个样本，若 E ∣ X ∣ p < ∞ E|X|^p < \infty E∣X∣p<∞，其中 p p p 是某一正整数，则样本的 k k k 阶原点矩 ( 1 ≤ k ≤ p ) (1 \le k \le p) (1≤k≤p) A k = 1 n ∑ i = 1 n X i k A_k = \frac{1}{n} \sum_{i=1}^n X_i^k Ak=n1∑i=1nXik 是总体 k k k 阶矩 α k = E X k \alpha_k = EX^k αk=EXk 的相合估计。

定理：如果 T n T_n Tn 是 θ \theta θ 的相合估计量， g ( x ) g(x) g(x) 在 x = θ x = \theta x=θ 连续，则 g ( T n ) g(T_n) g(Tn) 也是 g ( θ ) g(\theta) g(θ) 的相合估计量。

【TJU】研究生应用统计学课程笔记（4）——第二章 参数估计（2.1 矩估计和极大似然估计、2.2估计量的优良性原则）

【TJU】研究生应用统计学课程笔记（4）------第二章 参数估计（2.1 矩估计和极大似然估计、2.2估计量的优良性原则）