机器学习概率论与统计学--(9)统计学：参数估计

参数估计是统计推断的核心内容。当我们面对一个总体，知道其分布类型（例如正态分布、二项分布等），但其中的某些参数（如均值、方差）未知时，就需要利用样本数据对这些参数进行估计。本讲将系统讲解点估计 的基本概念，并详细介绍两种最常用的点估计方法：矩估计 和最大似然估计。

1. 点估计的概念：估计量与估计值

在统计学中，我们通常把从总体中随机抽取的样本记为 X 1 , X 2 , ... , X n X_1, X_2, \dots, X_n X1,X2,...,Xn。样本是随机变量，其具体取值会因随机性而变化。

1.1 估计量

设总体分布依赖于未知参数 θ \theta θ（可以是标量或向量）。我们构造一个仅依赖于样本的统计量
θ ^ = g ( X 1 , X 2 , ... , X n ) \hat{\theta} = g(X_1, X_2, \dots, X_n) θ^=g(X1,X2,...,Xn)

作为 θ \theta θ 的估计量。由于样本是随机的，估计量也是一个随机变量，其分布由抽样分布决定。

1.2 估计值

当我们进行了一次具体的抽样，得到样本观测值 x 1 , x 2 , ... , x n x_1, x_2, \dots, x_n x1,x2,...,xn，代入估计量后得到具体的数值
θ ^ obs = g ( x 1 , x 2 , ... , x n ) , \hat{\theta}_{\text{obs}} = g(x_1, x_2, \dots, x_n), θ^obs=g(x1,x2,...,xn),

这个数值称为 θ \theta θ 的估计值。

简单来说：估计量是随机变量，估计值是它的一个具体实现。

例1 ：设某地成年男性的身高服从正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)，其中 μ \mu μ 未知。我们随机抽取 n n n 名男性，测量身高 X 1 , ... , X n X_1,\dots,X_n X1,...,Xn。取估计量 μ ^ = X ˉ = 1 n ∑ i = 1 n X i \hat{\mu} = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i μ^=Xˉ=n1∑i=1nXi。若实际测得的数据为 175.2 , 168.5 , 180.1 , 172.3 , 178.6 175.2, 168.5, 180.1, 172.3, 178.6 175.2,168.5,180.1,172.3,178.6，则估计值 μ ^ = 175.2 + 168.5 + 180.1 + 172.3 + 178.6 5 = 174.94 \hat{\mu} = \frac{175.2+168.5+180.1+172.3+178.6}{5} = 174.94 μ^=5175.2+168.5+180.1+172.3+178.6=174.94 厘米。

2. 矩估计

2.1 基本思想

矩估计（Method of Moments）由英国统计学家卡尔·皮尔逊在19世纪末提出。其核心思想是：用样本矩代替总体矩，从而建立方程求解未知参数。

总体矩 ：总体 X X X 的 k k k 阶原点矩定义为 μ k = E $X k$ \mu_k = E $X\^k$ μk=E $Xk$ ，它是未知参数 θ \theta θ 的函数。
样本矩 ：样本的 k k k 阶原点矩定义为 A k = 1 n ∑ i = 1 n X i k A_k = \frac{1}{n}\sum_{i=1}^n X_i^k Ak=n1∑i=1nXik，它是样本的函数。

根据大数定律，当样本量 n n n 足够大时，样本矩 A k A_k Ak 依概率收敛于总体矩 μ k \mu_k μk。因此，我们可以令
μ k ( θ ) = A k , k = 1 , 2 , ... , m , \mu_k(\theta) = A_k, \quad k=1,2,\dots,m, μk(θ)=Ak,k=1,2,...,m,

其中 m m m 是未知参数的个数。解这个方程组，得到的解 θ ^ \hat{\theta} θ^ 就是矩估计量。

2.2 矩估计的一般步骤

写出总体分布，确定未知参数 θ = ( θ 1 , ... , θ m ) \theta = (\theta_1,\dots,\theta_m) θ=(θ1,...,θm)。
计算总体的前 m m m 阶原点矩 μ k = E $X k$ \mu_k = E $X\^k$ μk=E $Xk$ ，并将其表示为 θ \theta θ 的函数。
计算相应的样本原点矩 A k = 1 n ∑ i = 1 n X i k A_k = \frac{1}{n}\sum_{i=1}^n X_i^k Ak=n1∑i=1nXik。
建立方程组 μ k ( θ ) = A k \mu_k(\theta) = A_k μk(θ)=Ak（ k = 1 , ... , m k=1,\dots,m k=1,...,m），并解出 θ 1 , ... , θ m \theta_1,\dots,\theta_m θ1,...,θm。
所得解即为参数的矩估计量。

2.3 例子

例2：泊松分布的矩估计

设总体 X ∼ Poisson ( λ ) X \sim \text{Poisson}(\lambda) X∼Poisson(λ)，参数 λ > 0 \lambda > 0 λ>0 未知。总体一阶矩：
μ 1 = E $X$ = λ . \mu_1 = E $X$ = \lambda. μ1=E $X$ =λ.

样本一阶矩： A 1 = X ˉ = 1 n ∑ i = 1 n X i A_1 = \bar{X} = \frac{1}{n}\sum_{i=1}^n X_i A1=Xˉ=n1∑i=1nXi。令 λ = X ˉ \lambda = \bar{X} λ=Xˉ，解得矩估计量为
λ ^ = X ˉ . \hat{\lambda} = \bar{X}. λ^=Xˉ.

注：这里只有一个参数，因此只用一阶矩即可。

例3：正态分布的矩估计

设总体 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X∼N(μ,σ2)，未知参数 θ = ( μ , σ 2 ) \theta = (\mu, \sigma^2) θ=(μ,σ2) 有两个。我们需要用到前两阶原点矩：
μ 1 = E $X$ = μ , \mu_1 = E $X$ = \mu, μ1=E $X$ =μ,

μ 2 = E $X 2$ = Var ⁡ ( X ) + ( E $X$ ) 2 = σ 2 + μ 2 . \mu_2 = E $X\^2$ = \operatorname{Var}(X) + (E $X$ )^2 = \sigma^2 + \mu^2. μ2=E $X2$ =Var(X)+(E $X$ )2=σ2+μ2.

样本矩：
A 1 = X ˉ , A 2 = 1 n ∑ i = 1 n X i 2 . A_1 = \bar{X}, \quad A_2 = \frac{1}{n}\sum_{i=1}^n X_i^2. A1=Xˉ,A2=n1i=1∑nXi2.

建立方程组：
{ μ = X ˉ , σ 2 + μ 2 = 1 n ∑ X i 2 . \begin{cases} \mu = \bar{X},\\ \sigma^2 + \mu^2 = \frac{1}{n}\sum X_i^2. \end{cases} {μ=Xˉ,σ2+μ2=n1∑Xi2.

解之得：
μ ^ = X ˉ , σ ^ 2 = 1 n ∑ X i 2 − X ˉ 2 = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 . \hat{\mu} = \bar{X}, \quad \hat{\sigma}^2 = \frac{1}{n}\sum X_i^2 - \bar{X}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2. μ^=Xˉ,σ^2=n1∑Xi2−Xˉ2=n1i=1∑n(Xi−Xˉ)2.

注意：这里 σ ^ 2 \hat{\sigma}^2 σ^2 的分母是 n n n，而不是 n − 1 n-1 n−1，因此它是有偏的（后面会讨论）。

例4：均匀分布的矩估计

设总体 X ∼ U ( a , b ) X \sim U(a, b) X∼U(a,b)，参数 a < b a < b a<b 均未知。总体一阶矩和二阶矩：
μ 1 = a + b 2 , μ 2 = E $X 2$ = a 2 + a b + b 2 3 . \mu_1 = \frac{a+b}{2}, \quad \mu_2 = E $X\^2$ = \frac{a^2+ab+b^2}{3}. μ1=2a+b,μ2=E $X2$ =3a2+ab+b2.

样本矩 A 1 = X ˉ A_1=\bar{X} A1=Xˉ， A 2 = 1 n ∑ X i 2 A_2=\frac{1}{n}\sum X_i^2 A2=n1∑Xi2。解方程组：
a + b 2 = X ˉ , a 2 + a b + b 2 3 = 1 n ∑ X i 2 . \frac{a+b}{2} = \bar{X}, \quad \frac{a^2+ab+b^2}{3} = \frac{1}{n}\sum X_i^2. 2a+b=Xˉ,3a2+ab+b2=n1∑Xi2.

令 S 2 = 1 n ∑ ( X i − X ˉ ) 2 = A 2 − A 1 2 S^2 = \frac{1}{n}\sum (X_i - \bar{X})^2 = A_2 - A_1^2 S2=n1∑(Xi−Xˉ)2=A2−A12，则可得：
a ^ = X ˉ − 3 S , b ^ = X ˉ + 3 S . \hat{a} = \bar{X} - \sqrt{3}\,S, \quad \hat{b} = \bar{X} + \sqrt{3}\,S. a^=Xˉ−3 S,b^=Xˉ+3 S.

矩估计在均匀分布中可能产生 a ^ > min ⁡ ( X i ) \hat{a} > \min(X_i) a^>min(Xi) 或 b ^ < max ⁡ ( X i ) \hat{b} < \max(X_i) b^<max(Xi) 的情况，此时需要修正，但矩估计的基本形式如上。

3. 最大似然估计（MLE）

3.1 基本思想

最大似然估计（Maximum Likelihood Estimation, MLE）是另一种常用且理论性质优良的估计方法。其核心思想是：在已获得样本观测值 x 1 , ... , x n x_1,\dots,x_n x1,...,xn 的条件下，选择使得该样本出现的概率（或概率密度）最大的参数值作为估计 。也就是说，我们寻找使似然函数最大的 θ \theta θ。

3.2 似然函数与步骤

设总体分布的概率函数为 f ( x ; θ ) f(x;\theta) f(x;θ)（离散时是概率质量函数，连续时是概率密度函数）。给定样本 X 1 , ... , X n X_1,\dots,X_n X1,...,Xn，定义似然函数 为
L ( θ ) = ∏ i = 1 n f ( X i ; θ ) . L(\theta) = \prod_{i=1}^n f(X_i;\theta). L(θ)=i=1∏nf(Xi;θ).

由于对数函数是单调增的，最大化 L ( θ ) L(\theta) L(θ) 等价于最大化对数似然函数：
ℓ ( θ ) = ln ⁡ L ( θ ) = ∑ i = 1 n ln ⁡ f ( X i ; θ ) . \ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(X_i;\theta). ℓ(θ)=lnL(θ)=i=1∑nlnf(Xi;θ).

最大似然估计的步骤：

写出似然函数 L ( θ ) L(\theta) L(θ)。
取对数得到 ℓ ( θ ) \ell(\theta) ℓ(θ)。
对 θ \theta θ 求导（若 θ \theta θ 为向量则求偏导），令导数为零，得到似然方程。
解似然方程得到 θ ^ \hat{\theta} θ^。
验证二阶导数小于零（或海森矩阵负定）以确认是最大值。

3.3 常见分布的 MLE 推导

例5：伯努利分布

设 X 1 , ... , X n ∼ i.i.d. Bernoulli ( p ) X_1,\dots,X_n \stackrel{\text{i.i.d.}}{\sim} \text{Bernoulli}(p) X1,...,Xn∼i.i.d.Bernoulli(p)，概率质量函数为
f ( x ; p ) = p x ( 1 − p ) 1 − x , x = 0 , 1. f(x;p) = p^x (1-p)^{1-x}, \quad x=0,1. f(x;p)=px(1−p)1−x,x=0,1.

似然函数：
L ( p ) = ∏ i = 1 n p X i ( 1 − p ) 1 − X i = p ∑ X i ( 1 − p ) n − ∑ X i . L(p) = \prod_{i=1}^n p^{X_i} (1-p)^{1-X_i} = p^{\sum X_i} (1-p)^{n - \sum X_i}. L(p)=i=1∏npXi(1−p)1−Xi=p∑Xi(1−p)n−∑Xi.

对数似然：
ℓ ( p ) = ( ∑ i = 1 n X i ) ln ⁡ p + ( n − ∑ i = 1 n X i ) ln ⁡ ( 1 − p ) . \ell(p) = \left(\sum_{i=1}^n X_i\right) \ln p + \left(n - \sum_{i=1}^n X_i\right) \ln(1-p). ℓ(p)=(i=1∑nXi)lnp+(n−i=1∑nXi)ln(1−p).

对 p p p 求导：
d ℓ d p = ∑ X i p − n − ∑ X i 1 − p . \frac{d\ell}{dp} = \frac{\sum X_i}{p} - \frac{n - \sum X_i}{1-p}. dpdℓ=p∑Xi−1−pn−∑Xi.

令导数为零：
∑ X i p = n − ∑ X i 1 − p ⟹ ( 1 − p ) ∑ X i = p ( n − ∑ X i ) . \frac{\sum X_i}{p} = \frac{n - \sum X_i}{1-p} \quad\Longrightarrow\quad (1-p)\sum X_i = p(n - \sum X_i). p∑Xi=1−pn−∑Xi⟹(1−p)∑Xi=p(n−∑Xi).

整理得：
∑ X i − p ∑ X i = n p − p ∑ X i ⟹ ∑ X i = n p . \sum X_i - p\sum X_i = np - p\sum X_i \quad\Longrightarrow\quad \sum X_i = np. ∑Xi−p∑Xi=np−p∑Xi⟹∑Xi=np.

因此：
p ^ = 1 n ∑ i = 1 n X i = X ˉ . \hat{p} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}. p^=n1i=1∑nXi=Xˉ.

二阶导数 d 2 ℓ d p 2 = − ∑ X i p 2 − n − ∑ X i ( 1 − p ) 2 < 0 \frac{d^2\ell}{dp^2} = -\frac{\sum X_i}{p^2} - \frac{n-\sum X_i}{(1-p)^2} < 0 dp2d2ℓ=−p2∑Xi−(1−p)2n−∑Xi<0，确为最大值。

例6：正态分布（方差已知，估计均值）

设 X i ∼ N ( μ , σ 0 2 ) X_i \sim N(\mu, \sigma_0^2) Xi∼N(μ,σ02)，其中 σ 0 2 \sigma_0^2 σ02 已知， μ \mu μ 未知。概率密度：
f ( x ; μ ) = 1 2 π σ 0 exp ⁡ ( − ( x − μ ) 2 2 σ 0 2 ) . f(x;\mu) = \frac{1}{\sqrt{2\pi}\sigma_0} \exp\left(-\frac{(x-\mu)^2}{2\sigma_0^2}\right). f(x;μ)=2π σ01exp(−2σ02(x−μ)2).

似然函数：
L ( μ ) = ∏ i = 1 n 1 2 π σ 0 exp ⁡ ( − ( X i − μ ) 2 2 σ 0 2 ) = ( 2 π σ 0 2 ) − n / 2 exp ⁡ ( − 1 2 σ 0 2 ∑ i = 1 n ( X i − μ ) 2 ) . L(\mu) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma_0} \exp\left(-\frac{(X_i-\mu)^2}{2\sigma_0^2}\right) = (2\pi\sigma_0^2)^{-n/2} \exp\left(-\frac{1}{2\sigma_0^2}\sum_{i=1}^n (X_i-\mu)^2\right). L(μ)=i=1∏n2π σ01exp(−2σ02(Xi−μ)2)=(2πσ02)−n/2exp(−2σ021i=1∑n(Xi−μ)2).

对数似然：
ℓ ( μ ) = − n 2 ln ⁡ ( 2 π σ 0 2 ) − 1 2 σ 0 2 ∑ i = 1 n ( X i − μ ) 2 . \ell(\mu) = -\frac{n}{2}\ln(2\pi\sigma_0^2) - \frac{1}{2\sigma_0^2}\sum_{i=1}^n (X_i-\mu)^2. ℓ(μ)=−2nln(2πσ02)−2σ021i=1∑n(Xi−μ)2.

对 μ \mu μ 求导：
d ℓ d μ = − 1 2 σ 0 2 ⋅ ( − 2 ) ∑ i = 1 n ( X i − μ ) = 1 σ 0 2 ∑ i = 1 n ( X i − μ ) . \frac{d\ell}{d\mu} = -\frac{1}{2\sigma_0^2} \cdot (-2)\sum_{i=1}^n (X_i-\mu) = \frac{1}{\sigma_0^2}\sum_{i=1}^n (X_i-\mu). dμdℓ=−2σ021⋅(−2)i=1∑n(Xi−μ)=σ021i=1∑n(Xi−μ).

令导数为零：
∑ i = 1 n ( X i − μ ) = 0 ⟹ ∑ X i − n μ = 0 , \sum_{i=1}^n (X_i-\mu) = 0 \quad\Longrightarrow\quad \sum X_i - n\mu = 0, i=1∑n(Xi−μ)=0⟹∑Xi−nμ=0,

解得：
μ ^ = 1 n ∑ i = 1 n X i = X ˉ . \hat{\mu} = \frac{1}{n}\sum_{i=1}^n X_i = \bar{X}. μ^=n1i=1∑nXi=Xˉ.

例7：正态分布（均值和方差均未知）

设 X i ∼ i.i.d. N ( μ , σ 2 ) X_i \stackrel{\text{i.i.d.}}{\sim} N(\mu, \sigma^2) Xi∼i.i.d.N(μ,σ2)， θ = ( μ , σ 2 ) \theta = (\mu, \sigma^2) θ=(μ,σ2) 均未知。概率密度：
f ( x ; μ , σ 2 ) = 1 2 π σ exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) . f(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right). f(x;μ,σ2)=2π σ1exp(−2σ2(x−μ)2).

似然函数：
L ( μ , σ 2 ) = ( 2 π σ 2 ) − n / 2 exp ⁡ ( − 1 2 σ 2 ∑ i = 1 n ( X i − μ ) 2 ) . L(\mu,\sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (X_i-\mu)^2\right). L(μ,σ2)=(2πσ2)−n/2exp(−2σ21i=1∑n(Xi−μ)2).

对数似然：
ℓ ( μ , σ 2 ) = − n 2 ln ⁡ ( 2 π ) − n 2 ln ⁡ σ 2 − 1 2 σ 2 ∑ i = 1 n ( X i − μ ) 2 . \ell(\mu,\sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\sigma^2 - \frac{1}{2\sigma^2}\sum_{i=1}^n (X_i-\mu)^2. ℓ(μ,σ2)=−2nln(2π)−2nlnσ2−2σ21i=1∑n(Xi−μ)2.
先对 μ \mu μ 求偏导 ：
∂ ℓ ∂ μ = − 1 2 σ 2 ⋅ ( − 2 ) ∑ i = 1 n ( X i − μ ) = 1 σ 2 ∑ i = 1 n ( X i − μ ) . \frac{\partial \ell}{\partial \mu} = -\frac{1}{2\sigma^2} \cdot (-2)\sum_{i=1}^n (X_i-\mu) = \frac{1}{\sigma^2}\sum_{i=1}^n (X_i-\mu). ∂μ∂ℓ=−2σ21⋅(−2)i=1∑n(Xi−μ)=σ21i=1∑n(Xi−μ).

令其为零，得 ∑ X i − n μ = 0 \sum X_i - n\mu = 0 ∑Xi−nμ=0，故
μ ^ = X ˉ . \hat{\mu} = \bar{X}. μ^=Xˉ.
再对 σ 2 \sigma^2 σ2 求偏导 ：令 τ = σ 2 \tau = \sigma^2 τ=σ2，则
ℓ = − n 2 ln ⁡ ( 2 π ) − n 2 ln ⁡ τ − 1 2 τ ∑ ( X i − μ ) 2 . \ell = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln\tau - \frac{1}{2\tau}\sum (X_i-\mu)^2. ℓ=−2nln(2π)−2nlnτ−2τ1∑(Xi−μ)2.

∂ ℓ ∂ τ = − n 2 τ + 1 2 τ 2 ∑ ( X i − μ ) 2 . \frac{\partial \ell}{\partial \tau} = -\frac{n}{2\tau} + \frac{1}{2\tau^2}\sum (X_i-\mu)^2. ∂τ∂ℓ=−2τn+2τ21∑(Xi−μ)2.

将 μ = X ˉ \mu = \bar{X} μ=Xˉ 代入，令导数为零：
− n 2 τ + 1 2 τ 2 ∑ ( X i − X ˉ ) 2 = 0 ⟹ 1 τ 2 ∑ ( X i − X ˉ ) 2 = n τ . -\frac{n}{2\tau} + \frac{1}{2\tau^2}\sum (X_i-\bar{X})^2 = 0 \quad\Longrightarrow\quad \frac{1}{\tau^2}\sum (X_i-\bar{X})^2 = \frac{n}{\tau}. −2τn+2τ21∑(Xi−Xˉ)2=0⟹τ21∑(Xi−Xˉ)2=τn.

两边乘以 τ 2 \tau^2 τ2 得：
∑ ( X i − X ˉ ) 2 = n τ ⟹ τ = 1 n ∑ ( X i − X ˉ ) 2 . \sum (X_i-\bar{X})^2 = n\tau \quad\Longrightarrow\quad \tau = \frac{1}{n}\sum (X_i-\bar{X})^2. ∑(Xi−Xˉ)2=nτ⟹τ=n1∑(Xi−Xˉ)2.

因此：
σ ^ 2 = 1 n ∑ i = 1 n ( X i − X ˉ ) 2 . \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2. σ^2=n1i=1∑n(Xi−Xˉ)2.

注意：这个估计量是有偏的，其期望为 n − 1 n σ 2 \frac{n-1}{n}\sigma^2 nn−1σ2，但在 MLE 框架下它仍是最优的（在某种意义下）。实际中常用无偏版本 S 2 = 1 n − 1 ∑ ( X i − X ˉ ) 2 S^2 = \frac{1}{n-1}\sum (X_i-\bar{X})^2 S2=n−11∑(Xi−Xˉ)2 作为方差估计。

4. 总结

点估计是用一个数值（估计量）来估计未知参数。估计量是样本的函数（随机变量），估计值是具体抽样后得到的数值。
矩估计：用样本矩代替总体矩，建立方程组求解。方法简单，但有时效率较低，且可能不唯一。
最大似然估计：最大化似然函数，具有渐近无偏性、有效性和一致性，是应用最广泛的估计方法。

上一章 机器学习概率论与统计学--(8)概率论：数字特征