【线性代数\矩阵论】最小二乘估计详解:普通最小二乘与加权最小二乘

最小二乘估计详解:普通最小二乘与加权最小二乘

最小二乘估计是参数估计和系统辨识中最基础且广泛应用的方法。其核心思想是通过最小化预测误差的平方和来估计模型参数。根据噪声特性和应用需求,主要分为普通最小二乘(OLS)和加权最小二乘(WLS)。

问题模型

线性模型的一般形式

考虑线性参数模型:
y ( i ) = ϕ 1 ( i ) θ 1 + ϕ 2 ( i ) θ 2 + ⋯ + ϕ n ( i ) θ n + e ( i ) , i = 1 , 2 , ... , m y(i) = \phi_1(i)\theta_1 + \phi_2(i)\theta_2 + \cdots + \phi_n(i)\theta_n + e(i), \quad i=1,2,\dots,m y(i)=ϕ1(i)θ1+ϕ2(i)θ2+⋯+ϕn(i)θn+e(i),i=1,2,...,m

其中

  • y ( i ) y(i) y(i): 第 i i i次观测的输出
  • ϕ j ( i ) \phi_j(i) ϕj(i): 第 i i i次观测中第 j j j个已知输入或特征变量
  • θ j \theta_j θj: 第 j j j个待估计的未知参数
  • e ( i ) e(i) e(i): 第 i i i次观测的随机噪声
  • m m m: 观测次数,通常要求 m > n m > n m>n(超定方程组)

线性模型的矩阵表示

定义:
Y = [ y ( 1 ) y ( 2 ) ⋮ y ( m ) ] , Φ = [ ϕ 1 ( 1 ) ϕ 2 ( 1 ) ⋯ ϕ n ( 1 ) ϕ 1 ( 2 ) ϕ 2 ( 2 ) ⋯ ϕ n ( 2 ) ⋮ ⋮ ⋱ ⋮ ϕ 1 ( m ) ϕ 2 ( m ) ⋯ ϕ n ( m ) ] , θ = [ θ 1 θ 2 ⋮ θ n ] , e = [ e ( 1 ) e ( 2 ) ⋮ e ( m ) ] \mathbf{Y} = \begin{bmatrix} y(1) \\ y(2) \\ \vdots \\ y(m) \end{bmatrix}, \quad \Phi = \begin{bmatrix} \phi_1(1) & \phi_2(1) & \cdots & \phi_n(1) \\ \phi_1(2) & \phi_2(2) & \cdots & \phi_n(2) \\ \vdots & \vdots & \ddots & \vdots \\ \phi_1(m) & \phi_2(m) & \cdots & \phi_n(m) \end{bmatrix}, \quad \boldsymbol{\theta} = \begin{bmatrix} \theta_1 \\ \theta_2 \\ \vdots \\ \theta_n \end{bmatrix}, \quad \mathbf{e} = \begin{bmatrix} e(1) \\ e(2) \\ \vdots \\ e(m) \end{bmatrix} Y= y(1)y(2)⋮y(m) ,Φ= ϕ1(1)ϕ1(2)⋮ϕ1(m)ϕ2(1)ϕ2(2)⋮ϕ2(m)⋯⋯⋱⋯ϕn(1)ϕn(2)⋮ϕn(m) ,θ= θ1θ2⋮θn ,e= e(1)e(2)⋮e(m)

则系统方程可简洁表示为:
Y = Φ θ + e \mathbf{Y} = \Phi \boldsymbol{\theta} + \mathbf{e} Y=Φθ+e

普通最小二乘估计(OLS)

代价函数与优化问题

普通最小二乘的目标是找到参数估计值 θ ^ \hat{\boldsymbol{\theta}} θ^,使得残差平方和最小:
J ( θ ) = ∑ i = 1 m e ( i ) 2 = e T e = ( Y − Φ θ ) T ( Y − Φ θ ) J(\boldsymbol{\theta}) = \sum_{i=1}^{m} e(i)^2 = \mathbf{e}^T \mathbf{e} = (\mathbf{Y} - \Phi \boldsymbol{\theta})^T (\mathbf{Y} - \Phi \boldsymbol{\theta}) J(θ)=i=1∑me(i)2=eTe=(Y−Φθ)T(Y−Φθ)

正规方程与解析解

对代价函数 J ( θ ) J(\boldsymbol{\theta}) J(θ)关于 θ \boldsymbol{\theta} θ求导并令为零:
∂ J ( θ ) ∂ θ = − 2 Φ T ( Y − Φ θ ) = 0 \frac{\partial J(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = -2\Phi^T(\mathbf{Y} - \Phi \boldsymbol{\theta}) = 0 ∂θ∂J(θ)=−2ΦT(Y−Φθ)=0

得到正规方程(Normal Equation):
Φ T Φ θ ^ = Φ T Y \Phi^T \Phi \hat{\boldsymbol{\theta}} = \Phi^T \mathbf{Y} ΦTΦθ^=ΦTY

若 Φ T Φ \Phi^T \Phi ΦTΦ可逆(要求 Φ \Phi Φ列满秩,即特征间线性无关),则OLS估计为(左伪逆矩阵):
θ ^ OLS = ( Φ T Φ ) − 1 Φ T Y \boxed{\hat{\boldsymbol{\theta}}_{\text{OLS}} = (\Phi^T \Phi)^{-1} \Phi^T \mathbf{Y}} θ^OLS=(ΦTΦ)−1ΦTY

基本假设

普通最小二乘的有效性依赖于以下关键假设:

  • 线性关系 \textbf{线性关系} 线性关系: 真实模型为线性
  • 无完全共线性 \textbf{无完全共线性} 无完全共线性: Φ \Phi Φ列满秩,保证 ( Φ T Φ ) − 1 (\Phi^T \Phi)^{-1} (ΦTΦ)−1存在
  • 零均值噪声 \textbf{零均值噪声} 零均值噪声: E [ e ] = 0 E[\mathbf{e}] = 0 E[e]=0
  • 同方差性 \textbf{同方差性} 同方差性: Var ( e ( i ) ) = σ 2 \text{Var}(e(i)) = \sigma^2 Var(e(i))=σ2(常数)
  • 无自相关 \textbf{无自相关} 无自相关: E [ e ( i ) e ( j ) ] = 0 , i ≠ j E[e(i)e(j)] = 0, \quad i \neq j E[e(i)e(j)]=0,i=j
  • 外生性 \textbf{外生性} 外生性: Φ \Phi Φ与 e \mathbf{e} e不相关

统计性质

在上述假设成立时,OLS估计具有以下优良性质:

  • 无偏性 \textbf{无偏性} 无偏性: E [ θ ^ OLS ] = θ E[\hat{\boldsymbol{\theta}}_{\text{OLS}}] = \boldsymbol{\theta} E[θ^OLS]=θ
  • 协方差矩阵 \textbf{协方差矩阵} 协方差矩阵: Cov ( θ ^ OLS ) = σ 2 ( Φ T Φ ) − 1 \text{Cov}(\hat{\boldsymbol{\theta}}_{\text{OLS}}) = \sigma^2 (\Phi^T \Phi)^{-1} Cov(θ^OLS)=σ2(ΦTΦ)−1
  • 高斯-马尔可夫定理 \textbf{高斯-马尔可夫定理} 高斯-马尔可夫定理: OLS是最优线性无偏估计(BLUE)
  • 一致性 \textbf{一致性} 一致性: 当 m → ∞ m \to \infty m→∞时, θ ^ OLS → θ \hat{\boldsymbol{\theta}}_{\text{OLS}} \to \boldsymbol{\theta} θ^OLS→θ

加权最小二乘估计(WLS)

问题动机

当噪声不满足同方差假设时,即存在异方差性(Heteroscedasticity):
Var ( e ( i ) ) = σ i 2 ≠ 常数 \text{Var}(e(i)) = \sigma_i^2 \neq \text{常数} Var(e(i))=σi2=常数

此时OLS虽然仍是无偏的,但不再是有效的(方差不是最小)。WLS通过对不同可靠性的观测赋予不同权重来提高估计效率。

噪声协方差矩阵

一般地,假设噪声向量的协方差矩阵为:
Cov ( e ) = R = [ σ 1 2 σ 12 ⋯ σ 1 m σ 21 σ 2 2 ⋯ σ 2 m ⋮ ⋮ ⋱ ⋮ σ m 1 σ m 2 ⋯ σ m 2 ] \text{Cov}(\mathbf{e}) = R = \begin{bmatrix} \sigma_1^2 & \sigma_{12} & \cdots & \sigma_{1m} \\ \sigma_{21} & \sigma_2^2 & \cdots & \sigma_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{m1} & \sigma_{m2} & \cdots & \sigma_m^2 \end{bmatrix} Cov(e)=R= σ12σ21⋮σm1σ12σ22⋮σm2⋯⋯⋱⋯σ1mσ2m⋮σm2

其中对角元素为各观测的方差,非对角元素表示观测间的相关性。

加权代价函数

WLS最小化加权残差平方和:
J W ( θ ) = ( Y − Φ θ ) T W ( Y − Φ θ ) J_W(\boldsymbol{\theta}) = (\mathbf{Y} - \Phi \boldsymbol{\theta})^T W (\mathbf{Y} - \Phi \boldsymbol{\theta}) JW(θ)=(Y−Φθ)TW(Y−Φθ)

其中 W W W是正定对称权重矩阵。最优选择为 W = R − 1 W = R^{-1} W=R−1。

WLS解析解

对 J W ( θ ) J_W(\boldsymbol{\theta}) JW(θ)求导并令为零:
∂ J W ( θ ) ∂ θ = − 2 Φ T W ( Y − Φ θ ) = 0 \frac{\partial J_W(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = -2\Phi^T W (\mathbf{Y} - \Phi \boldsymbol{\theta}) = 0 ∂θ∂JW(θ)=−2ΦTW(Y−Φθ)=0

得到加权正规方程:
Φ T W Φ θ ^ = Φ T W Y \Phi^T W \Phi \hat{\boldsymbol{\theta}} = \Phi^T W \mathbf{Y} ΦTWΦθ^=ΦTWY

若 Φ T W Φ \Phi^T W \Phi ΦTWΦ可逆,则WLS估计为:
θ ^ WLS = ( Φ T W Φ ) − 1 Φ T W Y \boxed{\hat{\boldsymbol{\theta}}_{\text{WLS}} = (\Phi^T W \Phi)^{-1} \Phi^T W \mathbf{Y}} θ^WLS=(ΦTWΦ)−1ΦTWY

特别地,当 W = R − 1 W = R^{-1} W=R−1时:
θ ^ WLS = ( Φ T R − 1 Φ ) − 1 Φ T R − 1 Y \hat{\boldsymbol{\theta}}_{\text{WLS}} = (\Phi^T R^{-1} \Phi)^{-1} \Phi^T R^{-1} \mathbf{Y} θ^WLS=(ΦTR−1Φ)−1ΦTR−1Y

统计性质

当 W = R − 1 W = R^{-1} W=R−1时,WLS估计具有以下性质:

  • 无偏性 \textbf{无偏性} 无偏性: E [ θ ^ WLS ] = θ E[\hat{\boldsymbol{\theta}}_{\text{WLS}}] = \boldsymbol{\theta} E[θ^WLS]=θ
  • 协方差矩阵 \textbf{协方差矩阵} 协方差矩阵: Cov ( θ ^ WLS ) = ( Φ T R − 1 Φ ) − 1 \text{Cov}(\hat{\boldsymbol{\theta}}_{\text{WLS}}) = (\Phi^T R^{-1} \Phi)^{-1} Cov(θ^WLS)=(ΦTR−1Φ)−1
  • 有效性 \textbf{有效性} 有效性: 在广义线性模型下,WLS是BLUE
  • 高斯-马尔可夫定理推广 \textbf{高斯-马尔可夫定理推广} 高斯-马尔可夫定理推广: 当 Cov ( e ) = R \text{Cov}(\mathbf{e}) = R Cov(e)=R时,权重 W = R − 1 W = R^{-1} W=R−1给出最小方差线性无偏估计

特殊情况:对角权重矩阵

当噪声不相关时, R R R为对角阵:
R = diag ( σ 1 2 , σ 2 2 , ... , σ m 2 ) R = \text{diag}(\sigma_1^2, \sigma_2^2, \dots, \sigma_m^2) R=diag(σ12,σ22,...,σm2)

则 W = R − 1 = diag ( 1 / σ 1 2 , 1 / σ 2 2 , ... , 1 / σ m 2 ) W = R^{-1} = \text{diag}(1/\sigma_1^2, 1/\sigma_2^2, \dots, 1/\sigma_m^2) W=R−1=diag(1/σ12,1/σ22,...,1/σm2),代价函数简化为:
J W ( θ ) = ∑ i = 1 m 1 σ i 2 [ y ( i ) − ϕ ( i ) T θ ] 2 J_W(\boldsymbol{\theta}) = \sum_{i=1}^{m} \frac{1}{\sigma_i^2} [y(i) - \phi(i)^T \boldsymbol{\theta}]^2 JW(θ)=i=1∑mσi21[y(i)−ϕ(i)Tθ]2

这直观显示了WLS的核心思想:给高方差(不可靠)的观测赋予小权重,给低方差(可靠)的观测赋予大权重。

OLS与WLS的比较

估计量对比

特性 普通最小二乘(OLS) 加权最小二乘(WLS) 适用条件 同方差、无相关噪声 异方差或相关噪声 权重矩阵 W = I W = R − 1 ( 最优选择 ) 估计公式 θ ^ = ( Φ T Φ ) − 1 Φ T Y θ ^ = ( Φ T W Φ ) − 1 Φ T W Y 协方差矩阵 σ 2 ( Φ T Φ ) − 1 ( Φ T R − 1 Φ ) − 1 估计效率 同方差下最优 异方差下优于OLS 计算复杂度 较低 较高(需估计R或W) \begin{array}{|c|c|c|} \hline \text{特性} & \text{普通最小二乘(OLS)} & \text{加权最小二乘(WLS)} \\ \hline \text{适用条件} & \text{同方差、无相关噪声} & \text{异方差或相关噪声} \\ \hline \text{权重矩阵} & W = I & W = R^{-1} (\text{最优选择}) \\ \hline \text{估计公式} & \hat{\boldsymbol{\theta}} = (\Phi^T \Phi)^{-1} \Phi^T \mathbf{Y} & \hat{\boldsymbol{\theta}} = (\Phi^T W \Phi)^{-1} \Phi^T W \mathbf{Y} \\ \hline \text{协方差矩阵} & \sigma^2(\Phi^T \Phi)^{-1} & (\Phi^T R^{-1} \Phi)^{-1} \\ \hline \text{估计效率} & \text{同方差下最优} & \text{异方差下优于OLS} \\ \hline \text{计算复杂度} & \text{较低} & \text{较高(需估计R或W)} \\ \hline \end{array} 特性适用条件权重矩阵估计公式协方差矩阵估计效率计算复杂度普通最小二乘(OLS)同方差、无相关噪声W=Iθ^=(ΦTΦ)−1ΦTYσ2(ΦTΦ)−1同方差下最优较低加权最小二乘(WLS)异方差或相关噪声W=R−1(最优选择)θ^=(ΦTWΦ)−1ΦTWY(ΦTR−1Φ)−1异方差下优于OLS较高(需估计R或W)

选择准则

  • 如果噪声协方差 R R R已知或可准确估计,使用WLS( W = R − 1 W=R^{-1} W=R−1)
  • 如果 R R R未知但怀疑存在异方差,可先进行异方差检验,再采用可行的广义最小二乘(FGLS)
  • 如果样本量足够大且满足同方差假设,OLS是简单有效的选择
  • 当 R R R为对角阵时,WLS等价于对数据进行标准化后应用OLS

应用实例

OLS应用示例:线性回归

对于简单线性模型 y = a + b x + e y = a + bx + e y=a+bx+e, n = 2 n=2 n=2次观测:
Φ = [ 1 x 1 1 x 2 ] , Y = [ y 1 y 2 ] \Phi = \begin{bmatrix} 1 & x_1 \\ 1 & x_2 \end{bmatrix}, \quad \mathbf{Y} = \begin{bmatrix} y_1 \\ y_2 \end{bmatrix} Φ=[11x1x2],Y=[y1y2]

OLS解:

a \^ b \^ \] = ( Φ T Φ ) − 1 Φ T Y = 1 2 ∑ x i 2 − ( ∑ x i ) 2 \[ ∑ x i 2 − ∑ x i − ∑ x i 2 \] \[ ∑ y i ∑ x i y i \] \\begin{bmatrix} \\hat{a} \\\\ \\hat{b} \\end{bmatrix} = (\\Phi\^T \\Phi)\^{-1} \\Phi\^T \\mathbf{Y} = \\frac{1}{2\\sum x_i\^2 - (\\sum x_i)\^2} \\begin{bmatrix} \\sum x_i\^2 \& -\\sum x_i \\\\ -\\sum x_i \& 2 \\end{bmatrix} \\begin{bmatrix} \\sum y_i \\\\ \\sum x_i y_i \\end{bmatrix} \[a\^b\^\]=(ΦTΦ)−1ΦTY=2∑xi2−(∑xi)21\[∑xi2−∑xi−∑xi2\]\[∑yi∑xiyi

WLS应用示例:传感器融合

考虑两个不同精度的传感器测量同一物理量 θ \theta θ:
y 1 = θ + e 1 , Var ( e 1 ) = σ 1 2 y_1 = \theta + e_1, \quad \text{Var}(e_1) = \sigma_1^2 y1=θ+e1,Var(e1)=σ12
y 2 = θ + e 2 , Var ( e 2 ) = σ 2 2 y_2 = \theta + e_2, \quad \text{Var}(e_2) = \sigma_2^2 y2=θ+e2,Var(e2)=σ22

模型矩阵: Φ = [ 1 1 ] \Phi = \begin{bmatrix} 1 \\ 1 \end{bmatrix} Φ=[11], R = [ σ 1 2 0 0 σ 2 2 ] R = \begin{bmatrix} \sigma_1^2 & 0 \\ 0 & \sigma_2^2 \end{bmatrix} R=[σ1200σ22]

WLS估计:
θ ^ WLS = y 1 σ 1 2 + y 2 σ 2 2 1 σ 1 2 + 1 σ 2 2 \hat{\theta}_{\text{WLS}} = \frac{\frac{y_1}{\sigma_1^2} + \frac{y_2}{\sigma_2^2}}{\frac{1}{\sigma_1^2} + \frac{1}{\sigma_2^2}} θ^WLS=σ121+σ221σ12y1+σ22y2

这是方差的倒数加权平均,高精度传感器(小方差)获得更大权重。

总结

普通最小二乘和加权最小二乘构成了经典线性估计的理论基础。OLS在同方差假设下是最优的,而WLS通过引入权重矩阵处理异方差和相关噪声问题。实际应用中,需要根据噪声特性选择合适的方法,或通过迭代方法估计权重矩阵。这两种方法也构成了更高级估计技术(如递推最小二乘、卡尔曼滤波)的基础。

相关推荐
phoenix@Capricornus2 小时前
矩阵前乘&矩阵后乘
线性代数·矩阵
kingmax542120081 天前
高中数学教师资格面试试讲稿:《直线的位置关系(例2)》
线性代数·算法·面试·矩阵·教师资格
小妖6661 天前
力扣(LeetCode)- 74. 搜索二维矩阵
算法·leetcode·矩阵
Liangwei Lin1 天前
洛谷 U311289 矩阵距离
线性代数·算法·矩阵
不穿格子的程序员2 天前
从零开始写算法——矩阵类题:矩阵置零 + 螺旋矩阵
线性代数·算法·矩阵
一水鉴天2 天前
专题讨论 类型理论和范畴理论之间的关系 之2 整体设计中的“闭” 解题和“位”问题 (ima.copilot)
线性代数·矩阵·mvc
Tezign_space2 天前
技术实战:Crocs如何构建AI驱动的智能内容矩阵,实现内容播放量提升470%?
大数据·人工智能·矩阵·aigc·内容运营·多智能体系统·智能内容矩阵
serve the people2 天前
TensorFlow 中雅可比矩阵计算方式
人工智能·矩阵·tensorflow
劈星斩月2 天前
线性代数-3Blue1Brown《线性代数的本质》矩阵与线性变换-三维空间(6)
线性代数·矩阵·三维空间线性变换