[机器学习-从入门到入土] 拓展-最小二乘法

个人导航

知乎：https://www.zhihu.com/people/byzh_rc

CSDN：https://blog.csdn.net/qq_54636039

注：本文仅对所述内容做了框架性引导，具体细节可查询其余相关资料or源码

参考文章：各方资料

文章目录

[[机器学习-从入门到入土] 拓展-最小二乘法](#[机器学习-从入门到入土] 拓展-最小二乘法)
个人导航
最小二乘法OLS
- - - 1.问题背景
    - 2.核心思想
    - 3.为什么使用平方误差
    - 4.矩阵形式表示
    - 5.几何意义（核心理解）
    - [6.正规方程（Normal Equation）](#6.正规方程（Normal Equation）)
    - [7. OLS 的局限性](#7. OLS 的局限性)
[附 - 证明`最小化平方误差`等价于`最大似然估计`](#附 - 证明最小化平方误差等价于最大似然估计)

最小二乘法OLS

OLS: Ordinary Least Squares

1.问题背景

给定一组带噪声的观测数据：
{ ( x ( i ) , y ( i ) ) } i = 1 m \{(x^{(i)},y^{(i)})\}_{i=1}^m {(x(i),y(i))}i=1m

假设输出由线性模型生成：
y ( i ) ≈ h w ( x ( i ) ) y^{(i)} \approx h_w(x^{(i)}) y(i)≈hw(x(i))

但由于噪声、测量误差等原因，不可能完全拟合所有样本，因此需要一个准则来衡量"拟合得好不好"

2.核心思想

最小二乘法（OLS）的基本思想是：
选择参数 w w w，使模型预测值与真实值之间的平方误差之和最小

数学形式(Ordinary Least Squares)：
min ⁡ w ∑ i = 1 m ( h w ( x ( i ) ) − y ( i ) ) 2 \min_w \sum_{i=1}^{m} \left(h_w(x^{(i)})-y^{(i)}\right)^2 wmini=1∑m(hw(x(i))−y(i))2

3.为什么使用平方误差

平方误差具有以下优点：

对大误差惩罚更强（凸函数）
连续可导，便于优化
具有统计学解释
-> 在噪声服从高斯分布 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim \mathcal{N}(0,\sigma^2) ε∼N(0,σ2)的假设下, 最小化平方误差 等价于最大似然估计（MLE）

4.矩阵形式表示

定义设计矩阵与输出向量：
X = [ ( x ( 1 ) ) ⊤ ( x ( 2 ) ) ⊤ ⋮ ( x ( m ) ) ⊤ ] , y = [ y ( 1 ) y ( 2 ) ⋮ y ( m ) ] X= \begin{bmatrix} (x^{(1)})^\top \\ (x^{(2)})^\top \\ \vdots \\ (x^{(m)})^\top \end{bmatrix}, \quad y= \begin{bmatrix} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(m)} \end{bmatrix} X= (x(1))⊤(x(2))⊤⋮(x(m))⊤ ,y= y(1)y(2)⋮y(m)

m个样本

模型预测：
y ^ = X w \hat{y}=Xw y^=Xw

OLS 的目标函数可写为：
J ( w ) = 1 2 ∥ X w − y ∥ 2 J(w)=\frac{1}{2}\|Xw-y\|^2 J(w)=21∥Xw−y∥2

1 / 2 1/2 1/2方便求导的时候消掉

5.几何意义（核心理解）

OLS 寻找的是：使 X w Xw Xw 成为 y y y 在 C ( X ) \mathcal{C}(X) C(X) 上的正交投影

因此残差满足：
y − X w ⊥ C ( X ) y - Xw \;\perp\; \mathcal{C}(X) y−Xw⊥C(X)

6.正规方程（Normal Equation）

J ( w ) = 1 2 ( X w − y ) ⊤ ( X w − y ) J(w) = \frac{1}{2} (Xw - y)^\top (Xw - y) J(w)=21(Xw−y)⊤(Xw−y)

具体求导：
∇ w J ( w ) = 1 2 ∇ w [ ( X w − y ) ⊤ ( X w − y ) ] = 1 2 ⋅ 2 X ⊤ ( X w − y ) = X ⊤ ( X w − y ) \begin{aligned} \nabla_w J(w) &= \frac{1}{2} \nabla_w \big[ (Xw - y)^\top (Xw - y) \big] \\ &= \frac{1}{2} \cdot 2 X^\top (X w - y) \\ &= X^\top (X w - y) \end{aligned} ∇wJ(w)=21∇w[(Xw−y)⊤(Xw−y)]=21⋅2X⊤(Xw−y)=X⊤(Xw−y)

由一阶最优条件（梯度为 0）得到：
X ⊤ ( X w − y ) = 0 X^\top(Xw-y)=0 X⊤(Xw−y)=0

-> 正规方程 ：
X ⊤ X w = X ⊤ y \mathbf{X^\top X w = X^\top y} X⊤Xw=X⊤y

当且仅当：
X ⊤ X 可逆 X^\top X \text{ 可逆} X⊤X 可逆

解为：
w OLS = ( X ⊤ X ) − 1 X ⊤ y w_{\text{OLS}}=(X^\top X)^{-1}X^\top y wOLS=(X⊤X)−1X⊤y

解为闭式解:

闭式解: 可以用有限步代数运算直接算出问题的解，不需要通过迭代逼近

7. OLS 的局限性

特征共线性 → X ⊤ X X^\top X X⊤X 奇异
高维小样本（ d > m d>m d>m）→ 解不存在
对噪声敏感 → 高方差、易过拟合

这些问题直接引出了：

L2 正则化（Ridge Regression）

L1 正则化（Lasso）

贝叶斯线性回归

附 - 证明`最小化平方误差`等价于`最大似然估计`

线性回归模型：
y ( i ) = w ⊤ x ( i ) + ε ( i ) , i = 1 , ... , m y^{(i)} = w^\top x^{(i)} + \varepsilon^{(i)}, \quad i=1,\dots,m y(i)=w⊤x(i)+ε(i),i=1,...,m

假设噪声：
ε ( i ) ∼ N ( 0 , σ 2 ) , 独立同分布 (i.i.d.) \varepsilon^{(i)} \sim \mathcal{N}(0, \sigma^2), \quad \text{独立同分布 (i.i.d.)} ε(i)∼N(0,σ2),独立同分布 (i.i.d.)

因此，每个观测值 y ( i ) y^{(i)} y(i) 的条件分布 为：
p ( y ( i ) ∣ x ( i ) , w ) = 1 2 π σ 2 exp ⁡ [ − ( y ( i ) − w ⊤ x ( i ) ) 2 2 σ 2 ] p(y^{(i)} \mid x^{(i)}, w) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{(y^{(i)} - w^\top x^{(i)})^2}{2\sigma^2}\right] p(y(i)∣x(i),w)=2πσ2 1exp[−2σ2(y(i)−w⊤x(i))2]

假设样本独立，整个数据集的似然函数 为：
p ( y ∣ X , w ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) , w ) = ∏ i = 1 m 1 2 π σ 2 exp ⁡ [ − ( y ( i ) − w ⊤ x ( i ) ) 2 2 σ 2 ] p(y \mid X, w) = \prod_{i=1}^m p(y^{(i)} \mid x^{(i)}, w) = \prod_{i=1}^m \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{(y^{(i)} - w^\top x^{(i)})^2}{2\sigma^2}\right] p(y∣X,w)=i=1∏mp(y(i)∣x(i),w)=i=1∏m2πσ2 1exp[−2σ2(y(i)−w⊤x(i))2]

似然函数取对数（简化计算）：
ln ⁡ p ( y ∣ X , w ) = ∑ i = 1 m ln ⁡ 1 2 π σ 2 − ∑ i = 1 m ( y ( i ) − w ⊤ x ( i ) ) 2 2 σ 2 = − m 2 ln ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 m ( y ( i ) − w ⊤ x ( i ) ) 2 \begin{aligned} \ln p(y \mid X, w) &= \sum_{i=1}^m \ln \frac{1}{\sqrt{2\pi\sigma^2}} - \sum_{i=1}^m \frac{(y^{(i)} - w^\top x^{(i)})^2}{2\sigma^2} \\ &= -\frac{m}{2} \ln (2\pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^m (y^{(i)} - w^\top x^{(i)})^2 \end{aligned} lnp(y∣X,w)=i=1∑mln2πσ2 1−i=1∑m2σ2(y(i)−w⊤x(i))2=−2mln(2πσ2)−2σ21i=1∑m(y(i)−w⊤x(i))2

注意到：

第一项 − m 2 ln ⁡ ( 2 π σ 2 ) -\frac{m}{2}\ln(2\pi\sigma^2) −2mln(2πσ2) 不依赖 w w w
第二项 − 1 2 σ 2 ∑ ( y ( i ) − w ⊤ x ( i ) ) 2 -\frac{1}{2\sigma^2} \sum (y^{(i)} - w^\top x^{(i)})^2 −2σ21∑(y(i)−w⊤x(i))2 依赖 w w w

因此，最大化对数似然等价于最小化平方误差 ：
max ⁡ w ln ⁡ p ( y ∣ X , w ) ⟺ min ⁡ w ∑ i = 1 m ( y ( i ) − w ⊤ x ( i ) ) 2 w \max_w \ln p(y \mid X, w) \quad \Longleftrightarrow \quad \min_w \sum_{i=1}^m (y^{(i)} - w^\top x^{(i)})^2w wmaxlnp(y∣X,w)⟺wmini=1∑m(y(i)−w⊤x(i))2w

注意 1 / ( 2 σ 2 ) 1/(2\sigma^2) 1/(2σ2) 只是常数，不影响最优 w w w

得出结论:
OLS 最小平方误差 ≡ MLE (线性回归 + 高斯噪声) \boxed{ \text{OLS 最小平方误差 } \equiv \text{MLE (线性回归 + 高斯噪声)} } OLS 最小平方误差 ≡MLE (线性回归 + 高斯噪声)

换句话说：最小二乘法OLS在高斯噪声假设下是最大似然估计MLE的一个特例

[机器学习-从入门到入土] 拓展-最小二乘法