[机器学习-从入门到入土] 拓展-最小二乘法
个人导航
知乎:https://www.zhihu.com/people/byzh_rc
CSDN:https://blog.csdn.net/qq_54636039
注:本文仅对所述内容做了框架性引导,具体细节可查询其余相关资料or源码
参考文章:各方资料
文章目录
- [[机器学习-从入门到入土] 拓展-最小二乘法](#[机器学习-从入门到入土] 拓展-最小二乘法)
- 个人导航
- 最小二乘法OLS
-
-
-
- 1.问题背景
- 2.核心思想
- 3.为什么使用平方误差
- 4.矩阵形式表示
- 5.几何意义(核心理解)
- [6.正规方程(Normal Equation)](#6.正规方程(Normal Equation))
- [7. OLS 的局限性](#7. OLS 的局限性)
-
-
- [附 - 证明`最小化平方误差`等价于`最大似然估计`](#附 - 证明
最小化平方误差等价于最大似然估计)
最小二乘法OLS
OLS: Ordinary Least Squares
1.问题背景
给定一组带噪声的观测数据:
{ ( x ( i ) , y ( i ) ) } i = 1 m \{(x^{(i)},y^{(i)})\}_{i=1}^m {(x(i),y(i))}i=1m
假设输出由线性模型生成:
y ( i ) ≈ h w ( x ( i ) ) y^{(i)} \approx h_w(x^{(i)}) y(i)≈hw(x(i))
但由于噪声、测量误差等原因,不可能完全拟合所有样本,因此需要一个准则来衡量"拟合得好不好"
2.核心思想
最小二乘法(OLS)的基本思想是:
选择参数 w w w,使模型预测值与真实值之间的平方误差之和最小
数学形式(Ordinary Least Squares):
min w ∑ i = 1 m ( h w ( x ( i ) ) − y ( i ) ) 2 \min_w \sum_{i=1}^{m} \left(h_w(x^{(i)})-y^{(i)}\right)^2 wmini=1∑m(hw(x(i))−y(i))2
3.为什么使用平方误差
平方误差具有以下优点:
- 对大误差惩罚更强(凸函数)
- 连续可导,便于优化
- 具有统计学解释
-> 在噪声服从高斯分布 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim \mathcal{N}(0,\sigma^2) ε∼N(0,σ2)的假设下, 最小化平方误差 等价于最大似然估计(MLE)
4.矩阵形式表示
定义设计矩阵与输出向量:
X = [ ( x ( 1 ) ) ⊤ ( x ( 2 ) ) ⊤ ⋮ ( x ( m ) ) ⊤ ] , y = [ y ( 1 ) y ( 2 ) ⋮ y ( m ) ] X= \begin{bmatrix} (x^{(1)})^\top \\ (x^{(2)})^\top \\ \vdots \\ (x^{(m)})^\top \end{bmatrix}, \quad y= \begin{bmatrix} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(m)} \end{bmatrix} X= (x(1))⊤(x(2))⊤⋮(x(m))⊤ ,y= y(1)y(2)⋮y(m)
m个样本
模型预测:
y ^ = X w \hat{y}=Xw y^=Xw
OLS 的目标函数可写为:
J ( w ) = 1 2 ∥ X w − y ∥ 2 J(w)=\frac{1}{2}\|Xw-y\|^2 J(w)=21∥Xw−y∥2
1 / 2 1/2 1/2方便求导的时候消掉
5.几何意义(核心理解)
OLS 寻找的是:使 X w Xw Xw 成为 y y y 在 C ( X ) \mathcal{C}(X) C(X) 上的正交投影
因此残差满足:
y − X w ⊥ C ( X ) y - Xw \;\perp\; \mathcal{C}(X) y−Xw⊥C(X)
6.正规方程(Normal Equation)
J ( w ) = 1 2 ( X w − y ) ⊤ ( X w − y ) J(w) = \frac{1}{2} (Xw - y)^\top (Xw - y) J(w)=21(Xw−y)⊤(Xw−y)
具体求导:
∇ w J ( w ) = 1 2 ∇ w [ ( X w − y ) ⊤ ( X w − y ) ] = 1 2 ⋅ 2 X ⊤ ( X w − y ) = X ⊤ ( X w − y ) \begin{aligned} \nabla_w J(w) &= \frac{1}{2} \nabla_w \big[ (Xw - y)^\top (Xw - y) \big] \\ &= \frac{1}{2} \cdot 2 X^\top (X w - y) \\ &= X^\top (X w - y) \end{aligned} ∇wJ(w)=21∇w[(Xw−y)⊤(Xw−y)]=21⋅2X⊤(Xw−y)=X⊤(Xw−y)
由一阶最优条件(梯度为 0)得到:
X ⊤ ( X w − y ) = 0 X^\top(Xw-y)=0 X⊤(Xw−y)=0
-> 正规方程 :
X ⊤ X w = X ⊤ y \mathbf{X^\top X w = X^\top y} X⊤Xw=X⊤y
当且仅当:
X ⊤ X 可逆 X^\top X \text{ 可逆} X⊤X 可逆
解为:
w OLS = ( X ⊤ X ) − 1 X ⊤ y w_{\text{OLS}}=(X^\top X)^{-1}X^\top y wOLS=(X⊤X)−1X⊤y
解为闭式解:
闭式解: 可以用有限步代数运算直接算出问题的解,不需要通过迭代逼近
7. OLS 的局限性
- 特征共线性 → X ⊤ X X^\top X X⊤X 奇异
- 高维小样本( d > m d>m d>m)→ 解不存在
- 对噪声敏感 → 高方差、易过拟合
这些问题直接引出了:
- L2 正则化(Ridge Regression)
- L1 正则化(Lasso)
- 贝叶斯线性回归
附 - 证明最小化平方误差等价于最大似然估计
线性回归模型:
y ( i ) = w ⊤ x ( i ) + ε ( i ) , i = 1 , ... , m y^{(i)} = w^\top x^{(i)} + \varepsilon^{(i)}, \quad i=1,\dots,m y(i)=w⊤x(i)+ε(i),i=1,...,m
假设噪声:
ε ( i ) ∼ N ( 0 , σ 2 ) , 独立同分布 (i.i.d.) \varepsilon^{(i)} \sim \mathcal{N}(0, \sigma^2), \quad \text{独立同分布 (i.i.d.)} ε(i)∼N(0,σ2),独立同分布 (i.i.d.)
因此,每个观测值 y ( i ) y^{(i)} y(i) 的条件分布 为:
p ( y ( i ) ∣ x ( i ) , w ) = 1 2 π σ 2 exp [ − ( y ( i ) − w ⊤ x ( i ) ) 2 2 σ 2 ] p(y^{(i)} \mid x^{(i)}, w) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{(y^{(i)} - w^\top x^{(i)})^2}{2\sigma^2}\right] p(y(i)∣x(i),w)=2πσ2 1exp[−2σ2(y(i)−w⊤x(i))2]
假设样本独立,整个数据集的似然函数 为:
p ( y ∣ X , w ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) , w ) = ∏ i = 1 m 1 2 π σ 2 exp [ − ( y ( i ) − w ⊤ x ( i ) ) 2 2 σ 2 ] p(y \mid X, w) = \prod_{i=1}^m p(y^{(i)} \mid x^{(i)}, w) = \prod_{i=1}^m \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{(y^{(i)} - w^\top x^{(i)})^2}{2\sigma^2}\right] p(y∣X,w)=i=1∏mp(y(i)∣x(i),w)=i=1∏m2πσ2 1exp[−2σ2(y(i)−w⊤x(i))2]
似然函数取对数(简化计算):
ln p ( y ∣ X , w ) = ∑ i = 1 m ln 1 2 π σ 2 − ∑ i = 1 m ( y ( i ) − w ⊤ x ( i ) ) 2 2 σ 2 = − m 2 ln ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 m ( y ( i ) − w ⊤ x ( i ) ) 2 \begin{aligned} \ln p(y \mid X, w) &= \sum_{i=1}^m \ln \frac{1}{\sqrt{2\pi\sigma^2}} - \sum_{i=1}^m \frac{(y^{(i)} - w^\top x^{(i)})^2}{2\sigma^2} \\ &= -\frac{m}{2} \ln (2\pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^m (y^{(i)} - w^\top x^{(i)})^2 \end{aligned} lnp(y∣X,w)=i=1∑mln2πσ2 1−i=1∑m2σ2(y(i)−w⊤x(i))2=−2mln(2πσ2)−2σ21i=1∑m(y(i)−w⊤x(i))2
注意到:
- 第一项 − m 2 ln ( 2 π σ 2 ) -\frac{m}{2}\ln(2\pi\sigma^2) −2mln(2πσ2) 不依赖 w w w
- 第二项 − 1 2 σ 2 ∑ ( y ( i ) − w ⊤ x ( i ) ) 2 -\frac{1}{2\sigma^2} \sum (y^{(i)} - w^\top x^{(i)})^2 −2σ21∑(y(i)−w⊤x(i))2 依赖 w w w
因此,最大化对数似然 等价于 最小化平方误差 :
max w ln p ( y ∣ X , w ) ⟺ min w ∑ i = 1 m ( y ( i ) − w ⊤ x ( i ) ) 2 w \max_w \ln p(y \mid X, w) \quad \Longleftrightarrow \quad \min_w \sum_{i=1}^m (y^{(i)} - w^\top x^{(i)})^2w wmaxlnp(y∣X,w)⟺wmini=1∑m(y(i)−w⊤x(i))2w
注意 1 / ( 2 σ 2 ) 1/(2\sigma^2) 1/(2σ2) 只是常数,不影响最优 w w w
得出结论:
OLS 最小平方误差 ≡ MLE (线性回归 + 高斯噪声) \boxed{ \text{OLS 最小平方误差 } \equiv \text{MLE (线性回归 + 高斯噪声)} } OLS 最小平方误差 ≡MLE (线性回归 + 高斯噪声)
换句话说:最小二乘法OLS在高斯噪声假设下是最大似然估计MLE的一个特例