[机器学习-从入门到入土] 拓展-最小二乘法

[机器学习-从入门到入土] 拓展-最小二乘法

个人导航

知乎:https://www.zhihu.com/people/byzh_rc

CSDN:https://blog.csdn.net/qq_54636039

注:本文仅对所述内容做了框架性引导,具体细节可查询其余相关资料or源码

参考文章:各方资料

文章目录

最小二乘法OLS

OLS: Ordinary Least Squares

1.问题背景

给定一组带噪声的观测数据:
{ ( x ( i ) , y ( i ) ) } i = 1 m \{(x^{(i)},y^{(i)})\}_{i=1}^m {(x(i),y(i))}i=1m

假设输出由线性模型生成:
y ( i ) ≈ h w ( x ( i ) ) y^{(i)} \approx h_w(x^{(i)}) y(i)≈hw(x(i))

但由于噪声、测量误差等原因,不可能完全拟合所有样本,因此需要一个准则来衡量"拟合得好不好"

2.核心思想

最小二乘法(OLS)的基本思想是:
选择参数 w w w,使模型预测值与真实值之间的
平方误差之和最小

数学形式(Ordinary Least Squares):
min ⁡ w ∑ i = 1 m ( h w ( x ( i ) ) − y ( i ) ) 2 \min_w \sum_{i=1}^{m} \left(h_w(x^{(i)})-y^{(i)}\right)^2 wmini=1∑m(hw(x(i))−y(i))2

3.为什么使用平方误差

平方误差具有以下优点:

  • 对大误差惩罚更强(凸函数)
  • 连续可导,便于优化
  • 具有统计学解释
    -> 在噪声服从高斯分布 ε ∼ N ( 0 , σ 2 ) \varepsilon \sim \mathcal{N}(0,\sigma^2) ε∼N(0,σ2)的假设下, 最小化平方误差 等价于最大似然估计(MLE)
4.矩阵形式表示

定义设计矩阵与输出向量:
X = [ ( x ( 1 ) ) ⊤ ( x ( 2 ) ) ⊤ ⋮ ( x ( m ) ) ⊤ ] , y = [ y ( 1 ) y ( 2 ) ⋮ y ( m ) ] X= \begin{bmatrix} (x^{(1)})^\top \\ (x^{(2)})^\top \\ \vdots \\ (x^{(m)})^\top \end{bmatrix}, \quad y= \begin{bmatrix} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(m)} \end{bmatrix} X= (x(1))⊤(x(2))⊤⋮(x(m))⊤ ,y= y(1)y(2)⋮y(m)

m个样本

模型预测:
y ^ = X w \hat{y}=Xw y^=Xw

OLS 的目标函数可写为:
J ( w ) = 1 2 ∥ X w − y ∥ 2 J(w)=\frac{1}{2}\|Xw-y\|^2 J(w)=21∥Xw−y∥2

1 / 2 1/2 1/2方便求导的时候消掉

5.几何意义(核心理解)

OLS 寻找的是:使 X w Xw Xw 成为 y y y 在 C ( X ) \mathcal{C}(X) C(X) 上的正交投影

因此残差满足:
y − X w    ⊥    C ( X ) y - Xw \;\perp\; \mathcal{C}(X) y−Xw⊥C(X)

6.正规方程(Normal Equation)

J ( w ) = 1 2 ( X w − y ) ⊤ ( X w − y ) J(w) = \frac{1}{2} (Xw - y)^\top (Xw - y) J(w)=21(Xw−y)⊤(Xw−y)

具体求导:
∇ w J ( w ) = 1 2 ∇ w [ ( X w − y ) ⊤ ( X w − y ) ] = 1 2 ⋅ 2 X ⊤ ( X w − y ) = X ⊤ ( X w − y ) \begin{aligned} \nabla_w J(w) &= \frac{1}{2} \nabla_w \big[ (Xw - y)^\top (Xw - y) \big] \\ &= \frac{1}{2} \cdot 2 X^\top (X w - y) \\ &= X^\top (X w - y) \end{aligned} ∇wJ(w)=21∇w[(Xw−y)⊤(Xw−y)]=21⋅2X⊤(Xw−y)=X⊤(Xw−y)

由一阶最优条件(梯度为 0)得到:
X ⊤ ( X w − y ) = 0 X^\top(Xw-y)=0 X⊤(Xw−y)=0

-> 正规方程
X ⊤ X w = X ⊤ y \mathbf{X^\top X w = X^\top y} X⊤Xw=X⊤y

当且仅当:
X ⊤ X 可逆 X^\top X \text{ 可逆} X⊤X 可逆

解为:
w OLS = ( X ⊤ X ) − 1 X ⊤ y w_{\text{OLS}}=(X^\top X)^{-1}X^\top y wOLS=(X⊤X)−1X⊤y

解为闭式解:

闭式解: 可以用有限步代数运算直接算出问题的解,不需要通过迭代逼近

7. OLS 的局限性
  • 特征共线性 → X ⊤ X X^\top X X⊤X 奇异
  • 高维小样本( d > m d>m d>m)→ 解不存在
  • 对噪声敏感 → 高方差、易过拟合

这些问题直接引出了:

  • L2 正则化(Ridge Regression)
  • L1 正则化(Lasso)
  • 贝叶斯线性回归

附 - 证明最小化平方误差等价于最大似然估计

线性回归模型:
y ( i ) = w ⊤ x ( i ) + ε ( i ) , i = 1 , ... , m y^{(i)} = w^\top x^{(i)} + \varepsilon^{(i)}, \quad i=1,\dots,m y(i)=w⊤x(i)+ε(i),i=1,...,m

假设噪声:
ε ( i ) ∼ N ( 0 , σ 2 ) , 独立同分布 (i.i.d.) \varepsilon^{(i)} \sim \mathcal{N}(0, \sigma^2), \quad \text{独立同分布 (i.i.d.)} ε(i)∼N(0,σ2),独立同分布 (i.i.d.)

因此,每个观测值 y ( i ) y^{(i)} y(i) 的条件分布 为:
p ( y ( i ) ∣ x ( i ) , w ) = 1 2 π σ 2 exp ⁡ [ − ( y ( i ) − w ⊤ x ( i ) ) 2 2 σ 2 ] p(y^{(i)} \mid x^{(i)}, w) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{(y^{(i)} - w^\top x^{(i)})^2}{2\sigma^2}\right] p(y(i)∣x(i),w)=2πσ2 1exp[−2σ2(y(i)−w⊤x(i))2]

假设样本独立,整个数据集的似然函数 为:
p ( y ∣ X , w ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) , w ) = ∏ i = 1 m 1 2 π σ 2 exp ⁡ [ − ( y ( i ) − w ⊤ x ( i ) ) 2 2 σ 2 ] p(y \mid X, w) = \prod_{i=1}^m p(y^{(i)} \mid x^{(i)}, w) = \prod_{i=1}^m \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{(y^{(i)} - w^\top x^{(i)})^2}{2\sigma^2}\right] p(y∣X,w)=i=1∏mp(y(i)∣x(i),w)=i=1∏m2πσ2 1exp[−2σ2(y(i)−w⊤x(i))2]

似然函数取对数(简化计算):
ln ⁡ p ( y ∣ X , w ) = ∑ i = 1 m ln ⁡ 1 2 π σ 2 − ∑ i = 1 m ( y ( i ) − w ⊤ x ( i ) ) 2 2 σ 2 = − m 2 ln ⁡ ( 2 π σ 2 ) − 1 2 σ 2 ∑ i = 1 m ( y ( i ) − w ⊤ x ( i ) ) 2 \begin{aligned} \ln p(y \mid X, w) &= \sum_{i=1}^m \ln \frac{1}{\sqrt{2\pi\sigma^2}} - \sum_{i=1}^m \frac{(y^{(i)} - w^\top x^{(i)})^2}{2\sigma^2} \\ &= -\frac{m}{2} \ln (2\pi \sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^m (y^{(i)} - w^\top x^{(i)})^2 \end{aligned} lnp(y∣X,w)=i=1∑mln2πσ2 1−i=1∑m2σ2(y(i)−w⊤x(i))2=−2mln(2πσ2)−2σ21i=1∑m(y(i)−w⊤x(i))2

注意到:

  • 第一项 − m 2 ln ⁡ ( 2 π σ 2 ) -\frac{m}{2}\ln(2\pi\sigma^2) −2mln(2πσ2) 不依赖 w w w
  • 第二项 − 1 2 σ 2 ∑ ( y ( i ) − w ⊤ x ( i ) ) 2 -\frac{1}{2\sigma^2} \sum (y^{(i)} - w^\top x^{(i)})^2 −2σ21∑(y(i)−w⊤x(i))2 依赖 w w w

因此,最大化对数似然 等价于 最小化平方误差
max ⁡ w ln ⁡ p ( y ∣ X , w ) ⟺ min ⁡ w ∑ i = 1 m ( y ( i ) − w ⊤ x ( i ) ) 2 w \max_w \ln p(y \mid X, w) \quad \Longleftrightarrow \quad \min_w \sum_{i=1}^m (y^{(i)} - w^\top x^{(i)})^2w wmaxlnp(y∣X,w)⟺wmini=1∑m(y(i)−w⊤x(i))2w

注意 1 / ( 2 σ 2 ) 1/(2\sigma^2) 1/(2σ2) 只是常数,不影响最优 w w w

得出结论:
OLS 最小平方误差 ≡ MLE (线性回归 + 高斯噪声) \boxed{ \text{OLS 最小平方误差 } \equiv \text{MLE (线性回归 + 高斯噪声)} } OLS 最小平方误差 ≡MLE (线性回归 + 高斯噪声)

换句话说:最小二乘法OLS在高斯噪声假设下是最大似然估计MLE的一个特例

相关推荐
AI指北3 小时前
AI速递 | 黄仁勋CES2026演讲:物理AI的“ChatGPT时刻”即将到来!
人工智能
梦梦代码精4 小时前
一个让 AI 应用“快速上线+私有部署+商业变现”的开源方案
人工智能·开源
webkubor4 小时前
🧠 2025:AI 写代码越来越强,但我的项目返工却更多了
前端·机器学习·ai编程
柠檬07114 小时前
opencv mat 统计小于0的个数
人工智能·opencv·计算机视觉
数据猿4 小时前
【金猿CIO展】上海纽约大学信息技术部高级主任常潘:大数据铸基,AI赋能,从数字化校园向智慧有机体的十年跃迁
大数据·人工智能
大猪宝宝学AI4 小时前
【AI Infra】SonicMoE论文笔记
论文阅读·人工智能·性能优化
sww_10264 小时前
Spring-AI和LangChain4j区别
java·人工智能·spring
Coovally AI模型快速验证4 小时前
超越Sora的开源思路:如何用预训练组件高效训练你的视频扩散模型?(附训练代码)
人工智能·算法·yolo·计算机视觉·音视频·无人机
GitCode官方4 小时前
参会预告 | AtomGit 邀您共赴 TritonNext 2026 技术大会,解锁 AI 系统与编译生态新机遇
人工智能·开源·atomgit
MobiusStack4 小时前
Cursor团队最新文章解读丨动态上下文发现,重新定义AI记忆
人工智能