最小二乘法简介

最小二乘法简介

1、背景描述

在工程应用中,我们通常会用一组观测数据去估计模型的参数,模型是我们根据经验知识预先给定的。例如,我们有一组观测数据 ( x i , y i ) (x_i,y_i) (xi,yi),通过简单分析,我们猜测y与x之间存在线性关系,那么我们的模型可以给定为:
y = k x + b y=kx+b y=kx+b

该模型只有两个参数,理论上,我们只需要通过两组观测值建立二元一次方程组即可求解。类似的,如果模型有n个参数,我们只需要n组观测值即可求解。换句话说,这种情况下,模型的参数是唯一确定解

但是,在实际应用中,由于我们的观测会存在误差(偶然误差、系统误差等),所以我们总会做更多观测。例如,在上述例子中,尽管只有两个参数,但是我们可能会观测n组数据: ( x 0 , y 0 ) 、 ( x 1 , y 1 ) 、 . . . 、 ( x n − 1 , y n − 1 ) (x_0,y_0)、(x_1,y_1)、...、(x_{n-1},y_{n-1}) (x0,y0)、(x1,y1)、...、(xn−1,yn−1),这会导致我们无法找到一条直线经过所有的点,也就是说,方程无确定解

于是,这就是我们要解决的问题:虽然没有确定解,但是我们能不能求出近似解,使得模型能在各个观测点上达到"最佳"拟合

那么"最佳"的准则是什么?可以是所有观测点到直线的距离和最小,也可以是所有观测点到直线预测点(真实值-理论值)的绝对值和最小,还可以是所有观测点到直线预测点(真实值-理论值)的平方和最小

2、最小二乘法

2.1、最小二乘准则

19世纪初(1806年),法国科学家勒让德发明了"最小二乘法"。勒让德认为,让误差(真实值-理论值)的平方和最小估计出来的模型是最接近真实情形的。换句话说,勒让德认为最佳的拟合准则是使 y i y_i yi与 y = f ( x i ) y=f(x_i) y=f(xi)的距离的平方和最小:
L = ∑ i = 1 m ( y i − f ( x i ) ) 2 L=\sum_{i=1}^m(y_i-f(x_i))^2 L=i=1∑m(yi−f(xi))2

这个准则也被称为最小二乘准则。这个目标函数取得最小值时的函数参数,就是最小二乘法的思想,所谓"二乘"就是平方的意思

勒让德在原文中提到:使误差平方和达到最小,在各方程的误差之间建立了一种平衡,从而防止了某一极端误差取得支配地位,而这有助于揭示系统的更接近真实的状态

至于为什么最佳准则就是误差平方而不是其它的,勒让德当时并没有给出解释,直到后来高斯建立了正态误差分析理论才成功回答了该问题

1829年,高斯建立了一套误差分析理论,从而证明了确实是使误差(真实值-理论值)平方和最小的情况下系统是最优的

误差分析理论其实说到底就一个结论:观察值的误差服从标准正态分布,即 ϵ ∈ N ( 0 , 1 ) ϵ∈N(0,1) ϵ∈N(0,1)

关于正态分布的介绍见本文第4节

2.2、最小二乘法

最小二乘法就是一个数学公式,在数学上称为曲线拟合,不仅包括线性回归方程,还包括矩阵的最小二乘法

最小二乘法是解决曲线拟合问题最常用的方法。令
f ( x ) = a 1 φ 1 ( x ) + a 2 φ 2 ( x ) + . . . + a m φ m ( x ) f(x)=a_1\varphi_1(x)+a_2\varphi_2(x)+...+a_m\varphi_m(x) f(x)=a1φ1(x)+a2φ2(x)+...+amφm(x)

其中, φ m ( x ) \varphi_m(x) φm(x)是事先选定的一组线性无关的函数, a m a_m am是待定系数,拟合准则是使 y i y_i yi与 f ( x i ) f(x_i) f(xi)的距离 δ i \delta_i δi的平方和最小,称为最小二乘准则

百度百科词条给出的基本原理如下:

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和最小

最小二乘法本质上是一种工具。它是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具

3、最小二乘法与线性回归

3.1、最小二乘法与线性回归

对于勒让德给定的最佳拟合准则,我们可以看到,最小二乘法其实就是用来做函数拟合的一种思想。至于如何求解具体的参数(特征)那就是另外一个问题了

最小二乘法的本质是一种数学思想,它可以拟合任意函数。而线性回归只是其中一个比较简单且常用的函数,所以讲最小二乘法基本都会以线性回归为例

线性回归因为比较简单,可以直接推导出解析解,而且许多非线性的问题也可以转化为线性问题来解决,所以得到了广泛的应用

线性回归简介见文章:传送门

3.2、最小二乘法与最大似然估计

下面介绍最小二乘法的原理及推导,首先给出一个概念:

最大似然估计:最大化给定样本集发生的概率,即就是极大化似然函数(Likelihood Function),而似然函数就是样本的联合概率。由于我们通常都会假设样本是相互独立的,因此联合概率就等于每个样本发生的概率乘积

假设我们有m组观测数据 ( x 1 , y 1 ) , . . . , ( x m , y m ) (x_1,y_1),...,(x_m,y_m) (x1,y1),...,(xm,ym),我们猜测其关系符合:
y = k x + b y=kx+b y=kx+b

假设真实值与预测值之间的误差为:
ε i = y i − y = y i − f ( x i ) \varepsilon_i=y_i-y=y_i-f(x_i) εi=yi−y=yi−f(xi)

根据高斯的误差分析理论,观测值的误差服从标准正态分布(见文末),即给定一个 x i x_i xi,模型输出真实值 y i y_i yi的概率为:
p ( y i ∣ x i ) = 1 2 π e − ε i 2 2 p(y_i|x_i)=\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}} p(yi∣xi)=2π 1e−2εi2

则根据最大似然估计(似然函数)有:
L ( ω ) = ∏ i = 1 m p ( y i ∣ x i ) = ∏ i = 1 m 1 2 π e − ε i 2 2 L(\omega)=\prod_{i=1}^mp(y_i|x_i)=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}} L(ω)=i=1∏mp(yi∣xi)=i=1∏m2π 1e−2εi2

两边取对数得:
J ( ω ) = l n ( L ( ω ) ) = ∑ i = 1 m l n ( 1 2 π e − ε i 2 2 ) = ∑ i = 1 m l n 1 2 π − 1 2 ∑ i = 1 m ε i 2 J(\omega)=ln(L(\omega)) = \sum_{i=1}^mln(\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}}) = \sum_{i=1}^mln\frac{1}{\sqrt{2\pi}}-\frac{1}{2}\sum_{i=1}^m\varepsilon_i^2 J(ω)=ln(L(ω))=i=1∑mln(2π 1e−2εi2)=i=1∑mln2π 1−21i=1∑mεi2

去掉无关的常数项得:
J ( ω ) = − 1 2 ∑ i = 1 m ε i 2 = − 1 2 ∑ i = 1 m ( y i − f ( x i ) ) 2 J(\omega)=-\frac{1}{2}\sum_{i=1}^m\varepsilon_i^2=-\frac{1}{2}\sum_{i=1}^m(y_i-f(x_i))^2 J(ω)=−21i=1∑mεi2=−21i=1∑m(yi−f(xi))2

要使 L ( ω ) L(\omega) L(ω)(概率)最大,即 J ( ω ) J(\omega) J(ω)最大,则只需要使其中的多项式(如下)结果最小即可:
∑ i = 1 m ( y i − f ( x i ) ) 2 \sum_{i=1}^m(y_i-f(x_i))^2 i=1∑m(yi−f(xi))2

上述结果表明:最大似然估计(似然函数)等价于最小二乘法,这也表明了勒让德的以误差平方和作为最佳拟合准则的合理性

因此我们可以说,最小二乘法其实就是误差满足正态(高斯)分布的极大似然估计,最小化误差平方本质上等同于在误差服从正态(高斯)分布的假设下的最大似然估计

4、正态分布(高斯分布)

正态分布(Normal Distribution),也称高斯分布(Gaussian Distribution),其曲线呈钟型,两头低,中间高,左右对称,因此也被称为钟形曲线

定义:若连续型随机变量x有如下形式的密度函数:

则称x服从参数为 ( μ , σ 2 ) (\mu,\sigma^2) (μ,σ2)的正态分布(Normal Distribution),记为 X − N ( μ , σ 2 ) X-N(\mu,\sigma^2) X−N(μ,σ2)

性质

  • 关于 x = μ x=μ x=μ 对称,在 x = μ x=μ x=μ 处达到最大值 1 2 π σ \frac{1}{\sqrt{2\pi}\sigma} 2π σ1,越远离 μ μ μ,密度函数值越小
  • 数学期望(均值)为 μ μ μ,标准差为 σ \sigma σ,方差为 σ 2 \sigma^2 σ2

标准正态分布 :又称 μ μ μ分布,是以0为均值(数学期望)、以1为标准差的正态分布,记为 X − N ( 0 , 1 ) X-N(0,1) X−N(0,1),密度函数:

参考文章:
https://blog.csdn.net/MoreAction_/article/details/106443383
https://blog.csdn.net/MoreAction_/article/details/121591653
https://blog.csdn.net/qq_46092061/article/details/119136137

相关推荐
lishaoan771 天前
使用tensorflow的线性回归的例子(十二)
人工智能·tensorflow·线性回归·戴明回归
路溪非溪3 天前
机器学习之线性回归
人工智能·机器学习·线性回归
lishaoan774 天前
使用tensorflow的线性回归的例子(七)
人工智能·tensorflow·线性回归
lishaoan775 天前
使用tensorflow的线性回归的例子(四)
人工智能·tensorflow·线性回归
lishaoan775 天前
使用tensorflow的线性回归的例子(九)
tensorflow·线性回归·neo4j
又南又难17 天前
【机器学习1】线性回归与逻辑回归
机器学习·逻辑回归·线性回归
大饼酥25 天前
吴恩达机器学习笔记(2)—单变量线性回归
机器学习·线性回归·梯度下降·吴恩达·代价函数
点云SLAM25 天前
SLAM文献之-LOAM: Lidar Odometry and Mapping in Real-time
最小二乘法·loam·激光slam·点云特征分类·激光里程计·定位退化理论·icp配准算法
Allen Bright1 个月前
【机器学习-线性回归-7】中心极限定理在机器学习线性回归中的重要性
人工智能·机器学习·线性回归
Gyoku Mint1 个月前
机器学习×第七卷:正则化与过拟合——她开始学会收敛,不再贴得太满
人工智能·python·算法·chatgpt·线性回归·ai编程