最小二乘法简介

1、背景描述

在工程应用中，我们通常会用一组观测数据去估计模型的参数，模型是我们根据经验知识预先给定的。例如，我们有一组观测数据 ( x i , y i ) (x_i,y_i) (xi,yi)，通过简单分析，我们猜测y与x之间存在线性关系，那么我们的模型可以给定为：
y = k x + b y=kx+b y=kx+b

该模型只有两个参数，理论上，我们只需要通过两组观测值建立二元一次方程组即可求解。类似的，如果模型有n个参数，我们只需要n组观测值即可求解。换句话说，这种情况下，模型的参数是唯一确定解

但是，在实际应用中，由于我们的观测会存在误差（偶然误差、系统误差等），所以我们总会做更多观测。例如，在上述例子中，尽管只有两个参数，但是我们可能会观测n组数据： ( x 0 , y 0 ) 、 ( x 1 , y 1 ) 、 . . . 、 ( x n − 1 , y n − 1 ) (x_0,y_0)、(x_1,y_1)、...、(x_{n-1},y_{n-1}) (x0,y0)、(x1,y1)、...、(xn−1,yn−1)，这会导致我们无法找到一条直线经过所有的点，也就是说，方程无确定解

于是，这就是我们要解决的问题：虽然没有确定解，但是我们能不能求出近似解，使得模型能在各个观测点上达到"最佳"拟合

那么"最佳"的准则是什么？可以是所有观测点到直线的距离和最小，也可以是所有观测点到直线预测点（真实值-理论值）的绝对值和最小，还可以是所有观测点到直线预测点（真实值-理论值）的平方和最小

2、最小二乘法

2.1、最小二乘准则

19世纪初（1806年），法国科学家勒让德发明了"最小二乘法"。勒让德认为，让误差（真实值-理论值）的平方和最小估计出来的模型是最接近真实情形的。换句话说，勒让德认为最佳的拟合准则是使 y i y_i yi与 y = f ( x i ) y=f(x_i) y=f(xi)的距离的平方和最小：
L = ∑ i = 1 m ( y i − f ( x i ) ) 2 L=\sum_{i=1}^m(y_i-f(x_i))^2 L=i=1∑m(yi−f(xi))2

这个准则也被称为最小二乘准则。这个目标函数取得最小值时的函数参数，就是最小二乘法的思想，所谓"二乘"就是平方的意思

勒让德在原文中提到：使误差平方和达到最小，在各方程的误差之间建立了一种平衡，从而防止了某一极端误差取得支配地位，而这有助于揭示系统的更接近真实的状态

至于为什么最佳准则就是误差平方而不是其它的，勒让德当时并没有给出解释，直到后来高斯建立了正态误差分析理论才成功回答了该问题

1829年，高斯建立了一套误差分析理论，从而证明了确实是使误差（真实值-理论值）平方和最小的情况下系统是最优的

误差分析理论其实说到底就一个结论：观察值的误差服从标准正态分布，即 ϵ ∈ N ( 0 , 1 ) ϵ∈N(0,1) ϵ∈N(0,1)

关于正态分布的介绍见本文第4节

2.2、最小二乘法

最小二乘法就是一个数学公式，在数学上称为曲线拟合，不仅包括线性回归方程，还包括矩阵的最小二乘法

最小二乘法是解决曲线拟合问题最常用的方法。令
f ( x ) = a 1 φ 1 ( x ) + a 2 φ 2 ( x ) + . . . + a m φ m ( x ) f(x)=a_1\varphi_1(x)+a_2\varphi_2(x)+...+a_m\varphi_m(x) f(x)=a1φ1(x)+a2φ2(x)+...+amφm(x)

其中， φ m ( x ) \varphi_m(x) φm(x)是事先选定的一组线性无关的函数， a m a_m am是待定系数，拟合准则是使 y i y_i yi与 f ( x i ) f(x_i) f(xi)的距离 δ i \delta_i δi的平方和最小，称为最小二乘准则

百度百科词条给出的基本原理如下：

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和最小

最小二乘法本质上是一种工具。它是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具

3、最小二乘法与线性回归

3.1、最小二乘法与线性回归

对于勒让德给定的最佳拟合准则，我们可以看到，最小二乘法其实就是用来做函数拟合的一种思想。至于如何求解具体的参数（特征）那就是另外一个问题了

最小二乘法的本质是一种数学思想，它可以拟合任意函数。而线性回归只是其中一个比较简单且常用的函数，所以讲最小二乘法基本都会以线性回归为例

线性回归因为比较简单，可以直接推导出解析解，而且许多非线性的问题也可以转化为线性问题来解决，所以得到了广泛的应用

线性回归简介见文章：传送门

3.2、最小二乘法与最大似然估计

下面介绍最小二乘法的原理及推导，首先给出一个概念：

最大似然估计：最大化给定样本集发生的概率，即就是极大化似然函数(Likelihood Function)，而似然函数就是样本的联合概率。由于我们通常都会假设样本是相互独立的，因此联合概率就等于每个样本发生的概率乘积

假设我们有m组观测数据 ( x 1 , y 1 ) , . . . , ( x m , y m ) (x_1,y_1),...,(x_m,y_m) (x1,y1),...,(xm,ym)，我们猜测其关系符合：
y = k x + b y=kx+b y=kx+b

假设真实值与预测值之间的误差为：
ε i = y i − y = y i − f ( x i ) \varepsilon_i=y_i-y=y_i-f(x_i) εi=yi−y=yi−f(xi)

根据高斯的误差分析理论，观测值的误差服从标准正态分布（见文末），即给定一个 x i x_i xi，模型输出真实值 y i y_i yi的概率为：
p ( y i ∣ x i ) = 1 2 π e − ε i 2 2 p(y_i|x_i)=\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}} p(yi∣xi)=2π 1e−2εi2

则根据最大似然估计（似然函数）有：
L ( ω ) = ∏ i = 1 m p ( y i ∣ x i ) = ∏ i = 1 m 1 2 π e − ε i 2 2 L(\omega)=\prod_{i=1}^mp(y_i|x_i)=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}} L(ω)=i=1∏mp(yi∣xi)=i=1∏m2π 1e−2εi2

两边取对数得：
J ( ω ) = l n ( L ( ω ) ) = ∑ i = 1 m l n ( 1 2 π e − ε i 2 2 ) = ∑ i = 1 m l n 1 2 π − 1 2 ∑ i = 1 m ε i 2 J(\omega)=ln(L(\omega)) = \sum_{i=1}^mln(\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}}) = \sum_{i=1}^mln\frac{1}{\sqrt{2\pi}}-\frac{1}{2}\sum_{i=1}^m\varepsilon_i^2 J(ω)=ln(L(ω))=i=1∑mln(2π 1e−2εi2)=i=1∑mln2π 1−21i=1∑mεi2

去掉无关的常数项得：
J ( ω ) = − 1 2 ∑ i = 1 m ε i 2 = − 1 2 ∑ i = 1 m ( y i − f ( x i ) ) 2 J(\omega)=-\frac{1}{2}\sum_{i=1}^m\varepsilon_i^2=-\frac{1}{2}\sum_{i=1}^m(y_i-f(x_i))^2 J(ω)=−21i=1∑mεi2=−21i=1∑m(yi−f(xi))2

要使 L ( ω ) L(\omega) L(ω)（概率）最大，即 J ( ω ) J(\omega) J(ω)最大，则只需要使其中的多项式（如下）结果最小即可：
∑ i = 1 m ( y i − f ( x i ) ) 2 \sum_{i=1}^m(y_i-f(x_i))^2 i=1∑m(yi−f(xi))2

上述结果表明：最大似然估计（似然函数）等价于最小二乘法，这也表明了勒让德的以误差平方和作为最佳拟合准则的合理性

因此我们可以说，最小二乘法其实就是误差满足正态（高斯）分布的极大似然估计，最小化误差平方本质上等同于在误差服从正态（高斯）分布的假设下的最大似然估计

4、正态分布（高斯分布）

正态分布（Normal Distribution），也称高斯分布（Gaussian Distribution），其曲线呈钟型，两头低，中间高，左右对称，因此也被称为钟形曲线

定义：若连续型随机变量x有如下形式的密度函数：

则称x服从参数为 ( μ , σ 2 ) (\mu,\sigma^2) (μ,σ2)的正态分布(Normal Distribution)，记为 X − N ( μ , σ 2 ) X-N(\mu,\sigma^2) X−N(μ,σ2)

性质：

关于 x = μ x=μ x=μ 对称，在 x = μ x=μ x=μ 处达到最大值 1 2 π σ \frac{1}{\sqrt{2\pi}\sigma} 2π σ1，越远离 μ μ μ，密度函数值越小
数学期望（均值）为 μ μ μ，标准差为 σ \sigma σ，方差为 σ 2 \sigma^2 σ2

标准正态分布 ：又称 μ μ μ分布，是以0为均值（数学期望）、以1为标准差的正态分布，记为 X − N ( 0 , 1 ) X-N(0,1) X−N(0,1)，密度函数：

参考文章：
https://blog.csdn.net/MoreAction_/article/details/106443383
https://blog.csdn.net/MoreAction_/article/details/121591653
https://blog.csdn.net/qq_46092061/article/details/119136137