本文系统梳理了直线拟合的三种常见方法:常规最小二乘(OLS)、正交回归(Total Least Squares,TLS,又称最小化垂直距离)以及具备抗离群点能力的 RANSAC。我们从线性代数的投影原理出发,推导出闭式解,并给出工程实现建议及示例代码。希望通过本文,读者能全面理解直线拟合的数学本质与实际应用要点。
一 、常规最小二乘法 (OLS)拟合直线
1 分析方法
已知数据点为

,欲拟合直线

,则有最小化:

。

使用矩阵表示,令

,则有:

,
X, Y已知,要使E最小化,则向量B求导等于零:

,整理得:

。
2 线性代数方法
在分析方法中,使用最小误差法拟合直线。这里还可以使用线性代数中正交原理得到相同结果。
1)线到线上投影

如上图所示,b 到 a 的投影为 p = xa,由于 e 与 a 垂直,有 (b - xa)a = 0,未知数为 x。
求解方程得

,

。
带入 x 值,计算出 b 到 a 的投影为

,投影矩阵为

,
根据投影矩阵,b 到 a 的投影可重写为

。给定一个向量,可以求解出投影到该向量的投影矩阵,任意向量到给定向量的投影即为 Pb 。
2)线到面上投影

如上图所示,超平面为矩阵 A 的列空间构成(为了可视化,上图限制为二维平面,但结论对 N 维平面均适用),b 到平面 A 的投影为 p ,p 可表示为

。
类似线到线投影,e = b - p,e 垂直于平面 A,有:

,

,

。
带入 x 计算出 b 到平面 A 的投影为

,投影矩阵为

。
根据投影矩阵, b 到平面 A 的投影可重写为

。给定一个矩阵,可以求解出投影到该矩阵列空间构成的超平面上的投影矩阵,任意向量到给定矩阵列空间构成的超平面上的投影为 Pb。
3)直线拟合
设直线方程为 y = kx + b,对于任意点 (x,y),带入直线方程得:

,当向量

落在矩阵

列空间构成得超平面外时,方程组无解。这也正是最小二乘法需要解决得问题。
将向量

投影到矩阵

列空间构成的超平面,根据线到面上投影,可以寻找投影向量 p,改写方程为

,该方程组有解。
使用

作为原方程的最佳近似解,带入

,解得

。
对于方程组 Ax=b,当 b 不在矩阵 A 的列空间时,无法求得 x 精确解,但可以求得 x 的近似解,使得

。
实际运算中,并不需要特意求解 P,只需对方程组做如下变换即可:

。
二、最小化垂直距离(Total Least Squares / 正交回归)
常规最小二乘法有如下问题:
1)数据点旋转后,求解得直线是变化的;
2)垂直直线无法求解;
通过修改 E 表达式,可以克服以上问题,如下图:

假设

,图中直线方程

已经归一化,任意点

到直线的距离为

,则有最小化:

。
上式中,a,b,d 均为未知量,首先对求偏导,有:

,整理得:

,
将d代入E中得:

。
使用矩阵表示,令

,有:

,
对X求导,可得:

,求解二元一次方程组

可计算处拟合直线。
三 、RANSAC:抗离群点的鲁棒拟合

如上图所示,少数离群点可使拟合出现较大偏差。因此,应该使用一些逻辑来降低离群点干扰,具体措施如下:
1)随机选取一个子集,使用最小二乘法拟合直线;
2)在规定得误差范围内计算合群点;
3)多次选取不同的子集,继续1)2)操作;
4)选择合群点最多模型作为拟合初步结果,使用该模型下所有合群点重新拟合直线,得到最终结果。


四、方法比较
特性 | OLS(纵向残差) | TLS/正交回归(垂直残差) | RANSAC |
---|---|---|---|
旋转不变性 | 否 | 是 | 是 |
垂直直线可处理性 | 差 | 好 | 好 |
抗离群能力 | 弱 | 弱 | 强 |
计算速度 | 快 | 快 | 较慢(取决于迭代次数) |
闭式解 | 有 | 有 | 否(最终用 OLS/TLS) |
五、实现示例
5.1 Python / NumPy
import numpy as np
def fit_line_ols(x, y):
X = np.column_stack([x, np.ones_like(x)])
beta, *_ = np.linalg.lstsq(X, y, rcond=None)
return beta[0], beta[1]
def fit_line_tls(x, y):
x, y = np.asarray(x), np.asarray(y)
xm, ym = x.mean(), y.mean()
Xc = np.column_stack([x - xm, y - ym])
S = Xc.T @ Xc
w, v = np.linalg.eigh(S)
a, b = v[:, 0]
d = -a * xm - b * ym
return a, b, d
5.2 C++ / Eigen
#include <Eigen/Dense>
#include <vector>
// OLS: y = kx + b
std::pair<double,double> fitLineOLS(const std::vector<double>& x,
const std::vector<double>& y){
using namespace Eigen;
int n = x.size();
MatrixXd X(n,2);
VectorXd Y(n);
for(int i=0;i<n;++i){ X(i,0)=x[i]; X(i,1)=1.0; Y(i)=y[i]; }
VectorXd beta = X.colPivHouseholderQr().solve(Y);
return {beta(0), beta(1)};
}
// TLS: ax + by + d = 0, a^2 + b^2 = 1
struct LineTLS { double a,b,d; };
LineTLS fitLineTLS(const std::vector<double>& x,
const std::vector<double>& y){
using namespace Eigen;
int n = x.size();
double xm=0, ym=0; for(int i=0;i<n;++i){ xm+=x[i]; ym+=y[i]; }
xm/=n; ym/=n;
Matrix2d S = Matrix2d::Zero();
for(int i=0;i<n;++i){
double dx=x[i]-xm, dy=y[i]-ym;
S(0,0)+=dx*dx; S(0,1)+=dx*dy;
S(1,0)+=dx*dy; S(1,1)+=dy*dy;
}
SelfAdjointEigenSolver<Matrix2d> es(S);
Vector2d nvec = es.eigenvectors().col(0);
double a=nvec(0), b=nvec(1);
double d = -a*xm - b*ym;
return {a,b,d};
}
六、总结
-
OLS:最小化纵向残差,本质是向量投影;
-
TLS:最小化垂直距离,可用 PCA 闭式解;
-
RANSAC:在存在离群点时,结合 OLS/TLS 做鲁棒拟合。
实际应用中,推荐 RANSAC + TLS 组合,以获得更稳健的直线拟合结果。