最小二乘法

最小二乘法

普通最小二乘法

最小二乘法(Ordinary Least Squares, OLS)又叫普通最小二乘法,是一种常用的统计学方法,用于在线性回归问题中估计模型参数。它通过最小化观测值与模型预测值之间的残差平方和,来确定最优的模型参数。

在简单线性回归中,假设我们有一个自变量 x 和一个因变量 y,线性回归模型可以表示为:

y = β0 + β1 * x + ε

其中,y 是因变量,x 是自变量,β0 和 β1 是待估计的回归系数,ε 是误差项。最小二乘法的目标是找到最优的 β0 和 β1,使得观测值 y 与模型预测值之间的残差平方和最小化。

最小二乘法的求解过程如下:

  1. 计算自变量和因变量的均值:

    x̄ = (x1 + x2 + ... + xn) / n

    ȳ = (y1 + y2 + ... + yn) / n

  2. 计算样本的协方差和自变量的方差:

    Cov(x, y) = (x1 - x̄)(y1 - ȳ) + (x2 - x̄)(y2 - ȳ) + ... + (xn - x̄)(yn - ȳ)

    Var(x) = (x1 - x̄)^2 + (x2 - x̄)^2 + ... + (xn - x̄)^2

  3. 计算回归系数的估计值:

    β1 = Cov(x, y) / Var(x)

    β0 = ȳ - β1 * x̄

最终得到的 β0 和 β1 就是线性回归模型的最优估计参数,用于描述自变量和因变量之间的线性关系。通过这些参数,可以进行预测和推断分析。最小二乘法可以应用于简单线性回归问题,也可以扩展到多元线性回归问题中。

偏最小二乘法

偏最小二乘法(Partial Least Squares, PLS)是一种在多元线性回归中常用的方法,特别适用于处理自变量之间存在共线性(collinearity)或者自变量维度较高的情况。偏最小二乘法通过将自变量和因变量进行降维,同时考虑它们之间的相关性,来估计回归系数。

在偏最小二乘法中,首先对自变量矩阵和因变量向量进行主成分分析,得到一组新的主成分,这些主成分是原始变量的线性组合。然后,利用这些主成分进行回归分析,得到最优的回归系数。

偏最小二乘法的求解过程大致如下:

  1. 对自变量矩阵和因变量向量进行标准化处理。
  2. 通过主成分分析,得到自变量和因变量的一组新主成分。
  3. 对于每个主成分,计算它们与因变量之间的相关系数,并将这些相关系数作为回归系数的初始估计。
  4. 通过迭代的方式,不断调整回归系数,使得模型拟合效果最优。

偏最小二乘法的优点在于可以减少自变量的维度,降低共线性对回归系数估计的影响,同时考虑到自变量和因变量之间的相关性,因此在一些复杂的数据分析问题中具有很好的表现。

加权最小二乘法

加权最小二乘法(Weighted Least Squares, WLS)是在最小二乘法的基础上进行改进,通过对不同数据点赋予不同权重来更好地拟合数据。在普通最小二乘法中,所有数据点的残差平方和被视为同等重要,而在加权最小二乘法中,可以根据实际情况为每个数据点赋予适当的权重。

在加权最小二乘法中,每个数据点的残差会乘以一个对应的权重,然后最小化加权残差的平方和来估计模型参数。通常情况下,权重是根据数据点的方差或其他可靠度指标来确定的,较可靠的数据点会被赋予较高的权重,而较不可靠的数据点会被赋予较低的权重。

加权最小二乘法的求解过程包括以下步骤:

  1. 确定每个数据点的权重。
  2. 对于每个数据点,计算其残差(观测值与模型预测值之差)。
  3. 将每个残差乘以对应的权重。
  4. 最小化加权残差的平方和,得到最优的模型参数估计。

加权最小二乘法的优势在于能够更好地处理数据中的异方差性(heteroscedasticity)或者异常值(outliers),提高模型的拟合效果和稳健性。通过合理设置权重,可以有效地降低异常值对模型参数估计的影响,从而得到更可靠的结果。

加权最小二乘法在实际应用中具有广泛的用途,特别是在需要考虑不同数据点贡献度不同的情况下,能够提供更准确的回归分析结果。

相关推荐
NAGNIP9 小时前
大模型框架性能优化策略:延迟、吞吐量与成本权衡
算法
美团技术团队10 小时前
LongCat-Flash:如何使用 SGLang 部署美团 Agentic 模型
人工智能·算法
AI小云14 小时前
【机器学习与实战】回归分析与预测:线性回归-03-损失函数与梯度下降
机器学习
Fanxt_Ja15 小时前
【LeetCode】算法详解#15 ---环形链表II
数据结构·算法·leetcode·链表
侃侃_天下15 小时前
最终的信号类
开发语言·c++·算法
茉莉玫瑰花茶15 小时前
算法 --- 字符串
算法
博笙困了15 小时前
AcWing学习——差分
c++·算法
NAGNIP15 小时前
认识 Unsloth 框架:大模型高效微调的利器
算法
NAGNIP15 小时前
大模型微调框架之LLaMA Factory
算法
echoarts15 小时前
Rayon Rust中的数据并行库入门教程
开发语言·其他·算法·rust