最小二乘法

最小二乘法

普通最小二乘法

最小二乘法(Ordinary Least Squares, OLS)又叫普通最小二乘法,是一种常用的统计学方法,用于在线性回归问题中估计模型参数。它通过最小化观测值与模型预测值之间的残差平方和,来确定最优的模型参数。

在简单线性回归中,假设我们有一个自变量 x 和一个因变量 y,线性回归模型可以表示为:

y = β0 + β1 * x + ε

其中,y 是因变量,x 是自变量,β0 和 β1 是待估计的回归系数,ε 是误差项。最小二乘法的目标是找到最优的 β0 和 β1,使得观测值 y 与模型预测值之间的残差平方和最小化。

最小二乘法的求解过程如下:

  1. 计算自变量和因变量的均值:

    x̄ = (x1 + x2 + ... + xn) / n

    ȳ = (y1 + y2 + ... + yn) / n

  2. 计算样本的协方差和自变量的方差:

    Cov(x, y) = (x1 - x̄)(y1 - ȳ) + (x2 - x̄)(y2 - ȳ) + ... + (xn - x̄)(yn - ȳ)

    Var(x) = (x1 - x̄)^2 + (x2 - x̄)^2 + ... + (xn - x̄)^2

  3. 计算回归系数的估计值:

    β1 = Cov(x, y) / Var(x)

    β0 = ȳ - β1 * x̄

最终得到的 β0 和 β1 就是线性回归模型的最优估计参数,用于描述自变量和因变量之间的线性关系。通过这些参数,可以进行预测和推断分析。最小二乘法可以应用于简单线性回归问题,也可以扩展到多元线性回归问题中。

偏最小二乘法

偏最小二乘法(Partial Least Squares, PLS)是一种在多元线性回归中常用的方法,特别适用于处理自变量之间存在共线性(collinearity)或者自变量维度较高的情况。偏最小二乘法通过将自变量和因变量进行降维,同时考虑它们之间的相关性,来估计回归系数。

在偏最小二乘法中,首先对自变量矩阵和因变量向量进行主成分分析,得到一组新的主成分,这些主成分是原始变量的线性组合。然后,利用这些主成分进行回归分析,得到最优的回归系数。

偏最小二乘法的求解过程大致如下:

  1. 对自变量矩阵和因变量向量进行标准化处理。
  2. 通过主成分分析,得到自变量和因变量的一组新主成分。
  3. 对于每个主成分,计算它们与因变量之间的相关系数,并将这些相关系数作为回归系数的初始估计。
  4. 通过迭代的方式,不断调整回归系数,使得模型拟合效果最优。

偏最小二乘法的优点在于可以减少自变量的维度,降低共线性对回归系数估计的影响,同时考虑到自变量和因变量之间的相关性,因此在一些复杂的数据分析问题中具有很好的表现。

加权最小二乘法

加权最小二乘法(Weighted Least Squares, WLS)是在最小二乘法的基础上进行改进,通过对不同数据点赋予不同权重来更好地拟合数据。在普通最小二乘法中,所有数据点的残差平方和被视为同等重要,而在加权最小二乘法中,可以根据实际情况为每个数据点赋予适当的权重。

在加权最小二乘法中,每个数据点的残差会乘以一个对应的权重,然后最小化加权残差的平方和来估计模型参数。通常情况下,权重是根据数据点的方差或其他可靠度指标来确定的,较可靠的数据点会被赋予较高的权重,而较不可靠的数据点会被赋予较低的权重。

加权最小二乘法的求解过程包括以下步骤:

  1. 确定每个数据点的权重。
  2. 对于每个数据点,计算其残差(观测值与模型预测值之差)。
  3. 将每个残差乘以对应的权重。
  4. 最小化加权残差的平方和,得到最优的模型参数估计。

加权最小二乘法的优势在于能够更好地处理数据中的异方差性(heteroscedasticity)或者异常值(outliers),提高模型的拟合效果和稳健性。通过合理设置权重,可以有效地降低异常值对模型参数估计的影响,从而得到更可靠的结果。

加权最小二乘法在实际应用中具有广泛的用途,特别是在需要考虑不同数据点贡献度不同的情况下,能够提供更准确的回归分析结果。

相关推荐
金融小师妹3 小时前
应用BERT-GCN跨模态情绪分析:贸易缓和与金价波动的AI归因
大数据·人工智能·算法
广州智造4 小时前
OptiStruct实例:3D实体转子分析
数据库·人工智能·算法·机器学习·数学建模·3d·性能优化
Trent19856 小时前
影楼精修-肤色统一算法解析
图像处理·人工智能·算法·计算机视觉
feifeigo1236 小时前
高光谱遥感图像处理之数据分类的fcm算法
图像处理·算法·分类
北上ing7 小时前
算法练习:19.JZ29 顺时针打印矩阵
算法·leetcode·矩阵
.格子衫.8 小时前
真题卷001——算法备赛
算法
XiaoyaoCarter8 小时前
每日一道leetcode
c++·算法·leetcode·职场和发展·二分查找·深度优先·前缀树
Hygge-star8 小时前
【数据结构】二分查找5.12
java·数据结构·程序人生·算法·学习方法
ayiya_Oese8 小时前
[模型部署] 3. 性能优化
人工智能·python·深度学习·神经网络·机器学习·性能优化
仙人掌_lz8 小时前
机器学习与人工智能:NLP分词与文本相似度分析
人工智能·机器学习·自然语言处理