最小二乘法

最小二乘法

普通最小二乘法

最小二乘法(Ordinary Least Squares, OLS)又叫普通最小二乘法,是一种常用的统计学方法,用于在线性回归问题中估计模型参数。它通过最小化观测值与模型预测值之间的残差平方和,来确定最优的模型参数。

在简单线性回归中,假设我们有一个自变量 x 和一个因变量 y,线性回归模型可以表示为:

y = β0 + β1 * x + ε

其中,y 是因变量,x 是自变量,β0 和 β1 是待估计的回归系数,ε 是误差项。最小二乘法的目标是找到最优的 β0 和 β1,使得观测值 y 与模型预测值之间的残差平方和最小化。

最小二乘法的求解过程如下:

  1. 计算自变量和因变量的均值:

    x̄ = (x1 + x2 + ... + xn) / n

    ȳ = (y1 + y2 + ... + yn) / n

  2. 计算样本的协方差和自变量的方差:

    Cov(x, y) = (x1 - x̄)(y1 - ȳ) + (x2 - x̄)(y2 - ȳ) + ... + (xn - x̄)(yn - ȳ)

    Var(x) = (x1 - x̄)^2 + (x2 - x̄)^2 + ... + (xn - x̄)^2

  3. 计算回归系数的估计值:

    β1 = Cov(x, y) / Var(x)

    β0 = ȳ - β1 * x̄

最终得到的 β0 和 β1 就是线性回归模型的最优估计参数,用于描述自变量和因变量之间的线性关系。通过这些参数,可以进行预测和推断分析。最小二乘法可以应用于简单线性回归问题,也可以扩展到多元线性回归问题中。

偏最小二乘法

偏最小二乘法(Partial Least Squares, PLS)是一种在多元线性回归中常用的方法,特别适用于处理自变量之间存在共线性(collinearity)或者自变量维度较高的情况。偏最小二乘法通过将自变量和因变量进行降维,同时考虑它们之间的相关性,来估计回归系数。

在偏最小二乘法中,首先对自变量矩阵和因变量向量进行主成分分析,得到一组新的主成分,这些主成分是原始变量的线性组合。然后,利用这些主成分进行回归分析,得到最优的回归系数。

偏最小二乘法的求解过程大致如下:

  1. 对自变量矩阵和因变量向量进行标准化处理。
  2. 通过主成分分析,得到自变量和因变量的一组新主成分。
  3. 对于每个主成分,计算它们与因变量之间的相关系数,并将这些相关系数作为回归系数的初始估计。
  4. 通过迭代的方式,不断调整回归系数,使得模型拟合效果最优。

偏最小二乘法的优点在于可以减少自变量的维度,降低共线性对回归系数估计的影响,同时考虑到自变量和因变量之间的相关性,因此在一些复杂的数据分析问题中具有很好的表现。

加权最小二乘法

加权最小二乘法(Weighted Least Squares, WLS)是在最小二乘法的基础上进行改进,通过对不同数据点赋予不同权重来更好地拟合数据。在普通最小二乘法中,所有数据点的残差平方和被视为同等重要,而在加权最小二乘法中,可以根据实际情况为每个数据点赋予适当的权重。

在加权最小二乘法中,每个数据点的残差会乘以一个对应的权重,然后最小化加权残差的平方和来估计模型参数。通常情况下,权重是根据数据点的方差或其他可靠度指标来确定的,较可靠的数据点会被赋予较高的权重,而较不可靠的数据点会被赋予较低的权重。

加权最小二乘法的求解过程包括以下步骤:

  1. 确定每个数据点的权重。
  2. 对于每个数据点,计算其残差(观测值与模型预测值之差)。
  3. 将每个残差乘以对应的权重。
  4. 最小化加权残差的平方和,得到最优的模型参数估计。

加权最小二乘法的优势在于能够更好地处理数据中的异方差性(heteroscedasticity)或者异常值(outliers),提高模型的拟合效果和稳健性。通过合理设置权重,可以有效地降低异常值对模型参数估计的影响,从而得到更可靠的结果。

加权最小二乘法在实际应用中具有广泛的用途,特别是在需要考虑不同数据点贡献度不同的情况下,能够提供更准确的回归分析结果。

相关推荐
水木流年追梦17 分钟前
大模型入门-大模型优化方法13- MTP 多 token 输出、DCA 双块注意力
人工智能·分布式·算法·正则表达式·prompt
数据皮皮侠23 分钟前
全国消协智慧 315 平台投诉信息数据库
大数据·人工智能·算法·百度·制造
8Qi831 分钟前
LeetCode 115 & 392:不同子序列 / 判断子序列
算法·leetcode·职场和发展·动态规划
小蒋学算法1 小时前
算法-乘法表中第K小的数-二分
数据结构·算法
智者知已应修善业1 小时前
【51单片机8个LED,已经使用了D1D2,怎么样在不动D1D2的前提下实现D6~D8的流水灯】2024-1-19
c++·经验分享·笔记·算法·51单片机
Evand J1 小时前
【MATLAB例程】自适应渐消扩展卡尔曼滤波(AFEKF)三维雷达目标跟踪|效果已调优,附下载链接和运行结果,代码直接运行即可
开发语言·算法·matlab·目标跟踪·卡尔曼滤波·自适应滤波·代码定制
keykey6.1 小时前
迁移学习实战:用预训练模型做图像分类
开发语言·人工智能·深度学习·机器学习
数智工坊1 小时前
周志华《Machine Learning》学习笔记--第十四章--概率图模型
笔记·学习·机器学习
DXM05211 小时前
第8期| 传统机器学习遥感解译:SVM & 随机森林分类全流程实操
人工智能·python·随机森林·机器学习·支持向量机·arcgis·自然语言处理
插件开发2 小时前
矢量路径运算如何选GPU技术?——适用算法对比及OpenGL/Direct3D/CUDA选型指南
算法·3d