岭回归(Ridge Regression),也称为L2正则化回归

岭回归(Ridge Regression) ,也称为L2正则化回归蒂霍诺夫正则化(Tikhonov Regularization),是一种用于分析多重共线性数据(即自变量之间高度相关)的线性回归分析方法。

简单来说,它是标准线性回归(OLS)的一种改进版本,旨在解决标准线性回归在特定条件下"不稳定"或"过拟合"的问题。

以下是关于岭回归的核心要点解析:

1. 核心问题:为什么要用岭回归?

在标准的线性回归中,我们的目标是最小化预测值与真实值之间的误差(通常使用均方误差,MSE)。其数学解通常涉及计算矩阵 XTXX^TXXTX 的逆矩阵 (XTX)−1(X^TX)^{-1}(XTX)−1。

然而,当出现以下情况时,标准线性回归会失效或表现不佳:

  • 多重共线性(Multicollinearity):特征(自变量)之间存在高度相关性。
  • 特征数量多于样本数量 :矩阵 XTXX^TXXTX 可能不可逆(奇异矩阵),导致无法求解。
  • 过拟合(Overfitting):模型为了拟合训练数据中的噪声,导致系数(weights)变得极大且不稳定。

2. 岭回归的解决方案:L2 正则化

岭回归通过在损失函数中加入一个**惩罚项(Penalty Term)**来解决上述问题。

  • 标准线性回归的损失函数
    J(β)=∑i=1n(yi−y^i)2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 J(β)=i=1∑n(yi−y^i)2

    (即:残差平方和)

  • 岭回归的损失函数
    J(β)=∑i=1n(yi−y^i)2+λ∑j=1pβj2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}i)^2 + \lambda \sum{j=1}^{p} \beta_j^2 J(β)=i=1∑n(yi−y^i)2+λj=1∑pβj2

    • 第一部分 ∑(yi−y^i)2\sum (y_i - \hat{y}_i)^2∑(yi−y^i)2:依然是最小化预测误差。
    • 第二部分 λ∑βj2\lambda \sum \beta_j^2λ∑βj2:L2 正则化项
      • βj\beta_jβj 是回归系数。
      • λ\lambdaλ (Lambda) 是正则化参数,控制惩罚的力度。

3. 关键机制:系数收缩(Shrinkage)

岭回归的核心思想是限制系数的大小

  • 通过最小化"误差 + 系数平方和",算法会倾向于选择较小的系数值。
  • 如果 λ=0\lambda = 0λ=0,岭回归退化为标准线性回归。
  • 如果 λ\lambdaλ 很大,系数会被强烈压缩,接近于 0(但通常不会正好等于 0,这是它与 L1 正则化/Lasso 的主要区别)。

4. 岭回归的主要优点

  1. 提高数值稳定性 :在公式 (XTX+λI)−1(X^TX + \lambda I)^{-1}(XTX+λI)−1 中,加入 λI\lambda IλI(其中 III 是单位矩阵,λ>0\lambda > 0λ>0)可以确保矩阵始终可逆且条件数良好。这就是你在前文提到的 ERQ 算法中使用岭回归的原因------它确保了矩阵求逆的计算稳定性。
  2. 处理多重共线性:当特征高度相关时,岭回归能提供比标准回归更稳定的系数估计。
  3. 防止过拟合:通过惩罚大系数,降低了模型的复杂度,提高了模型在未知数据上的泛化能力。

5. 岭回归 vs. Lasso (L1 正则化)

特性 岭回归 (Ridge, L2) Lasso (L1)
惩罚项 系数的平方和 (∑β2\sum \beta^2∑β2) 系数的绝对值之和 ($\sum
系数变化 系数缩小,趋向于 0 但不等于 0 可能将某些系数直接压缩为 0
特征选择 保留所有特征,只是权重变小 可以进行特征选择(稀疏解)
适用场景 所有特征都重要,或存在多重共线性 希望剔除无关特征,简化模型

6. 结合(ERQ 论文)

Zhang, K., et al. "ERQ: Error Reduction for Post-Training Quantization of Vision Transformers." ICML 2024 .

作者使用岭回归的目的是:

  1. 计算稳定性 :公式中的 λ1I\lambda_1 Iλ1I 确保矩阵 ExˉxˉT+λ1IE\\bar{x}\\bar{x}\^T + \lambda_1 IExˉxˉT+λ1I 总是可逆的,避免了计算错误。
  2. 抑制离群值 :通过限制权重调整量 δW∗\delta W^*δW∗ 的大小,防止模型对某些极端数据点(离群值)过度反应。
  3. 优化量化表现:通过稳定地求解最优权重调整,使得量化后的模型误差最小化。

总结:岭回归是一种通过"牺牲少量偏差"来大幅降低"方差",从而获得更稳定、更可靠预测模型的统计技术。

相关推荐
踩着两条虫16 小时前
VTJ.PRO v2.4.2 私有化部署与升级实操指南
前端·人工智能·低代码·架构·数据挖掘
babe小鑫18 小时前
数据分析在营销行业的价值分析
数据挖掘·数据分析
xinhuanjieyi18 小时前
Android 画板应用kotlin实现
android·开发语言·kotlin
Coffeeee19 小时前
准备升级到Android16,自适应布局应该如何适配
android·google·kotlin
plainGeekDev19 小时前
ContentProvider → Room + Repository
android·java·kotlin
FrameNotWork19 小时前
HarmonyOS6.1 图像分类应用完整实战:从模型到界面
人工智能·分类·数据挖掘·harmonyos
plainGeekDev19 小时前
SQLite 手动升级 → Room Migration
android·java·kotlin
babe小鑫20 小时前
数据分析在运营行业的价值分析
数据挖掘·数据分析
消失的旧时光-194320 小时前
Kotlin 协程设计思想(十):Kotlin 协程到底解决了什么问题?
开发语言·kotlin·生命周期·rxjava·协程·结构化并发