岭回归(Ridge Regression),也称为L2正则化回归

岭回归(Ridge Regression) ,也称为L2正则化回归蒂霍诺夫正则化(Tikhonov Regularization),是一种用于分析多重共线性数据(即自变量之间高度相关)的线性回归分析方法。

简单来说,它是标准线性回归(OLS)的一种改进版本,旨在解决标准线性回归在特定条件下"不稳定"或"过拟合"的问题。

以下是关于岭回归的核心要点解析:

1. 核心问题:为什么要用岭回归?

在标准的线性回归中,我们的目标是最小化预测值与真实值之间的误差(通常使用均方误差,MSE)。其数学解通常涉及计算矩阵 XTXX^TXXTX 的逆矩阵 (XTX)−1(X^TX)^{-1}(XTX)−1。

然而,当出现以下情况时,标准线性回归会失效或表现不佳:

  • 多重共线性(Multicollinearity):特征(自变量)之间存在高度相关性。
  • 特征数量多于样本数量 :矩阵 XTXX^TXXTX 可能不可逆(奇异矩阵),导致无法求解。
  • 过拟合(Overfitting):模型为了拟合训练数据中的噪声,导致系数(weights)变得极大且不稳定。

2. 岭回归的解决方案:L2 正则化

岭回归通过在损失函数中加入一个**惩罚项(Penalty Term)**来解决上述问题。

  • 标准线性回归的损失函数
    J(β)=∑i=1n(yi−y^i)2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 J(β)=i=1∑n(yi−y^i)2

    (即:残差平方和)

  • 岭回归的损失函数
    J(β)=∑i=1n(yi−y^i)2+λ∑j=1pβj2 J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}i)^2 + \lambda \sum{j=1}^{p} \beta_j^2 J(β)=i=1∑n(yi−y^i)2+λj=1∑pβj2

    • 第一部分 ∑(yi−y^i)2\sum (y_i - \hat{y}_i)^2∑(yi−y^i)2:依然是最小化预测误差。
    • 第二部分 λ∑βj2\lambda \sum \beta_j^2λ∑βj2:L2 正则化项
      • βj\beta_jβj 是回归系数。
      • λ\lambdaλ (Lambda) 是正则化参数,控制惩罚的力度。

3. 关键机制:系数收缩(Shrinkage)

岭回归的核心思想是限制系数的大小

  • 通过最小化"误差 + 系数平方和",算法会倾向于选择较小的系数值。
  • 如果 λ=0\lambda = 0λ=0,岭回归退化为标准线性回归。
  • 如果 λ\lambdaλ 很大,系数会被强烈压缩,接近于 0(但通常不会正好等于 0,这是它与 L1 正则化/Lasso 的主要区别)。

4. 岭回归的主要优点

  1. 提高数值稳定性 :在公式 (XTX+λI)−1(X^TX + \lambda I)^{-1}(XTX+λI)−1 中,加入 λI\lambda IλI(其中 III 是单位矩阵,λ>0\lambda > 0λ>0)可以确保矩阵始终可逆且条件数良好。这就是你在前文提到的 ERQ 算法中使用岭回归的原因------它确保了矩阵求逆的计算稳定性。
  2. 处理多重共线性:当特征高度相关时,岭回归能提供比标准回归更稳定的系数估计。
  3. 防止过拟合:通过惩罚大系数,降低了模型的复杂度,提高了模型在未知数据上的泛化能力。

5. 岭回归 vs. Lasso (L1 正则化)

特性 岭回归 (Ridge, L2) Lasso (L1)
惩罚项 系数的平方和 (∑β2\sum \beta^2∑β2) 系数的绝对值之和 ($\sum
系数变化 系数缩小,趋向于 0 但不等于 0 可能将某些系数直接压缩为 0
特征选择 保留所有特征,只是权重变小 可以进行特征选择(稀疏解)
适用场景 所有特征都重要,或存在多重共线性 希望剔除无关特征,简化模型

6. 结合(ERQ 论文)

Zhang, K., et al. "ERQ: Error Reduction for Post-Training Quantization of Vision Transformers." ICML 2024 .

作者使用岭回归的目的是:

  1. 计算稳定性 :公式中的 λ1I\lambda_1 Iλ1I 确保矩阵 E[xˉxˉT]+λ1IE[\bar{x}\bar{x}^T] + \lambda_1 IE[xˉxˉT]+λ1I 总是可逆的,避免了计算错误。
  2. 抑制离群值 :通过限制权重调整量 δW∗\delta W^*δW∗ 的大小,防止模型对某些极端数据点(离群值)过度反应。
  3. 优化量化表现:通过稳定地求解最优权重调整,使得量化后的模型误差最小化。

总结:岭回归是一种通过"牺牲少量偏差"来大幅降低"方差",从而获得更稳定、更可靠预测模型的统计技术。

相关推荐
YangYang9YangYan6 小时前
2026运营专员职场能力提升:数据分析的价值与应用
数据挖掘·数据分析
萌新杰少8 小时前
安卓原生项目迁移KMP——核心迁移
android·kotlin·jetbrains
安迁岚8 小时前
基于珠三角城市热岛热点核心中心点的等级化点格局分析
人工智能·arcgis·信息可视化·数据挖掘·数据分析·地统计
Kapaseker10 小时前
Kotlin 的 SAM 到底解决了什么?
kotlin
plainGeekDev1 天前
Android 开发者再不转Kotlin,真的来不及了
android·kotlin
夜雪闻竹1 天前
Claude Code 对话自动导入完全指南
数据库·数据挖掘·copilot
赏金术士1 天前
第五章:数据层—网络请求与Repository
android·kotlin·compose
babe小鑫1 天前
2026学数据分析对就业能力提升的价值
数据挖掘·数据分析
plainGeekDev1 天前
Android 专家岗 Kotlin 面试题:能答出这些,说明你对语言设计有自己的理解
android·kotlin