岭回归(Ridge Regression)辨析

关键词:L2 正则、病态矩阵、偏差--方差权衡、共线性、凸优化、闭式解


1. 从最小二乘谈起

普通最小二乘(OLS)目标:
β^OLS=arg⁡min⁡β∥y−Xβ∥22 \hat{\beta}{\text{OLS}} = \arg\min{\beta} \|\mathbf{y} - \mathbf{X}\beta\|_2^2 β^OLS=argβmin∥y−Xβ∥22

当设计矩阵 XTX\mathbf{X}^T\mathbf{X}XTX 接近奇异(共线性、高维小样本)时,解的方差爆炸,预测不稳定。岭回归在损失函数里加上 L2 惩罚,把奇异矩阵"拽"回正定。


2. 目标函数:带 L2 正则的二次规划

岭回归目标:
J(β)=∥y−Xβ∥22⏟数据拟合+λ∥β∥22⏟L2 惩罚,λ≥0 J(\beta) = \underbrace{\|\mathbf{y} - \mathbf{X}\beta\|2^2}{\text{数据拟合}} + \underbrace{\lambda \|\beta\|2^2}{\text{L2 惩罚}}, \quad \lambda \geq 0 J(β)=数据拟合 ∥y−Xβ∥22+L2 惩罚 λ∥β∥22,λ≥0

  • λ\lambdaλ:调谐参数,越大 → 参数压缩越狠,方差↓偏差↑
  • 惩罚项不含截距(通常中心化处理,可证截距不收缩)

3. 闭式解:一步到位的"岭估计量"

令 Aλ=XTX+λIp\mathbf{A}_\lambda = \mathbf{X}^T\mathbf{X} + \lambda \mathbf{I}pAλ=XTX+λIp,则
β^ridge=(XTX+λIp)−1XTy \hat{\beta}
{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I}_p)^{-1} \mathbf{X}^T\mathbf{y} β^ridge=(XTX+λIp)−1XTy

对比 OLS:β^OLS=(XTX)−1XTy\hat{\beta}_{\text{OLS}} = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T\mathbf{y}β^OLS=(XTX)−1XTy

  • 加上 λI\lambda \mathbf{I}λI 保证严格正定,逆矩阵永远存在 → 数值稳定
  • 特征值视角:eig(XTX)→eig(XTX)+λ\text{eig}(\mathbf{X}^T\mathbf{X}) \to \text{eig}(\mathbf{X}^T\mathbf{X}) + \lambdaeig(XTX)→eig(XTX)+λ,小特征值被"抬"离零

4. 偏差--方差权衡图示

情形 偏差 方差 总误差
λ=0\lambda = 0λ=0(OLS) 极高
λ↑\lambda \uparrowλ↑ ↓↓ 先↓后↑
λ→∞\lambda \to \inftyλ→∞ 极高(≈0) 0

最优 λ\lambdaλ 存在于偏差--方差曲线最低点,需借助交叉验证选取。


5. 贝叶斯视角:高斯先验 = L2 惩罚

假设参数先验 β∼N(0,σ2/λI)\beta \sim \mathcal{N}(0, \sigma^2/\lambda \mathbf{I})β∼N(0,σ2/λI),则后验众数恰好是岭解。

岭回归 ≈ 最大后验估计 (MAP) ,λ\lambdaλ 反映先验置信度。


6. 岭回归 vs. L2 正则化:说法不同,本质相同

维度 岭回归 (Ridge Regression) L2 正则化 (L2 Regularization)
语境 统计学习、计量经济 机器学习、优化社区
强调 一个具体模型:闭式解、推断、贝叶斯解释 一种通用技术 :在任意损失上添加 λ∣w∣2\lambda|\mathbf{w}|^2λ∣w∣2
数学形式 最小二乘 + λ∣β∣2\lambda|\beta|^2λ∣β∣2 任意损失 + λ∣w∣2\lambda|\mathbf{w}|^2λ∣w∣2
解的存在 永远有闭式解 可能需数值迭代(如深度学习)
可解释性 收缩路径可解析推导 通常作为黑盒惩罚项

一句话总结:
L2 正则化是"思想",岭回归是"思想 + 闭式解 + 统计推断"的完整模型。


7. 与 Lasso、Elastic Net 的关系

方法 惩罚形式 特性 解路径
Ridge λ∣β∣22\lambda |\beta|_2^2λ∣β∣22 连续收缩,不稀疏 闭式
Lasso λ∣β∣1\lambda |\beta|_1λ∣β∣1 自动特征选择 分段线性
Elastic Net λ1∣β∣1+λ2∣β∣22\lambda_1 |\beta|_1 + \lambda_2 |\beta|_2^2λ1∣β∣1+λ2∣β∣22 兼具稀疏与分组效应 数值

8. 快速代码:NumPy 一行实现

python 复制代码
import numpy as np

def ridge_closed_form(X, y, lam=1.0, fit_intercept=True):
    if fit_intercept:
        X = np.column_stack([np.ones(X.shape[0]), X])
    A = X.T @ X + lam * np.eye(X.shape[1])
    beta = np.linalg.solve(A, X.T @ y)   # 比inv更稳定
    return beta

9. 小结一句话

岭回归 = 最小二乘 + L2 约束,用可控的"偏差"换取巨大的"方差"下降,是高维、共线性场景下最稳健、最可解释的线性模型之一。

相关推荐
Kapaseker8 小时前
实战 Compose 中的 IntrinsicSize
android·kotlin
A0微声z2 天前
Kotlin Multiplatform (KMP) 中使用 Protobuf
kotlin
alexhilton3 天前
使用FunctionGemma进行设备端函数调用
android·kotlin·android jetpack
lhDream3 天前
Kotlin 开发者必看!JetBrains 开源 LLM 框架 Koog 快速上手指南(含示例)
kotlin
RdoZam3 天前
Android-封装基类Activity\Fragment,从0到1记录
android·kotlin
Kapaseker3 天前
研究表明,开发者对Kotlin集合的了解不到 20%
android·kotlin
糖猫猫cc4 天前
Kite:两种方式实现动态表名
java·kotlin·orm·kite
如此风景4 天前
kotlin协程学习小计
android·kotlin
烂尾主教4 天前
提示词工程:核心原理与实战指南
人工智能·python·chatgpt·回归·aigc
DeepModel4 天前
【分类算法】C4.5分类算法超详细讲解
算法·决策树·回归