关键词:L2 正则、病态矩阵、偏差--方差权衡、共线性、凸优化、闭式解
1. 从最小二乘谈起
普通最小二乘(OLS)目标:
β^OLS=argminβ∥y−Xβ∥22 \hat{\beta}{\text{OLS}} = \arg\min{\beta} \|\mathbf{y} - \mathbf{X}\beta\|_2^2 β^OLS=argβmin∥y−Xβ∥22
当设计矩阵 XTX\mathbf{X}^T\mathbf{X}XTX 接近奇异(共线性、高维小样本)时,解的方差爆炸,预测不稳定。岭回归在损失函数里加上 L2 惩罚,把奇异矩阵"拽"回正定。
2. 目标函数:带 L2 正则的二次规划
岭回归目标:
J(β)=∥y−Xβ∥22⏟数据拟合+λ∥β∥22⏟L2 惩罚,λ≥0 J(\beta) = \underbrace{\|\mathbf{y} - \mathbf{X}\beta\|2^2}{\text{数据拟合}} + \underbrace{\lambda \|\beta\|2^2}{\text{L2 惩罚}}, \quad \lambda \geq 0 J(β)=数据拟合 ∥y−Xβ∥22+L2 惩罚 λ∥β∥22,λ≥0
- λ\lambdaλ:调谐参数,越大 → 参数压缩越狠,方差↓偏差↑
- 惩罚项不含截距(通常中心化处理,可证截距不收缩)
3. 闭式解:一步到位的"岭估计量"
令 Aλ=XTX+λIp\mathbf{A}_\lambda = \mathbf{X}^T\mathbf{X} + \lambda \mathbf{I}pAλ=XTX+λIp,则
β^ridge=(XTX+λIp)−1XTy \hat{\beta}{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I}_p)^{-1} \mathbf{X}^T\mathbf{y} β^ridge=(XTX+λIp)−1XTy
对比 OLS:β^OLS=(XTX)−1XTy\hat{\beta}_{\text{OLS}} = (\mathbf{X}^T\mathbf{X})^{-1} \mathbf{X}^T\mathbf{y}β^OLS=(XTX)−1XTy
- 加上 λI\lambda \mathbf{I}λI 保证严格正定,逆矩阵永远存在 → 数值稳定
- 特征值视角:eig(XTX)→eig(XTX)+λ\text{eig}(\mathbf{X}^T\mathbf{X}) \to \text{eig}(\mathbf{X}^T\mathbf{X}) + \lambdaeig(XTX)→eig(XTX)+λ,小特征值被"抬"离零
4. 偏差--方差权衡图示
| 情形 | 偏差 | 方差 | 总误差 |
|---|---|---|---|
| λ=0\lambda = 0λ=0(OLS) | 低 | 极高 | ↑ |
| λ↑\lambda \uparrowλ↑ | ↑ | ↓↓ | 先↓后↑ |
| λ→∞\lambda \to \inftyλ→∞ | 极高(≈0) | 0 | ↑ |
最优 λ\lambdaλ 存在于偏差--方差曲线最低点,需借助交叉验证选取。
5. 贝叶斯视角:高斯先验 = L2 惩罚
假设参数先验 β∼N(0,σ2/λI)\beta \sim \mathcal{N}(0, \sigma^2/\lambda \mathbf{I})β∼N(0,σ2/λI),则后验众数恰好是岭解。
岭回归 ≈ 最大后验估计 (MAP) ,λ\lambdaλ 反映先验置信度。
6. 岭回归 vs. L2 正则化:说法不同,本质相同
| 维度 | 岭回归 (Ridge Regression) | L2 正则化 (L2 Regularization) |
|---|---|---|
| 语境 | 统计学习、计量经济 | 机器学习、优化社区 |
| 强调 | 一个具体模型:闭式解、推断、贝叶斯解释 | 一种通用技术 :在任意损失上添加 λ∣w∣2\lambda|\mathbf{w}|^2λ∣w∣2 |
| 数学形式 | 最小二乘 + λ∣β∣2\lambda|\beta|^2λ∣β∣2 | 任意损失 + λ∣w∣2\lambda|\mathbf{w}|^2λ∣w∣2 |
| 解的存在 | 永远有闭式解 | 可能需数值迭代(如深度学习) |
| 可解释性 | 收缩路径可解析推导 | 通常作为黑盒惩罚项 |
一句话总结:
L2 正则化是"思想",岭回归是"思想 + 闭式解 + 统计推断"的完整模型。
7. 与 Lasso、Elastic Net 的关系
| 方法 | 惩罚形式 | 特性 | 解路径 |
|---|---|---|---|
| Ridge | λ∣β∣22\lambda |\beta|_2^2λ∣β∣22 | 连续收缩,不稀疏 | 闭式 |
| Lasso | λ∣β∣1\lambda |\beta|_1λ∣β∣1 | 自动特征选择 | 分段线性 |
| Elastic Net | λ1∣β∣1+λ2∣β∣22\lambda_1 |\beta|_1 + \lambda_2 |\beta|_2^2λ1∣β∣1+λ2∣β∣22 | 兼具稀疏与分组效应 | 数值 |
8. 快速代码:NumPy 一行实现
python
import numpy as np
def ridge_closed_form(X, y, lam=1.0, fit_intercept=True):
if fit_intercept:
X = np.column_stack([np.ones(X.shape[0]), X])
A = X.T @ X + lam * np.eye(X.shape[1])
beta = np.linalg.solve(A, X.T @ y) # 比inv更稳定
return beta
9. 小结一句话
岭回归 = 最小二乘 + L2 约束,用可控的"偏差"换取巨大的"方差"下降,是高维、共线性场景下最稳健、最可解释的线性模型之一。