L1与L2正则化的差异

目录

L 1 L_{1} L1和 L 2 L_{2} L2正则化的区别

数学定义与惩罚方式:

L1正则化在损失函数中添加权重的绝对值之和:
J L 1 = J + λ ∑ i = 1 n ∣ w i ∣ J_{L1} = J + \lambda \sum_{i=1}^n |w_i| JL1=J+λi=1∑n∣wi∣

L2正则化添加权重的平方和:
J L 2 = J + λ ∑ i = 1 n w i 2 J_{L2} = J + \lambda \sum_{i=1}^n w_i^2 JL2=J+λi=1∑nwi2

其中, J J J是原始损失函数, λ \lambda λ是正则化系数, w i w_i wi是模型参数。

特性 L1 正则化 (Lasso) L2 正则化 (Ridge)
惩罚项 权重的绝对值之和: λ ∑ \lambda \sum λ∑ 权重平方之和: λ ∑ w i 2 \lambda \sum w_{i}^{2} λ∑wi2
等高线形状 菱形(L1-ball) 圆形(L2-ball)
主要作用 特征选择(产生稀疏解) 防止过拟合(权重平滑衰减)
数学先验 假设参数服从拉普拉斯分布 假设参数服从高斯分布
  • 拉普拉斯分布:允许在任意一点 μ \mu μ处设置概率质量的峰值: f ( x ∣ μ , γ ) = 1 2 γ e − ∣ x − μ ∣ γ f(x|\mu,\gamma)=\frac{1}{2\gamma}e^{-\frac{|x-\mu|}{\gamma}} f(x∣μ,γ)=2γ1e−γ∣x−μ∣
  • 高斯分布: f ( x ∣ μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}} f(x∣μ,σ)=2π σ1e−2σ2(x−μ)2

从数学的角度上解释L1能够进行特征选择

在数学上的根本区别在于对参数空间约束形状的不同。

从几何直观和导数特性两个角度来解释:

几何直观(等高线切点)

想象一个二维参数空间 ( ω 1 , ω 2 ) (\omega_{1},\omega_{2}) (ω1,ω2),其中目标函数:原始损失函数(如 Log Loss)的等高线通常是一组围绕中心最优解的椭圆。

约束区域:

  • L2 的约束区是一个圆。椭圆等高线与圆相切时,切点落在坐标轴(即或为 0)的概率极低。因此,L2 倾向于让权重变小但不为 0。
  • L1 的约束区是一个带尖角的菱形。椭圆等高线在扩张时,极大概率首先触碰到菱形的顶点。而菱形的顶点全部位于坐标轴上,例如 ( ω 1 , 0 ) (\omega_{1},0) (ω1,0)或者 ( 0 , ω 2 ) (0,\omega_{2}) (0,ω2)。

结论:一旦切点落在坐标轴上,对应的特征权重就变成了0,实现了自动的特征剔除。

B. 导数特性(梯度下降的角度)

观察两种正则化项对梯度更新的影响:

  • L_{2}正则化:### L1和L2正则化的数学形式

梯度更新规则的差异

  • L1正则化的梯度更新
    L 1 L_{1} L1的导数: ∂ ∂ ω ( λ ∣ ω ∣ ) = λ s i g n ( ω ) \frac{\partial }{\partial \omega}(\lambda|\omega|)=\lambda sign(\omega) ∂ω∂(λ∣ω∣)=λsign(ω),梯度更新规则为:
    w i ← w i − η ( ∂ J ∂ w i + λ ⋅ sign ( w i ) ) w_i \leftarrow w_i - \eta \left( \frac{\partial J}{\partial w_i} + \lambda \cdot \text{sign}(w_i) \right) wi←wi−η(∂wi∂J+λ⋅sign(wi))

    只要 ω ! = 0 \omega != 0 ω!=0,它的梯度始终是一个常数。 这意味着即使 ω \omega ω已经很小了,它依然受到一个恒定的"推力"向 0 迈进。一旦跨过 0 点,权重就会由于惩罚项的震荡或截断算法(如坐标下降法)被锁定在 0。

  • L2正则化的梯度更新
    L 2 L_{2} L2的导数: ∂ ∂ ω ( λ ω 2 ) = 2 λ ω \frac{\partial }{\partial \omega}(\lambda \omega^{2})=2\lambda \omega ∂ω∂(λω2)=2λω,梯度更新规则为:
    w i ← w i − η ( ∂ J ∂ w i + 2 λ w i ) w_i \leftarrow w_i - \eta \left( \frac{\partial J}{\partial w_i} + 2\lambda w_i \right) wi←wi−η(∂wi∂J+2λwi)

    当很小时,梯度也变得极小。这意味着越接近 0,更新越慢,很难真正减小到 0。


总结:L1更易产生稀疏解的原因

  1. 梯度更新的动态特性

    L1的梯度更新中, sign ( w i ) \text{sign}(w_i) sign(wi)对所有权重施加固定的 ± λ \pm \lambda ±λ扰动。当 w i w_i wi接近零时,若原始梯度 ∂ J ∂ w i \frac{\partial J}{\partial w_i} ∂wi∂J的绝对值小于 λ \lambda λ,权重会被直接推向零(因正负抵消)。而L2的更新与 w i w_i wi成正比,接近零时梯度衰减,难以精确归零。

  2. 几何解释

    L1正则化的约束区域是菱形(高维下为多面体),最优解容易落在顶点(某些维度为零)。L2的约束区域是球形,最优解通常在光滑边界,非零概率更高。

相关推荐
智算菩萨6 小时前
【OpenGL】10 完整游戏开发实战:基于OpenGL的2D/3D游戏框架、物理引擎集成与AI辅助编程指南
人工智能·python·游戏·3d·矩阵·pygame·opengl
Frostnova丶7 小时前
LeetCode 2573. 找出对应 LCP 矩阵的字符串
算法·leetcode·矩阵
历程里程碑9 小时前
Protobuf 环境搭建:Windows 与 Linux 系统安装教程
linux·运维·数据结构·windows·线性代数·算法·矩阵
爱丽_12 小时前
高维问题如何“降维计算”:矩阵映射、卷积与拆分汇总
深度学习·矩阵·cnn
EQUINOX112 小时前
马尔可夫链
线性代数·动态规划·随机数学
皮蛋瘦肉熬不成粥13 小时前
MES(The Measures of Effect Size )工具箱的使用
matlab·概率论
MediaTea14 小时前
NumPy 函数手册:线性代数
线性代数·numpy
我要学好英语16 小时前
概率密度——分布、期望、方差和协方差
深度学习·概率论·概率密度·方差·协方差·期望·分布
我要学好英语16 小时前
概率法则——贝叶斯定理
深度学习·概率论·贝叶斯定理