L1与L2正则化的差异

目录

L 1 L_{1} L1和 L 2 L_{2} L2正则化的区别

数学定义与惩罚方式:

L1正则化在损失函数中添加权重的绝对值之和:
J L 1 = J + λ ∑ i = 1 n ∣ w i ∣ J_{L1} = J + \lambda \sum_{i=1}^n |w_i| JL1=J+λi=1∑n∣wi∣

L2正则化添加权重的平方和:
J L 2 = J + λ ∑ i = 1 n w i 2 J_{L2} = J + \lambda \sum_{i=1}^n w_i^2 JL2=J+λi=1∑nwi2

其中, J J J是原始损失函数, λ \lambda λ是正则化系数, w i w_i wi是模型参数。

特性 L1 正则化 (Lasso) L2 正则化 (Ridge)
惩罚项 权重的绝对值之和: λ ∑ \lambda \sum λ∑ 权重平方之和: λ ∑ w i 2 \lambda \sum w_{i}^{2} λ∑wi2
等高线形状 菱形(L1-ball) 圆形(L2-ball)
主要作用 特征选择(产生稀疏解) 防止过拟合(权重平滑衰减)
数学先验 假设参数服从拉普拉斯分布 假设参数服从高斯分布
  • 拉普拉斯分布:允许在任意一点 μ \mu μ处设置概率质量的峰值: f ( x ∣ μ , γ ) = 1 2 γ e − ∣ x − μ ∣ γ f(x|\mu,\gamma)=\frac{1}{2\gamma}e^{-\frac{|x-\mu|}{\gamma}} f(x∣μ,γ)=2γ1e−γ∣x−μ∣
  • 高斯分布: f ( x ∣ μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}} f(x∣μ,σ)=2π σ1e−2σ2(x−μ)2

从数学的角度上解释L1能够进行特征选择

在数学上的根本区别在于对参数空间约束形状的不同。

从几何直观和导数特性两个角度来解释:

几何直观(等高线切点)

想象一个二维参数空间 ( ω 1 , ω 2 ) (\omega_{1},\omega_{2}) (ω1,ω2),其中目标函数:原始损失函数(如 Log Loss)的等高线通常是一组围绕中心最优解的椭圆。

约束区域:

  • L2 的约束区是一个圆。椭圆等高线与圆相切时,切点落在坐标轴(即或为 0)的概率极低。因此,L2 倾向于让权重变小但不为 0。
  • L1 的约束区是一个带尖角的菱形。椭圆等高线在扩张时,极大概率首先触碰到菱形的顶点。而菱形的顶点全部位于坐标轴上,例如 ( ω 1 , 0 ) (\omega_{1},0) (ω1,0)或者 ( 0 , ω 2 ) (0,\omega_{2}) (0,ω2)。

结论:一旦切点落在坐标轴上,对应的特征权重就变成了0,实现了自动的特征剔除。

B. 导数特性(梯度下降的角度)

观察两种正则化项对梯度更新的影响:

  • L_{2}正则化:### L1和L2正则化的数学形式

梯度更新规则的差异

  • L1正则化的梯度更新
    L 1 L_{1} L1的导数: ∂ ∂ ω ( λ ∣ ω ∣ ) = λ s i g n ( ω ) \frac{\partial }{\partial \omega}(\lambda|\omega|)=\lambda sign(\omega) ∂ω∂(λ∣ω∣)=λsign(ω),梯度更新规则为:
    w i ← w i − η ( ∂ J ∂ w i + λ ⋅ sign ( w i ) ) w_i \leftarrow w_i - \eta \left( \frac{\partial J}{\partial w_i} + \lambda \cdot \text{sign}(w_i) \right) wi←wi−η(∂wi∂J+λ⋅sign(wi))

    只要 ω ! = 0 \omega != 0 ω!=0,它的梯度始终是一个常数。 这意味着即使 ω \omega ω已经很小了,它依然受到一个恒定的"推力"向 0 迈进。一旦跨过 0 点,权重就会由于惩罚项的震荡或截断算法(如坐标下降法)被锁定在 0。

  • L2正则化的梯度更新
    L 2 L_{2} L2的导数: ∂ ∂ ω ( λ ω 2 ) = 2 λ ω \frac{\partial }{\partial \omega}(\lambda \omega^{2})=2\lambda \omega ∂ω∂(λω2)=2λω,梯度更新规则为:
    w i ← w i − η ( ∂ J ∂ w i + 2 λ w i ) w_i \leftarrow w_i - \eta \left( \frac{\partial J}{\partial w_i} + 2\lambda w_i \right) wi←wi−η(∂wi∂J+2λwi)

    当很小时,梯度也变得极小。这意味着越接近 0,更新越慢,很难真正减小到 0。


总结:L1更易产生稀疏解的原因

  1. 梯度更新的动态特性

    L1的梯度更新中, sign ( w i ) \text{sign}(w_i) sign(wi)对所有权重施加固定的 ± λ \pm \lambda ±λ扰动。当 w i w_i wi接近零时,若原始梯度 ∂ J ∂ w i \frac{\partial J}{\partial w_i} ∂wi∂J的绝对值小于 λ \lambda λ,权重会被直接推向零(因正负抵消)。而L2的更新与 w i w_i wi成正比,接近零时梯度衰减,难以精确归零。

  2. 几何解释

    L1正则化的约束区域是菱形(高维下为多面体),最优解容易落在顶点(某些维度为零)。L2的约束区域是球形,最优解通常在光滑边界,非零概率更高。

相关推荐
Jasmine_llq11 小时前
《B4259 [GESP202503 二级] 等差矩阵》
线性代数·矩阵·顺序输入输出算法·双重循环遍历算法·行列乘积计算算法·矩阵逐行输出算法·空格分隔输出算法
代码改善世界15 小时前
【MATLAB初阶】矩阵操作(二):矩阵的运算
android·matlab·矩阵
今日说"法"15 小时前
线性代数与矩阵运算:AI世界的数学基石——从SVD到特征值分解的实战解析
人工智能·线性代数·矩阵
猴哥聊项目管理15 小时前
从职能型组织到矩阵型组织的IPD转型路径
线性代数·矩阵·项目管理·项目经理·ipd流程·ipd项目管理流程·ipd流程管理
清 晨17 小时前
海外社媒内容审核加强跨境卖家如何避免限流
大数据·人工智能·矩阵·新媒体运营·内容营销
源码之家18 小时前
计算机毕业设计:Python农产品智能推荐与可视化分析系统 Flask框架 矩阵分解 数据分析 可视化 协同过滤推荐算法 深度学习(建议收藏)✅
python·矩阵·数据挖掘·数据分析·django·flask·课程设计
今日说"法"19 小时前
线性代数与矩阵运算:向量、矩阵、特征值、SVD 在 AI 中的全面应用
人工智能·线性代数·矩阵
今日说"法"19 小时前
线性代数与矩阵运算:AI 背后的数学基石
人工智能·线性代数·矩阵
承渊政道19 小时前
【递归、搜索与回溯算法】(floodfill算法:从不会做矩阵题,到真正掌握搜索扩散思想)
数据结构·c++·算法·leetcode·矩阵·dfs·bfs
剑挑星河月20 小时前
73.矩阵置零
数据结构·算法·leetcode·矩阵