L1与L2正则化的差异

L 1 L_{1} L1和 L 2 L_{2} L2正则化的区别

数学定义与惩罚方式：

L1正则化在损失函数中添加权重的绝对值之和：
J L 1 = J + λ ∑ i = 1 n ∣ w i ∣ J_{L1} = J + \lambda \sum_{i=1}^n |w_i| JL1=J+λi=1∑n∣wi∣

L2正则化添加权重的平方和：
J L 2 = J + λ ∑ i = 1 n w i 2 J_{L2} = J + \lambda \sum_{i=1}^n w_i^2 JL2=J+λi=1∑nwi2

其中， J J J是原始损失函数， λ \lambda λ是正则化系数， w i w_i wi是模型参数。

特性	L1 正则化 (Lasso)	L2 正则化 (Ridge)
惩罚项	权重的绝对值之和： λ ∑ \lambda \sum λ∑	权重平方之和： λ ∑ w i 2 \lambda \sum w_{i}^{2} λ∑wi2
等高线形状	菱形(L1-ball)	圆形(L2-ball)
主要作用	特征选择（产生稀疏解）	防止过拟合（权重平滑衰减）
数学先验	假设参数服从拉普拉斯分布	假设参数服从高斯分布

拉普拉斯分布：允许在任意一点 μ \mu μ处设置概率质量的峰值： f ( x ∣ μ , γ ) = 1 2 γ e − ∣ x − μ ∣ γ f(x|\mu,\gamma)=\frac{1}{2\gamma}e^{-\frac{|x-\mu|}{\gamma}} f(x∣μ,γ)=2γ1e−γ∣x−μ∣

高斯分布： f ( x ∣ μ , σ ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}} f(x∣μ,σ)=2π σ1e−2σ2(x−μ)2

从数学的角度上解释L1能够进行特征选择

在数学上的根本区别在于对参数空间约束形状的不同。

从几何直观和导数特性两个角度来解释：

几何直观（等高线切点）

想象一个二维参数空间 ( ω 1 , ω 2 ) (\omega_{1},\omega_{2}) (ω1,ω2)，其中目标函数：原始损失函数（如 Log Loss）的等高线通常是一组围绕中心最优解的椭圆。

约束区域：

L2 的约束区是一个圆。椭圆等高线与圆相切时，切点落在坐标轴（即或为 0）的概率极低。因此，L2 倾向于让权重变小但不为 0。
L1 的约束区是一个带尖角的菱形。椭圆等高线在扩张时，极大概率首先触碰到菱形的顶点。而菱形的顶点全部位于坐标轴上，例如 ( ω 1 , 0 ) (\omega_{1},0) (ω1,0)或者 ( 0 , ω 2 ) (0,\omega_{2}) (0,ω2)。

结论：一旦切点落在坐标轴上，对应的特征权重就变成了0，实现了自动的特征剔除。

B. 导数特性（梯度下降的角度）

观察两种正则化项对梯度更新的影响：

L_{2}正则化：### L1和L2正则化的数学形式

梯度更新规则的差异

L1正则化的梯度更新
L 1 L_{1} L1的导数: ∂ ∂ ω ( λ ∣ ω ∣ ) = λ s i g n ( ω ) \frac{\partial }{\partial \omega}(\lambda|\omega|)=\lambda sign(\omega) ∂ω∂(λ∣ω∣)=λsign(ω)，梯度更新规则为：
w i ← w i − η ( ∂ J ∂ w i + λ ⋅ sign ( w i ) ) w_i \leftarrow w_i - \eta \left( \frac{\partial J}{\partial w_i} + \lambda \cdot \text{sign}(w_i) \right) wi←wi−η(∂wi∂J+λ⋅sign(wi))

只要 ω ! = 0 \omega != 0 ω!=0，它的梯度始终是一个常数。这意味着即使 ω \omega ω已经很小了，它依然受到一个恒定的"推力"向 0 迈进。一旦跨过 0 点，权重就会由于惩罚项的震荡或截断算法（如坐标下降法）被锁定在 0。
L2正则化的梯度更新
L 2 L_{2} L2的导数： ∂ ∂ ω ( λ ω 2 ) = 2 λ ω \frac{\partial }{\partial \omega}(\lambda \omega^{2})=2\lambda \omega ∂ω∂(λω2)=2λω，梯度更新规则为：
w i ← w i − η ( ∂ J ∂ w i + 2 λ w i ) w_i \leftarrow w_i - \eta \left( \frac{\partial J}{\partial w_i} + 2\lambda w_i \right) wi←wi−η(∂wi∂J+2λwi)

当很小时，梯度也变得极小。这意味着越接近 0，更新越慢，很难真正减小到 0。

总结：L1更易产生稀疏解的原因

梯度更新的动态特性

L1的梯度更新中， sign ( w i ) \text{sign}(w_i) sign(wi)对所有权重施加固定的 ± λ \pm \lambda ±λ扰动。当 w i w_i wi接近零时，若原始梯度 ∂ J ∂ w i \frac{\partial J}{\partial w_i} ∂wi∂J的绝对值小于 λ \lambda λ，权重会被直接推向零（因正负抵消）。而L2的更新与 w i w_i wi成正比，接近零时梯度衰减，难以精确归零。
几何解释

L1正则化的约束区域是菱形（高维下为多面体），最优解容易落在顶点（某些维度为零）。L2的约束区域是球形，最优解通常在光滑边界，非零概率更高。