机器学习-正则化技术

拟合

过拟合：参数（特征）过多（理解为考虑很多因素)或者说过多专注于原来的训练数据，导致模型过于复杂

欠拟合：参数太少，太不专注于原来的训练数据，导致模型过于简单

随着模型复杂度增加（可以认为与训练数据的拟合程度）训练误差越来越小，泛化误差（就是与测试数据的误差）先小后大

复杂度的低中高分别对应欠拟合拟合过拟合

正则化的方法通常是在损失函数中添加一个正则化项，这个正则化项会根据模型参数的大小来惩罚模型的复杂度

L1 和 L2 正则化之所以会导致不同的权重效果，主要是由于它们对权重施加的惩罚方式不同（就是让权重变化的方式）

L1 正则化在损失函数中加入了权重绝对值的和作为惩罚项。这意味着它会惩罚较大的权重值，并且对于较小的权重值也会产生显著的影响。因为它是基于绝对值的惩罚，所以当优化过程试图最小化整个损失函数时，它倾向于将一些权重直接缩小到零。这是因为：

另一方面，L2 正则化在损失函数中加入了权重平方和的惩罚项。这会产生以下效果：

简而言之，L1 正则化通过绝对值惩罚鼓励稀疏解（即许多权重为0），而L2 正则化通过平方惩罚鼓励所有权重的小值分布，而不是让它们变为零。这种差异来源于两者数学形式的不同以及它们如何影响梯度下降等优化算法的行为。