【漫话机器学习系列】100.L2 范数（L2 Norm，欧几里得范数）

L2 范数（欧几里得范数）详解

L2 范数（L2 Norm），也称为欧几里得范数（Euclidean Norm），是数学中最常见的向量范数之一。它用于衡量向量的长度或大小，计算方式是向量各个元素的平方和再开平方。L2 范数的数学表达式如下：

其中：

L2 范数的本质是计算向量在 n 维空间中的欧几里得距离，即该向量与原点之间的距离。这与我们在二维或三维空间中计算两点之间的直线距离方式相同。

L2 范数的几何意义可以通过以下几点理解：

在二维或三维空间中，L2 范数对应的距离计算公式是我们熟悉的欧几里得距离公式：

在更高维空间中，L2 范数仍然表示的是点与点之间的最短直线距离，因此 L2 范数的单位球是一个超球体（hypersphere）。

在二维空间中，L2 范数等于 1 的所有点形成一个圆：

在三维空间中，L2 范数等于 1 的所有点形成一个球：

在更高维空间中，它形成一个超球体，而不是像 L1 范数那样形成菱形。

L2 范数在机器学习中有多个重要应用，主要用于：

样本的标准化（Normalization）
- 在数据预处理中，L2 范数用于将特征向量进行归一化，使其具有相同的尺度。例如，在**自然语言处理（NLP）**任务中，我们可能需要对词向量进行 L2 归一化：
  
  这样可以确保不同词向量的长度一致，有助于提高计算稳定性。
L2 正则化（Ridge Regression / 岭回归）
- 在线性回归等模型中，L2 正则化通过在损失函数中添加 L2 范数项，防止过拟合：
- 其中，λ 是正则化系数，是模型权重。
- L2 正则化不会使权重变为 0，而是让它们趋向于较小的值，从而避免模型对某些特征过于依赖。
支持向量机（SVM）
- 在 SVM（Support Vector Machine）中，优化目标是最大化分类间隔 ，即找到使得数据点到超平面的L2 范数最大的超平面，从而提高模型的泛化能力。
神经网络权重衰减（Weight Decay）
- 在深度学习中，L2 正则化被称为权重衰减（Weight Decay），用于减少模型的复杂性，使其更加平滑，提高泛化能力。

L2 范数在信号处理和数据压缩中也有重要作用：

最小二乘法（Least Squares Method）
- 最小二乘法是一种最优化方法，它的目标是最小化预测值和真实值之间的 L2 范数：
  
  这在统计回归分析和机器学习中都非常常见。
图像处理
- 在图像处理任务中，L2 范数常用于衡量图像之间的相似性。例如，在**图像去噪（Image Denoising）**中，L2 范数用于度量去噪图像与原始图像之间的误差。

L2 范数与 L1 范数（曼哈顿范数）在数学性质和应用场景上存在一些关键区别。

L2 范数是一种重要的数学工具，在机器学习、优化、信号处理等多个领域都有广泛应用。它的主要作用是衡量向量的长度，并在模型优化过程中用于正则化，防止过拟合。

核心总结：

L2 范数在机器学习和数学优化中的重要性不言而喻，希望本文能帮助你更好地理解 L2 范数的概念及其应用！