【漫话机器学习系列】210.标准化（Standardization）

标准化（Standardization）：深入理解数据预处理中的常用技术

在数据科学与机器学习的实践中，**标准化（Standardization）**是一项极为常见且重要的预处理操作。它可以显著提升模型训练的效率与效果，尤其是在涉及距离计算（如KNN、SVM）或梯度下降的算法中。本文将通过图示公式，深入剖析标准化的定义、计算方法及其应用背景。

标准化，也称为 Z-score 归一化，是一种将特征值转换为标准正态分布的方法。标准化后的数据其均值为 0 ，标准差为 1，这意味着数据被"平移"到以 0 为中心，并根据原始分布的离散程度"压缩或拉伸"。

如下图所示，标准化的数学表达式为：

其中各符号含义为：

标准化的核心思想是"去除位置偏移与量纲影响"。对于不同量纲或尺度的数据（如身高与收入），如果不进行标准化直接输入模型，可能会导致模型更关注数值大的特征，忽略本身重要性相当但数值较小的特征。

通过标准化，我们将每一个样本的特征值减去该特征的平均值，然后除以标准差，从而实现单位标准化。这个处理过程的结果是：

以下几种情况特别推荐使用标准化：

python 复制代码

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

在 scikit-learn 中，StandardScaler 实现了对每列特征的标准化，即减去均值再除以标准差。它默认沿列方向（每个特征）进行操作。

标准化是一种基础但极其重要的数据预处理方法，它通过"居中+等比例伸缩"将数据调整到标准正态分布状态，为后续建模打下坚实基础。在使用大多数机器学习模型之前，对特征数据进行标准化处理，是提升模型性能与稳定性的关键一步。