机器学习之方差和标准差计算

📊 标准差（σ）完整计算指南

这个公式是Z-score标准化（Standardization） ，其中的σ就是总体标准差（Population Standard Deviation），下面给你完整的计算步骤、公式、Python实现和注意事项。

一、标准差的核心定义

标准差是衡量一组数据离散程度 的指标，数值越大，数据波动越大；数值越小，数据越集中。

在机器学习/数据标准化中，我们通常用总体标准差（用全部样本计算），公式如下：

1. 总体标准差公式（对应公式中的σ）

σ=1N∑i=1N(xi−μ)2 \sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2} σ=N1i=1∑N(xi−μ)2

xix_ixi：第iii个原始数据
μ\muμ（mean）：该特征的平均值 （μ=1N∑i=1Nxi\mu = \frac{1}{N}\sum_{i=1}^{N}x_iμ=N1∑i=1Nxi）
NNN：样本总数
∑i=1N(xi−μ)2\sum_{i=1}^{N}(x_i - \mu)^2∑i=1N(xi−μ)2：离均差平方和（每个数据与均值的差的平方之和）

2. 样本标准差（注意区分！）

如果是用样本估计总体 （比如抽样统计），分母用N−1N-1N−1（贝塞尔校正），公式：
s=1N−1∑i=1N(xi−xˉ)2 s = \sqrt{\frac{1}{N-1}\sum_{i=1}^{N}(x_i - \bar{x})^2} s=N−11i=1∑N(xi−xˉ)2

🔴 关键提醒：数据标准化（Z-score）必须用总体标准差（分母N），不能用样本标准差（分母N-1），否则标准化结果会偏离预期。

二、手动计算步骤（一步步算）

举个例子：计算数据 [1, 2, 3, 4, 5] 的标准差

步骤1：计算平均值（mean/μ）

μ=1+2+3+4+55=3 \mu = \frac{1+2+3+4+5}{5} = 3 μ=51+2+3+4+5=3

步骤2：计算每个数据与均值的差（离均差）

1−3=−2,2−3=−1,3−3=0,4−3=1,5−3=2 1-3=-2,\quad 2-3=-1,\quad 3-3=0,\quad 4-3=1,\quad 5-3=2 1−3=−2,2−3=−1,3−3=0,4−3=1,5−3=2

步骤3：计算离均差的平方

(−2)2=4,(−1)2=1,02=0,12=1,22=4 (-2)^2=4,\quad (-1)^2=1,\quad 0^2=0,\quad 1^2=1,\quad 2^2=4 (−2)2=4,(−1)2=1,02=0,12=1,22=4

步骤4：计算平方和（方差的分子）

4+1+0+1+4=10 4+1+0+1+4 = 10 4+1+0+1+4=10

步骤5：计算方差（总体方差）

σ2=105=2 \sigma^2 = \frac{10}{5} = 2 σ2=510=2

步骤6：开平方得到标准差

σ=2≈1.4142 \sigma = \sqrt{2} \approx 1.4142 σ=2 ≈1.4142

三、Python代码实现（工程化用法）

1. 手动实现（对应公式）

python 复制代码

import math

def population_std(data):
    # 1. 计算均值
    mean = sum(data) / len(data)
    # 2. 计算离均差平方和
    sum_sq = sum((x - mean) ** 2 for x in data)
    # 3. 计算总体方差，开平方得标准差
    variance = sum_sq / len(data)
    return math.sqrt(variance)

# 测试
data = [1, 2, 3, 4, 5]
print(population_std(data))  # 输出: 1.4142135623730951

2. 用NumPy/Pandas（工业界标准用法）

python 复制代码

import numpy as np
import pandas as pd

# NumPy：ddof=0 表示总体标准差（默认就是0）
data = np.array([1, 2, 3, 4, 5])
sigma = np.std(data, ddof=0)  # 必须指定ddof=0，否则部分版本默认ddof=0，部分为1，要显式声明
print(sigma)  # 1.4142135623730951

# Pandas：Series.std()默认ddof=1（样本标准差），必须手动改ddof=0
s = pd.Series([1, 2, 3, 4, 5])
sigma = s.std(ddof=0)
print(sigma)  # 1.4142135623730951

# 直接做Z-score标准化（对应题目公式）
X_standard = (data - data.mean()) / np.std(data, ddof=0)
print(X_standard)  # 输出: [-1.41421356 -0.70710678  0.          0.70710678  1.41421356]

3. 用sklearn（机器学习标准化工具）

python 复制代码

from sklearn.preprocessing import StandardScaler

# 注意：StandardScaler内部用的就是总体标准差（分母N）
scaler = StandardScaler()
data = np.array([[1], [2], [3], [4], [5]])  # 必须是2D数组
scaler.fit(data)
print("均值:", scaler.mean_[0])  # 3.0
print("标准差:", scaler.scale_[0])  # 1.4142135623730951
print("标准化后:", scaler.transform(data).flatten())
# 输出: [-1.41421356 -0.70710678  0.          0.70710678  1.41421356]

四、关键注意事项（避坑指南）

1. 分母N vs N-1的区别

类型	公式分母	适用场景	标准化是否可用
总体标准差	NNN	全部样本已知（如训练集全量数据）	✅ 必须用
样本标准差	N−1N-1N−1	抽样估计总体（如统计推断）	❌ 绝对不能用

2. 标准差为0的情况

如果某特征所有值都相同（比如[5,5,5,5]），标准差σ=0\sigma=0σ=0，此时标准化公式会出现除以0的错误。

解决方案：
1. 直接删除该特征（无区分度）；
2. 给分母加一个极小值（如1e-8），避免除零：X' = (x - mean) / (σ + 1e-8)。

3. 标准化的核心作用

消除量纲影响：比如"身高（cm）"和"体重（kg）"数值范围不同，标准化后可公平参与模型训练；
加速模型收敛：梯度下降类模型（如神经网络、逻辑回归）对特征尺度敏感，标准化后收敛更快；
满足模型假设：如SVM、KNN、PCA等算法依赖距离计算，必须做标准化。

五、拓展：标准差 vs 方差

方差σ2\sigma^2σ2：是标准差的平方，单位是原数据单位的平方，不直观；
标准差σ\sigmaσ：开平方后单位与原数据一致，更适合解释数据波动。

六、快速验证

用题目公式做标准化后，数据的均值一定为0，标准差一定为1，可以用代码验证：

python 复制代码

data = np.array([1, 2, 3, 4, 5])
X_standard = (data - data.mean()) / np.std(data, ddof=0)
print("标准化后均值:", X_standard.mean())  # 0.0
print("标准化后标准差:", X_standard.std(ddof=0))  # 1.0