关于sklearn中StandardScaler的使用方式

文章目录

  • 背景
  • 标准化过程
  • 例子
  • [fit_transform和fit + transform的区别和使用场景](#fit_transform和fit + transform的区别和使用场景)

背景

在机器学习中经常会使用StandardScaler 进行数据归一化,注意一旦调整好StandardScaler以后就保存下来,后面如果进行测试单个时,可以进行加载并对其进行标准化

StandardScaler 是一种常用的数据标准化 方法,用于将数据转换为均值为 0标准差为 1 的标准正态分布。

标准化过程

  1. 计算原始数据的均值 mean 和标准差 std

  2. 对原始数据进行标准化处理,即对每个数据点减去均值 ,再除以标准差

  3. StandardScaler 中,均值和标准差的计算分别基于训练数据的样本 ,可以使用 fit 方法计算均值和标准差。然后,使用 transform 方法将数据标准化为标准正态分布。

PS: StandardScaler 在计算过程中用的是 "总体标准差",而不是"样本标准差"

总体标准差:
σ = ∑ i = 1 n ( x i − x ˉ ) 2 n \sigma = \sqrt{\frac{\sum_{i = 1}^{n}(x_{i} - \textcolor{myblue}{\bar{x}})^{2}}{n}} σ=n∑i=1n(xi−xˉ)2

x x x 为某个样本, x ˉ \textcolor{myblue}{\bar{x}} xˉ 为总体样本的均值, n n n 为总体样本的数量。

样本标准差:

S = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 S = \sqrt{\frac{\sum_{i = 1}^{n}(x_{i} - \textcolor{myblue}{\bar{x}})^{2}}{n - 1}} S=n−1∑i=1n(xi−xˉ)2

x x x 为某个抽样样本, x ˉ \textcolor{myblue}{\bar{x}} xˉ 为抽样样本的均值, n n n 为抽样样本的数量。

例子

python 复制代码
from sklearn.preprocessing import StandardScaler
import numpy as np
import pickle
import os

# 创建一个 3 x 2 的矩阵
X = np.array([[1, 2], [3, 4], [5, 6]])

# 创建 StandardScaler 对象
scaler = StandardScaler()

# 计算均值和标准差
scaler.fit(X)

# 将数据标准化为标准正态分布
X_scaled = scaler.transform(X)

# 打印结果
print("原始数据:\n", X)
print("均值:", scaler.mean_)
print("标准差:", scaler.scale_)
print("标准化后的数据:\n", X_scaled)

scaler_filename = 'standard_scaler.pkl'
with open(scaler_filename, 'wb') as file:
    pickle.dump(scaler, file)
print(f"\nStandardScaler 对象已保存到文件: {scaler_filename}")

输出结果:

python 复制代码
原始数据:
 [[1 2]
  [3 4]
  [5 6]]
均值: [3. 4.]
标准差: [1.63299316 1.63299316]
标准化后的数据:
 [[-1.22474487 -1.22474487]
  [ 0.          0.        ]
  [ 1.22474487  1.22474487]]
StandardScaler 对象已保存到文件: standard_scaler.pkl

在上面的代码中,我们首先创建了一个 3 x 2 的矩阵 X,然后创建了一个 StandardScaler 对象 scaler。通过调用 fit 方法计算了均值和标准差,并通过调用 transform 方法将原始数据标准化为标准正态分布。最后,我们打印了原始数据、均值、标准差和标准化后的数据

使用 Python 内置的 pickle 模块保存 StandardScaler 对象

fit_transform和fit + transform的区别和使用场景

要注意fit_transformfit + transform 的区别在于

  • fit_transform 是一个组合方法,它将拟合数据和转换数据这两个步骤合并到一个方法中。它首先拟合数据,然后应用相同的拟合参数转换数据。在使用 fit_transform 方法时,你只需在训练集上调用一次,就可以同时进行拟合和转换,这样能够节省时间和代码。
  • fittransform 是单独的方法。fit 方法用于从数据中学习模型参数,例如,对于 StandardScaler,它计算并保存数据集的均值和标准差transform 方法用于使用已学习的模型参数来转换数据。通常,你会在训练集上调用 fit 方法来拟合模型 ,并在训练集和测试集上分别调用 transform 方法来转换数据

在使用机器学习算法时,通常将数据集分成训练集和测试集。通常情况下,我们只使用训练集拟合模型并保存模型,然后使用已保存的模型在测试集上转换数据。因此,在训练集 上使用 fit_transform 方法,而在测试集 上使用 transform 方法。

python 复制代码
from sklearn.preprocessing import StandardScaler
import numpy as np

# 创建一个 3 x 2 的矩阵
X = np.array([[1, 2], [3, 4], [5, 6]])

# 使用 fit_transform 方法标准化数据
scaler = StandardScaler()
X_scaled1 = scaler.fit_transform(X)

# 使用 fit 和 transform 方法标准化数据
scaler = StandardScaler()
scaler.fit(X)
X_scaled2 = scaler.transform(X)

# 打印结果
print("使用 fit_transform 方法标准化的结果:\n", X_scaled1)
print("使用 fit 和 transform 方法标准化的结果:\n", X_scaled2)

输出结果:

python 复制代码
使用 fit_transform 方法标准化的结果:
 [[-1.22474487 -1.22474487]
  [ 0.          0.        ]
  [ 1.22474487  1.22474487]]
使用 fit 和 transform 方法标准化的结果:
 [[-1.22474487 -1.22474487]
  [ 0.          0.        ]
  [ 1.22474487  1.22474487]]

参考: https://www.cnblogs.com/chentiao/p/17203643.html

相关推荐
产业家13 小时前
“国标”发布,AI终端硬件要“考级“了
人工智能
前沿推行者13 小时前
辽宁传媒学院教学特色解析:从实践导向到产教融合
大数据·人工智能
猿儿本无心14 小时前
快速搭建Python项目(Vscode+uv+FastAPI)
vscode·python·uv
绝知此事14 小时前
2026 AI 技术生态全景指南:从 LLM 到 Agent,从 MCP 到 A2A
人工智能·ai·ai编程
AI算法沐枫14 小时前
大模型 | 大模型之机器学习基本理论
人工智能·python·神经网络·学习·算法·机器学习·计算机视觉
li星野14 小时前
Transformer 核心模块详解:多头注意力、前馈网络与词嵌入
人工智能·深度学习·transformer
灰灰勇闯IT14 小时前
catlass:昇腾NPU上的算子模板库
人工智能
桜吹雪14 小时前
所有智能体架构(2):ReAct(推理 + 行动)
人工智能
埃菲尔铁塔_CV算法14 小时前
YOLO11 与传统纹理特征融合目标检测 完整实现教程
人工智能·神经网络·yolo·计算机视觉
快乐的哈士奇14 小时前
LangFuse 自托管实战:选型理由、Docker 部署与常用配置全解析
运维·人工智能·docker·容器