关于sklearn中StandardScaler的使用方式

文章目录

  • 背景
  • 标准化过程
  • 例子
  • [fit_transform和fit + transform的区别和使用场景](#fit_transform和fit + transform的区别和使用场景)

背景

在机器学习中经常会使用StandardScaler 进行数据归一化,注意一旦调整好StandardScaler以后就保存下来,后面如果进行测试单个时,可以进行加载并对其进行标准化

StandardScaler 是一种常用的数据标准化 方法,用于将数据转换为均值为 0标准差为 1 的标准正态分布。

标准化过程

  1. 计算原始数据的均值 mean 和标准差 std

  2. 对原始数据进行标准化处理,即对每个数据点减去均值 ,再除以标准差

  3. StandardScaler 中,均值和标准差的计算分别基于训练数据的样本 ,可以使用 fit 方法计算均值和标准差。然后,使用 transform 方法将数据标准化为标准正态分布。

PS: StandardScaler 在计算过程中用的是 "总体标准差",而不是"样本标准差"

总体标准差:
σ = ∑ i = 1 n ( x i − x ˉ ) 2 n \sigma = \sqrt{\frac{\sum_{i = 1}^{n}(x_{i} - \textcolor{myblue}{\bar{x}})^{2}}{n}} σ=n∑i=1n(xi−xˉ)2

x x x 为某个样本, x ˉ \textcolor{myblue}{\bar{x}} xˉ 为总体样本的均值, n n n 为总体样本的数量。

样本标准差:

S = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 S = \sqrt{\frac{\sum_{i = 1}^{n}(x_{i} - \textcolor{myblue}{\bar{x}})^{2}}{n - 1}} S=n−1∑i=1n(xi−xˉ)2

x x x 为某个抽样样本, x ˉ \textcolor{myblue}{\bar{x}} xˉ 为抽样样本的均值, n n n 为抽样样本的数量。

例子

python 复制代码
from sklearn.preprocessing import StandardScaler
import numpy as np
import pickle
import os

# 创建一个 3 x 2 的矩阵
X = np.array([[1, 2], [3, 4], [5, 6]])

# 创建 StandardScaler 对象
scaler = StandardScaler()

# 计算均值和标准差
scaler.fit(X)

# 将数据标准化为标准正态分布
X_scaled = scaler.transform(X)

# 打印结果
print("原始数据:\n", X)
print("均值:", scaler.mean_)
print("标准差:", scaler.scale_)
print("标准化后的数据:\n", X_scaled)

scaler_filename = 'standard_scaler.pkl'
with open(scaler_filename, 'wb') as file:
    pickle.dump(scaler, file)
print(f"\nStandardScaler 对象已保存到文件: {scaler_filename}")

输出结果:

python 复制代码
原始数据:
 [[1 2]
  [3 4]
  [5 6]]
均值: [3. 4.]
标准差: [1.63299316 1.63299316]
标准化后的数据:
 [[-1.22474487 -1.22474487]
  [ 0.          0.        ]
  [ 1.22474487  1.22474487]]
StandardScaler 对象已保存到文件: standard_scaler.pkl

在上面的代码中,我们首先创建了一个 3 x 2 的矩阵 X,然后创建了一个 StandardScaler 对象 scaler。通过调用 fit 方法计算了均值和标准差,并通过调用 transform 方法将原始数据标准化为标准正态分布。最后,我们打印了原始数据、均值、标准差和标准化后的数据

使用 Python 内置的 pickle 模块保存 StandardScaler 对象

fit_transform和fit + transform的区别和使用场景

要注意fit_transformfit + transform 的区别在于

  • fit_transform 是一个组合方法,它将拟合数据和转换数据这两个步骤合并到一个方法中。它首先拟合数据,然后应用相同的拟合参数转换数据。在使用 fit_transform 方法时,你只需在训练集上调用一次,就可以同时进行拟合和转换,这样能够节省时间和代码。
  • fittransform 是单独的方法。fit 方法用于从数据中学习模型参数,例如,对于 StandardScaler,它计算并保存数据集的均值和标准差transform 方法用于使用已学习的模型参数来转换数据。通常,你会在训练集上调用 fit 方法来拟合模型 ,并在训练集和测试集上分别调用 transform 方法来转换数据

在使用机器学习算法时,通常将数据集分成训练集和测试集。通常情况下,我们只使用训练集拟合模型并保存模型,然后使用已保存的模型在测试集上转换数据。因此,在训练集 上使用 fit_transform 方法,而在测试集 上使用 transform 方法。

python 复制代码
from sklearn.preprocessing import StandardScaler
import numpy as np

# 创建一个 3 x 2 的矩阵
X = np.array([[1, 2], [3, 4], [5, 6]])

# 使用 fit_transform 方法标准化数据
scaler = StandardScaler()
X_scaled1 = scaler.fit_transform(X)

# 使用 fit 和 transform 方法标准化数据
scaler = StandardScaler()
scaler.fit(X)
X_scaled2 = scaler.transform(X)

# 打印结果
print("使用 fit_transform 方法标准化的结果:\n", X_scaled1)
print("使用 fit 和 transform 方法标准化的结果:\n", X_scaled2)

输出结果:

python 复制代码
使用 fit_transform 方法标准化的结果:
 [[-1.22474487 -1.22474487]
  [ 0.          0.        ]
  [ 1.22474487  1.22474487]]
使用 fit 和 transform 方法标准化的结果:
 [[-1.22474487 -1.22474487]
  [ 0.          0.        ]
  [ 1.22474487  1.22474487]]

参考: https://www.cnblogs.com/chentiao/p/17203643.html

相关推荐
AngelPP3 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年3 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
AI探索者3 小时前
LangGraph StateGraph 实战:状态机聊天机器人构建指南
python
AI探索者3 小时前
LangGraph 入门:构建带记忆功能的天气查询 Agent
python
九狼3 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS3 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区4 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈4 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
FishCoderh5 小时前
Python自动化办公实战:批量重命名文件,告别手动操作
python
躺平大鹅5 小时前
Python函数入门详解(定义+调用+参数)
python