sklearn.preprocessing中的标准化StandardScaler与scale的区别

StandardScaler与scale

1、标准化概述

标准化主要用于对样本数据在不同特征维度进行伸缩变换,目的是使得不同度量之间的特征具有可比性,同时不改变原始数据的分布

一些机器学习算法对输入数据的规模和量纲非常敏感,如果输入数据的特征之间存在数量级差异,可能会影响算法的准确性和性能

标准化处理的好处是我们在进行特征提取时,可以忽略不同特征之间由于噪声所导致的度量差异,而保留样本在各个维度上的信息分布,提高算法的准确性和性能,增加数据的可解释性

标准化的过程如下:

  • 计算数据列的算数平均值(mean)
  • 计算数据列的标准差/方差(std)
  • 对每个数据列分别进行转化:(X-mean)/std

sklearn.preprocessing提供了两种直接对给定数据进行标准化的方式:scale()函数和StandardScaler类,它们之间有什么区别呢?

2、两种标准化的区别

1)scale()函数

python 复制代码
import numpy as np
from sklearn.preprocessing import scale, StandardScaler

# A、scale(X, axis)函数:axis:用来计算均值和标准差的轴,默认0,对每个特征进行标准化(列),1为对每个样本进行标准化(行)
# 样本数据
X = np.array([[1, -1, 2], [2, 1, 0]])
# 直接标准化处理
X_scaled = scale(X)
print(X_scaled)
'''
[[-1. -1.  1.]
 [ 1.  1. -1.]]
'''
# 处理后数据的均值和方差
print(X_scaled.mean(axis=0))    # [0. 0. 0.]
print(X_scaled.std(axis=0))     # [1. 1. 1.]

2)StandardScaler类

python 复制代码
# B、StandardScaler类
ss = StandardScaler()
# 标准化处理,如果在训练集上进行标准化,同时可以使用保存在训练集中的参数(均值、方差)对测试集数据进行转化
X_scaled = ss.fit_transform(X)
print(X_scaled)
'''
[[-1. -1.  1.]
 [ 1.  1. -1.]]
'''
# 处理后数据的均值和方差
print(X_scaled.mean())    # 0.0
print(X_scaled.std())     # 1.0
# 使用训练集标准化后的均值和方差对测试集数据进行转换
print(ss.transform([[-1, 2, 0]]))
'''
[[-5.  2. -1.]]
'''

StandardScaler类与scale函数标准化的区别总结如下:

  • scale()函数:不能将原数据集(训练集)的均值和方差应用到新的数据集(测试集),如果使用全部样本,标准化计算的结果是训练集和测试集共同的期望和方差
  • StandardScaler类:可以将原数据集(训练集)的均值和方差应用到新的数据集(测试集),即假设训练集的期望和测试集的期望是一样的,测试集的标准化是用的训练集的期望和方差

在机器学习中,我们通常是从整体中以抽样的方式抽出训练集,这意味着我们默认这部分训练集可以代替整体,也就是训练集的期望就是整体的期望,测试集标准化时,它的期望采用的正是训练集的期望,所以StandardScaler类才是我们经常用的方式

更多关于StandardScaler类的使用见文章:传送门

相关推荐
开发者每周简报5 分钟前
微软的AI转型故事
人工智能·microsoft
dundunmm8 分钟前
机器学习之scikit-learn(简称 sklearn)
python·算法·机器学习·scikit-learn·sklearn·分类算法
古希腊掌管学习的神9 分钟前
[机器学习]sklearn入门指南(1)
人工智能·python·算法·机器学习·sklearn
一道微光22 分钟前
Mac的M2芯片运行lightgbm报错,其他python包可用,x86_x64架构运行
开发语言·python·macos
普密斯科技37 分钟前
手机外观边框缺陷视觉检测智慧方案
人工智能·计算机视觉·智能手机·自动化·视觉检测·集成测试
四口鲸鱼爱吃盐1 小时前
Pytorch | 利用AI-FGTM针对CIFAR10上的ResNet分类器进行对抗攻击
人工智能·pytorch·python
lishanlu1361 小时前
Pytorch分布式训练
人工智能·ddp·pytorch并行训练
是娜个二叉树!1 小时前
图像处理基础 | 格式转换.rgb转.jpg 灰度图 python
开发语言·python
互联网杂货铺1 小时前
Postman接口测试:全局变量/接口关联/加密/解密
自动化测试·软件测试·python·测试工具·职场和发展·测试用例·postman
日出等日落1 小时前
从零开始使用MaxKB打造本地大语言模型智能问答系统与远程交互
人工智能·语言模型·自然语言处理