Normalizer(归一化)和MinMaxScaler(最小-最大标准化)的区别详解

1.Normalizer(归一化)(更加推荐使用)

优点:将每个样本向量的欧几里德长度缩放为1,适用于计算样本之间的相似性。

缺点:只对每个样本的特征进行缩放,不保留原始数据的分布形状。

公式:对于每个样本,公式为:x / ||x||,其中x是样本向量,||x||是x的欧几里德范数。

2.MinMaxScaler(最小-最大标准化)

优点:将数据缩放到指定的范围(通常是0到1之间),保留了原始数据的形式。适用于需要保留原始数据分布形状的算法。

缺点:受异常值的影响较大,对分布不均匀的数据集可能导致信息损失。

公式:对于每个特征,公式为:(x - min) / (max - min),其中x是特征值,min是特征的最小值,max是特征的最大值。

3.Normalizer和MinMaxScaler区别

Normalizer和MinMaxScaler是不同的数据标准化方法。

Normalizer是一种将每个样本向量的长度缩放为1的归一化方法,它逐个样本对特征向量进行归一化,使得每个样本的特征向量都具有相同的尺度。

MinMaxScaler是一种将特征缩放到指定范围(通常是0到1之间)的标准化方法。它通过对每个特征进行线性变换,将特征值缩放到指定的最小值和最大值之间。

这两种方法有相似之处,都可以将数据缩放到一定范围内,但是归一化和最小-最大标准化的方式和目的不同。

归一化(Normalizer)在每个样本上进行操作,主要是为了保持样本之间的向量方向或角度关系,使得样本之间的相似性或距离计算更具可比性。

最小-最大标准化(MinMaxScaler)在每个特征上进行操作,主要是为了将特征值缩放到指定的范围,保留特征之间的相对关系。

因此,虽然它们都属于数据标准化的方法,但实际应用中,选择使用归一化还是最小-最大标准化取决于数据的特点和具体任务的需求。

4.案例解释

当使用Normalizer进行归一化时,每个样本的特征向量都会被调整为单位范数(默认为L2范数)。假设我们有一个包含两个样本的数据集,每个样本有两个特征。数据集如下:

bash 复制代码
样本1: [2, 4]
样本2: [1, 3]

使用Normalizer进行归一化后,结果如下:

bash 复制代码
from sklearn.preprocessing import MinMaxScaler,StandardScaler,Normalizer,RobustScaler
>>> scaler_x = Normalizer()
>>> scaler_x.fit_transform(x)
array([[0.4472136 , 0.89442719],
       [0.31622777, 0.9486833 ]])
bash 复制代码
样本1归一化后: [0.447, 0.894]
样本2归一化后: [0.316, 0.949]

每个样本的特征向量都被缩放到单位长度。

而当使用MinMaxScaler进行最小-最大标准化时,特征值会被缩放到一个指定的范围(通常是0到1之间)。假设我们有相同的数据集:

bash 复制代码
样本1: [2, 4]
样本2: [1, 3]

使用MinMaxScaler进行最小-最大标准化,将特征值缩放到0到1之间,结果如下:

bash 复制代码
from sklearn.preprocessing import MinMaxScaler,StandardScaler,Normalizer,RobustScaler
>>> scaler_x = MinMaxScaler()
>>> import numpy as np
>>> x = np.array([[2,4],[1,3]])
>>> scaler_x.fit_transform(x)
array([[1., 1.],
       [0., 0.]])
bash 复制代码
样本1标准化后: [1, 1]
样本2标准化后: [0, 0]

特征值被缩放到指定的范围之间。

可以看到,Normalizer(归一化)通过调整每个样本的特征向量的长度来进行归一化,而MinMaxScaler(最小-最大标准化)通过线性变换将特征值缩放到指定的范围内。在这个例子中,归一化操作将样本1归一化后的特征向量缩放到单位长度,而最小-最大标准化将样本1标准化后的特征值缩放到0到1之间。

相关推荐
RFdragon17 小时前
分享本周所学——三维重建算法3D Gaussian Splatting(3DGS)
人工智能·线性代数·算法·机器学习·计算机视觉·矩阵·paddlepaddle
星河耀银海17 小时前
3D效果:HTML5 WebGL结合AI实现智能3D场景渲染
前端·人工智能·深度学习·3d·html5·webgl
balmtv21 小时前
2026年多模态AI文件处理与联网搜索完全教程:国内镜像方案实测
人工智能
2501_9269783321 小时前
AI的三次起落发展分析,及未来预测----理论5.0的应用
人工智能·经验分享·笔记·ai写作·agi
前网易架构师-高司机21 小时前
带标注的瓶盖识别数据集,识别率99.5%,可识别瓶盖,支持yolo,coco json,pascal voc xml格式
人工智能·yolo·数据集·瓶盖
软件供应链安全指南21 小时前
以AI治理AI|问境AIST首家通过信通院大模型安全扫描产品能力评估!
人工智能·安全·ai安全·问境aist·aist·智能体安全
_爱明21 小时前
CUDA索引越界问题(Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions)
人工智能·深度学习
这张生成的图像能检测吗21 小时前
(论文速读)TCN:序列建模不一定需要 RNN
人工智能·深度学习·transformer·卷积·时序预测
大师影视解说1 天前
基于Web端的AI电影解说自动化生产工具实测:4步完成从文案到成片的全流程
运维·人工智能·自动化·影视解说·电影解说工具·网页版电影解说·ai电影解说
是大强1 天前
GaN器件
人工智能·神经网络·生成对抗网络