【Preprocessing数据预处理】之Scaler

在机器学习中,特征缩放是训练模型前数据预处理阶段的一个关键步骤。不同的缩放器被用来规范化或标准化特征。这里简要概述了您提到的几种缩放器:

StandardScaler

`StandardScaler` 通过去除均值并缩放至单位方差来标准化特征。这种缩放器假设特征分布是正态的,并将它们缩放为均值为零和标准差为一。用于缩放特征 `X` 的公式是:

其中 `μ` 是特征值的平均值,`σ` 是标准差。

MinMaxScaler

`MinMaxScaler` 将特征缩放到给定范围,通常在零和一之间,或者使最小和最大值与某个特定范围对齐。转换公式为:

其中 `X_min` 和 `X_max` 分别是特征的最小值和最大值。这种缩放将所有内点压缩到 [0, 1] 范围内。

RobustScaler

`RobustScaler` 使用类似于 `StandardScaler` 的方法,但它使用中位数和四分位数范围而不是均值和方差。这使得 `RobustScaler` 对异常值的敏感度较低。公式是:

其中 `M` 是中位数,`IQR` 是特征值的四分位数范围。

何时使用每种缩放器:

  • **StandardScaler**:当您的特征大致呈正态分布,并且您希望假设您的特征具有高斯分布时。

  • **MinMaxScaler**:当您知道特征的边界并希望将特征转换为在这些边界之间缩放时。

  • **RobustScaler**:当您的特征中有异常值并希望减少其影响时。

需要注意的是,特征缩放可能会影响您的机器学习模型的性能,特别是对于那些计算数据点之间距离的算法,比如 SVM 或 k-NN,或者那些对特征缩放敏感的基于梯度下降的算法。对于基于树的算法,特征缩放则不那么重要,因为它们是尺度不变的。

相关推荐
QQ6765800811 分钟前
智慧工厂之扬尘识别 铲车装载识别 工程重型机械识别 磁铁识别 深度学习YOLO格式图像识别第10435期
人工智能·深度学习·yolo·扬尘识别·铲车装载·工程重型机械·磁铁识别
Raink老师14 分钟前
【AI面试临阵磨枪】KV Cache 是什么?为什么能加速推理?如何实现?
人工智能·ai 面试
newsxun1 小时前
第十六届北京国际电影节东郎分会场启幕
人工智能
大嘴皮猴儿1 小时前
从零开始学商品图翻译:小白也能快速掌握的多语言文字处理与上架技巧
大数据·ide·人工智能·macos·新媒体运营·xcode·自动翻译
思绪无限1 小时前
YOLOv5至YOLOv12升级:行人跌倒检测系统的设计与实现(完整代码+界面+数据集项目)
深度学习·yolo·目标检测·yolov12·yolo全家桶·行人跌倒检测系统
大黄说说1 小时前
AI大模型对内容创作的颠覆:机遇、版权争议与行业新规则
人工智能
captain_AIouo1 小时前
OZON航海引领者Captain AI指引运营新航向
大数据·人工智能·经验分享·aigc
AI医影跨模态组学1 小时前
PLOS Medicine 中山大学肿瘤防治中心蔡木炎等团队:基于多视角深度学习的组织病理学分析用于II期结直肠癌的预后与治疗分层
人工智能·深度学习·论文·医学·医学影像
起个名字总是说已存在1 小时前
github开源AI技能:Awesome DESIGN.md让页面设计无限可能
人工智能·开源·github
Aray12341 小时前
大模型推理全栈技术解析:从Transformer到RoPE/YaRN的上下文优化
人工智能·深度学习·transformer