《机器学习数据标准化》—— 0~1归一化 和 Z标准化

文章目录

1、为什么要数据标准化

主要是基于以下几个方面的原因:

  • 消除量纲影响:在机器学习中,不同的特征往往具有不同的量纲和单位。例如,身高可能以厘米为单位,而体重可能以千克为单位。这种量纲差异会导致数据在分析和建模时受到不必要的影响。通过数据标准化,可以将数据转换为无量纲的形式,从而消除这种影响,使得不同特征之间可以直接进行比较和计算。这样,机器学习算法就能更准确地捕捉数据中的模式和规律。

  • 提高算法性能:许多机器学习算法都假设输入特征是同等重要的,并且具有相似的尺度。如果不同特征的尺度差异很大,那么算法在训练过程中可能会受到较大影响,导致性能下降。通过数据标准化,可以使得所有特征都处于相同的尺度上,这有助于提高算法的稳定性和效率。例如,在梯度下降算法中,标准化后的数据能够使得梯度方向更加准确,从而减少迭代次数,加快收敛速度。

  • 避免特征权重偏差:在某些机器学习算法中,如K-最近邻算法(KNN),特征之间的尺度差异会导致在计算距离时产生偏差。如果某个特征的取值范围远大于其他特征,那么该特征在计算距离时将占据主导地位,导致其他特征的贡献被忽视。通过数据标准化,可以使得所有特征在计算距离时具有相同的权重,从而避免这种情况的发生。

  • 便于数据可视化:在数据可视化过程中,如果不同特征的尺度差异很大,那么绘制出的图形可能会很难解读。通过数据标准化,可以将所有特征都转换到相同的尺度上,使得图形更加直观和易于理解。这有助于研究人员更好地分析数据,发现其中的规律和模式。

  • 提升模型泛化能力:数据标准化还可以提升模型的泛化能力。在训练过程中,如果模型过于依赖某些量纲较大的特征,那么当遇到新的数据时,这些特征的微小变化都可能导致模型性能的显著下降。通过数据标准化,可以使得模型更加关注数据本身的模式和规律,而不是数据的量纲和单位,从而提升模型的泛化能力。

2、常用的两种数据标准化

数据标准化的方法有多种,其中最常用的是最小-最大标准化(也称为0-1归一化 )和Z标准化(也称为标准差标准化)。

1、0~1归一化

  • 0~1归一化也叫做最大最小标准化(Min-Max Normalization) ,通过将原始数据线性地缩放到[0, 1]的范围内来实现,这种方法对于将数据限制在特定范围(如概率、百分比等)内非常有用
  • 公式如下
  • 其中:
    • X原始数据
    • X min 是原始数据中的最小值
    • X max 是原始数据中的最大值
    • X norm是归一化后的数据。
  • 代码示例
    • 运用numpy库中的方法创建一个包含随机数值的二维数组,模拟特征数据集(因为所用的模型方法需要以二维数组的形式传入数据)

    • 假设有5个样本,每个样本有3个特征

    • 在Python中,可以使用sklearn.preprocessing.MinMaxScaler类来实现最大最小标准化

      python 复制代码
      import numpy as np
      from sklearn.preprocessing import MinMaxScaler
      
      # 创建一个包含随机数值的二维数组,模拟特征数据集
      # 假设有5个样本,每个样本有3个特征
      np.random.seed(0)  # 抛出一个随机种子,为了让后面每次运行时生成的随机数值,都与第一次相同
      data = np.random.rand(5, 3) * 10  # 生成一个5x3的数组,每个元素的值在0到10之间
      print("原始数据:")
      print(data)
      
      # 使用MinMaxScaler进行归一化
      min_max_scaler = MinMaxScaler()
      data_min_max = min_max_scaler.fit_transform(data)
      print("\nMinMaxScaler归一化后的数据:")
      print(data_min_max)
      """
      原始数据:
      [[5.45374108 6.36285388 6.89790337]
       [4.22031847 9.29446541 1.72869836]
       [6.29878395 8.68105164 8.78970701]
       [7.65555541 3.81574752 1.61238819]
       [9.50247279 8.58981375 9.87706441]]
      
      MinMaxScaler归一化后的数据:
      [[0.23350749 0.4649092  0.63953082]
       [0.         1.         0.01407317]
       [0.39348822 0.88803699 0.86843315]
       [0.65034771 0.         0.        ]
       [1.         0.87138384 1.        ]]
      """

2、Z标准化

  • Z标准化也称为Z-score标准化或标准差标准化是一种数据预处理技术,用于将数据转化为均值为0,标准差为1的标准正态分布。这种方法在数据分析和机器学习中非常常见,特别是当不同特征具有不同的尺度或单位时,通过Z标准化可以使这些特征在相同的尺度上进行比较和处理。

  • Z标准化的公式如下

  • 其中:

    • x原始数据
    • μ 是所有样本数据的均值
    • σ 是所有样本数据的标准差
    • z 是转化后的数据,即Z分数。
  • Z标准化的步骤

    • 计算均值:首先,需要计算给定数据集的所有样本的均值(μ)。
    • 计算标准差:然后,计算数据集的标准差(σ),它衡量了数据点与均值的偏差程度。
    • 应用公式:最后,使用Z标准化的公式将每个原始数据点转换为Z分数。
  • 代码示例

    • 与上述示例一样,运用numpy库中的方法创建一个包含随机数值的二维数组,模拟特征数据集

    • 假设有5个样本,每个样本有3个特征

    • 在Python中,可以使用sklearn.preprocessing.StandardScaler类 或numpy的std和mean函数结合来实现Z-分数标准化,这里我们使用StandardScaler方法,因为此方法中包含了所有过程的计算,只需要传入数据即可

      python 复制代码
      import numpy as np
      from sklearn.preprocessing import StandardScaler
      
      # 创建一个包含随机数值的二维数组,模拟特征数据集
      # 假设有5个样本,每个样本有3个特征
      np.random.seed(0)  # 抛出一个随机种子,为了让后面每次运行时生成的随机数值,都与第一次相同
      data = np.random.rand(5, 3) * 10  # 生成一个5x3的数组,每个元素的值在0到10之间
      print("原始数据:")
      print(data)
      
      # 使用StandardScaler进行标准化
      scaler_Z = StandardScaler()
      data_scaled = scaler_Z.fit_transform(data)
      print("\nStandardScaler标准化后的数据:")
      print(data_scaled)
      """
      原始数据:
      [[2.91800254 3.2360031  9.66065598]
       [7.47746281 4.00855141 2.03950532]
       [9.8433753  8.32004568 4.55501016]
       [6.00990907 9.91191497 4.61528516]
       [0.15924446 1.95696181 6.33065699]]
      
      StandardScaler标准化后的数据:
      [[-0.69405259 -0.73160863  1.67789759]
       [ 0.64479923 -0.48048456 -1.35200705]
       [ 1.33953196  0.92100707 -0.35192975]
       [ 0.21386292  1.43845911 -0.3279665 ]
       [-1.50414152 -1.14737299  0.35400572]]
      """

3、注意事项

  • 选择适当的方法:根据数据的特性和算法的需求选择合适的数据标准化方法。例如,如果数据集中存在异常值,Z标准化可能会受到影响,而最小-最大标准化则不受影响(但也可能因为异常值而改变缩放范围)。
  • 考虑数据分布:数据标准化会改变数据的原始分布。在解释标准化后的数据时,需要考虑到这一点。
  • 对测试集使用相同的参数:在训练集上进行数据标准化后,应使用相同的均值、标准差(对于Z标准化)或最小值、最大值(对于最小-最大标准化)来标准化测试集。
  • 避免数据泄露:在实际应用中,需要确保在训练模型之前进行数据标准化,以避免在标准化过程中引入测试集的信息,从而导致数据泄露。
相关推荐
风清扬雨19 分钟前
【计算机视觉】超简单!傅里叶变换的经典案例
人工智能·计算机视觉
qq_5895681025 分钟前
node.js web框架koa的使用
笔记·信息可视化·echarts
HuggingFace27 分钟前
自动评估基准 | 设计你的自动评估任务
人工智能·自动评估
c无序28 分钟前
【数据可视化复习方向】
信息可视化
GISer_Jing41 分钟前
神经网络初学总结(一)
人工智能·深度学习·神经网络
szxinmai主板定制专家1 小时前
【国产NI替代】基于A7 FPGA+AI的16振动(16bits)终端PCIE数据采集板卡
人工智能·fpga开发
千天夜1 小时前
多源多点路径规划:基于启发式动态生成树算法的实现
算法·机器学习·动态规划
数据分析能量站1 小时前
神经网络-AlexNet
人工智能·深度学习·神经网络
Ven%2 小时前
如何修改pip全局缓存位置和全局安装包存放路径
人工智能·python·深度学习·缓存·自然语言处理·pip
szxinmai主板定制专家2 小时前
【NI国产替代】基于国产FPGA+全志T3的全国产16振动+2转速(24bits)高精度终端采集板卡
人工智能·fpga开发