《零基础入门Spark》学习笔记 Day 14

talen_hx2962026-04-11 12:12

特征工程-上

特征工程是机器学习流程中至关重要的环节，旨在通过数据转换、组合或创建新特征，提升模型性能。其核心目标包括提高数据质量、增强特征与目标变量的相关性，以及降低计算复杂度。

对于原始数据中的字段，我们会把它们分为数值型和非数值型。

Spark MLlib特征处理函数可以分为如下几类：

预处理（StringIndexer）

作用是以数据列为单位，把字段中的字符串转换为数值索引。

StringIndexed的用法比较简单，可以分为三个步骤：

第一步，实例化StringIndexer对象；

第二步，通过setInputCol和setOutputCol来指定输入列和输出列；

第三步，调用fit和transform函数，完成数据转换

特征选择（ChiSqSelector）

就是依据一定的标准，对特征字段进行遴选。实际上，面对数量众多的候选特征，业务经验往往是特征选择的重要出发点之一。与此同时，我们还会使用一些统计方法，去计算候选特征与预测标的之间的关联性，从而以量化的方式，衡量不同特征对于预测标的重要性。要使用ChiSqSelector来选择数值型字段，需要完成两步：

第一步，使用VectorAssembler创建特征向量

第二步，基于特征向量，使用ChiSqSelector完成特征选择。

归一化（MinMaxScaler）

用于是把一组数值，统一映射到同一个值域，而这个值域通常是 $0,1$ 。当原始数据之间的量纲差异较大时，抖动较大，模型不容易收敛，从而导致训练效率较差。相反，当所有特征数据都被约束到同一个值域时，模型训练的效率会得到大幅提升。

MinMaxScaler的用法，也分为两步：

第一步，使用VectorAssembler创建特征向量；

第二步，基于特征向量，使用使用MinMaxScaler完成归一化

归一化的目标，在于去掉不同特征之间量纲的影响，避免量纲不一致而导致的梯度下降震荡，模型收敛效率低下等问题。

离散化

Embedding

向量计算