机器学习-特征工程

威尔逊·柏斯科·希伯理2026-04-30 8:49

可以增加，减少，转换特征

定义一个标准，选择与目标变量最密切的特征，剔除冗余无关的特征

过滤法：基于某种标准评估该特征重要性（卡方检验，相关系数，信息增益，低方差过滤法）

包裹法：在模型训练过程中进行特征选择，每次模型迭代就进行特征筛除

（特征干扰法：给一些特征加上一些相同噪声进行干扰，如果模型越差说明该特征越重要，影响越小或者模型反而更加好之后，说明该特征重要性越小或者呈现反作用）

嵌入法：利用模型本身的特征选择机制（决策树，L1正则化）

对数据进行数学或者统计处理

归一化：把特征缩放到一个特定范围内（0~1之间），适用于KNN,SVM

标准化：将特征值减去均值除以标准差，是特征的分布具有均值0，标准差1（标准正态分布）,只是将原有的分布转换为了标准分布

对数变换：针对有偏态的分布，原有数据差别特别大，比如1万和1亿，此时取10为底的对数，得到的结果为4和8，差别变小了很多

类别变量的编码

独热编码：将类别型变量映射为二进制序列，常用于无序类别特征

标签编码：将类别型变量映射为整数，常用于有序类别特征

目标编码：换成平均数

频率编码：换成出现次数

通过组合，转换，聚合现有特征，形成能够更好反映数据规律的特征

交互特征：乘积，和，差之类的

统计特征：算平均数，方差，最大最小值

日期和时间特征：收集如周几，某月，节假日等特征

做出特征转换，提取出本质和重要的再删减

降低特征数量，减少计算复杂度，并且保持数据本质

主成分分析PCA

通过线性变换，将原始特征映射到一个新的空间，使得新的特征尽可能保留原数据方差

线性判别分析LDA，t-SNE，自编码器等等