机器学习-特征工程

可以增加,减少,转换特征

特征选择:(减少)

定义一个标准,选择与目标变量最密切的特征,剔除冗余无关的特征

过滤法:基于某种标准评估该特征重要性(卡方检验,相关系数,信息增益,低方差过滤法)

包裹法:在模型训练过程中进行特征选择,每次模型迭代就进行特征筛除

(特征干扰法:给一些特征加上一些相同噪声进行干扰,如果模型越差说明该特征越重要,影响越小或者模型反而更加好之后,说明该特征重要性越小或者呈现反作用)

嵌入法:利用模型本身的特征选择机制(决策树,L1正则化)

特征转换:(转换)

对数据进行数学或者统计处理

归一化:把特征缩放到一个特定范围内(0~1之间),适用于KNN,SVM

标准化:将特征值减去均值除以标准差,是特征的分布具有均值0,标准差1(标准正态分布),只是将原有的分布转换为了标准分布

对数变换:针对有偏态的分布,原有数据差别特别大,比如1万和1亿,此时取10为底的对数,得到的结果为4和8,差别变小了很多

类别变量的编码

独热编码:将类别型变量映射为二进制序列,常用于无序类别特征

标签编码:将类别型变量映射为整数,常用于有序类别特征

目标编码:换成平均数

频率编码:换成出现次数

特征构造:(增加)

通过组合,转换,聚合现有特征,形成能够更好反映数据规律的特征

交互特征:乘积,和,差之类的

统计特征:算平均数,方差,最大最小值

日期和时间特征:收集如周几,某月,节假日等特征

特征降维(与特征选择类似):(减少)

做出特征转换,提取出本质和重要的再删减

降低特征数量,减少计算复杂度,并且保持数据本质

主成分分析PCA

通过线性变换,将原始特征映射到一个新的空间,使得新的特征尽可能保留原数据方差

线性判别分析LDA,t-SNE,自编码器等等

相关推荐
橙序员小站几秒前
从"夯"到"拉":谷歌苹果华为开发者大会,谁在裸泳?
人工智能·后端
Cho1yon2 分钟前
【AI Agent 第十三期:OpenCode 使用指南】
人工智能
EMA8 分钟前
ERP结合多 Agent 项目技术解析文档
人工智能
世间一点尘9 分钟前
我让 Claude Code 修一个 Bug,它却重构了半个项目
人工智能
科技林总9 分钟前
大模型分类测评指标清单
人工智能·可用性测试
为码消得人憔悴10 分钟前
从零开始搭建 Obsidian 知识库
人工智能·aigc·agent
EMA14 分钟前
MaxKB 技术解析文档
人工智能
湘美书院--湘美谈教育14 分钟前
湘美谈教育AI赋能系列经验集锦:学好唐诗宋词的点滴心得体会
大数据·人工智能·深度学习·神经网络·机器学习
迦蓝叶20 分钟前
【开源自荐】JAiRouter:一个轻量级 AI 模型服务网关的开源实践
java·人工智能·spring·开源·llm-gateway·mass