不同字段的特征工程

本次主要内容是:特征工程中类别字段、数值字段和日期字段的编码方法。对于类别字段,为了避免标签信息泄露,可以使用平均值来代替某个取值对应的标签。此外,还介绍了数值字段的处理方法,包括缩放和分箱。缩放是为了避免标签泄露和模型学习细枝末节规律,而分箱则是手动将数值划分为不同的区间。对于日期字段,介绍了提取离散特性和避免信息泄露的方法。此外,还强调了不同类型特征的注意事项,如数值类型特征容易出现异常值和离群点。

一、类别字段的特征工程

1.可以使用One-Hot Encoding,但维度较大时可能导致问题。

2.Label Encoding的优点是不增加原始类别的维度,缺点是编码后字段间会产生大小关系。

3.大部分情况下:对于取值空间小的类别(小于10的),使用One-Hot Encoding;取值空间大的类别(大于10的),使用Label Encoding。

4.顺序编码ordinal encode:识别字段的大小关系,需要人工进行参与,而且对字段有一定的理解,用顺序编码是比较好。

5.binary encode:与onehot差不多,但是是以二进制的形式进行编码,是onehot的一种压缩版本。

6.frequency/count encode,利用出现次数或频率来进行编码,优点是任何字段都可以使用。缺点是只有数据集分布整体比较一致的情况下才能使用。也可以单纯用来计数。

7.mean/target encode根据标签的值取平均进行编码,优点:帮助模型快速收敛。缺点:容易过拟合,和标签泄露。利用训练集的target encode作为验证集字段的编码。

二、数值字段的特征工程:信息量大,容易出现异常点和离群点,很少对它进行处理

1.数值型特征如年龄、成绩等,常见于数据集中。

2.数值型特征的处理包括取整和分箱,目的是减少取值空间的精确度,防止模型过拟合。

3.取整可以通过向下取整、向上取整或四舍五入等方式进行。

4.分箱可以将连续的数值区间划分为不同的箱子,便于模型处理。

取整:利于机器学习规则

分箱:用二值化的bins或者box来完成

三、日期字段的特征工程

1.日期型特征需要提取其离散特性,如年、月、日、星期等。

2.可以通过统计日期字段的持续时间、间隔时间、历史中位数等信息来构建特征。

3.日期字段的处理需要注意信息泄露问题,特别是在标签存在先后次序的情况下。

相关推荐
小蚂蚁i3 分钟前
LangChain 完全学习手册:看完就能上手
后端·python·ai编程
哥布林学者18 分钟前
高光谱成像基础(完)光谱融合(Spectral Fusion)
机器学习·高光谱成像
高工智能汽车25 分钟前
前沿之声 | 塑造自动驾驶体验的半导体技术
人工智能·机器学习·自动驾驶
Aawy12042 分钟前
Python生成器(Generator)与Yield关键字:惰性求值之美
jvm·数据库·python
YFJ_mily44 分钟前
【杭州线下召开】2026年计算智能与机器学习国际学术会议(CIML 2026)
人工智能·机器学习
这张生成的图像能检测吗1 小时前
(论文速读)SFAFBR:一种自监督的人工特征偏置校正框架
人工智能·深度学习·神经网络·机器学习·故障诊断·自监督学习
沐硕1 小时前
《基于改进协同过滤与多目标优化的健康饮食推荐系统设计与实现》
java·python·算法·fastapi·多目标优化·饮食推荐·改进协同过滤
乱世军军1 小时前
把 Python 3.13 降级到 3.11
开发语言·python
Y5neKO1 小时前
某国赛CTF逆向题目Writeup:re1
python·逆向·ctf
AEIC学术交流中心1 小时前
【快速EI检索 | ACM出版】第三届机器学习与智能计算国际学术会议(MLIC 2026)
人工智能·机器学习