数据挖掘(三)特征构造

前言

基于国防科技大学 丁兆云老师的《数据挖掘》课程
数据挖掘
数据挖掘(一)数据类型与统计
数据挖掘(二)数据预处理

3、特征构造
3.1 基本特征构造方法:

3.1.1 运用已有知识直接构造:

一般是根据原有特征挖掘新的更有用的特征,比如给出了质量和体积,则可以构造出密度特征

3.1.2 其它常见技巧:

常见构造特征技巧及运用场景:

3.1.3 时间类型数据特征构造:

时间特征(Time-Based Features):

如果数据中包含时间信息,可以从中提取各种时间特征,如年、月、日、季节、工作日、周末等。这些时间特征可以帮助模型捕捉到时间的周期性和趋势性,对于时间序列数据或具有时间相关性的数据集特别有用。

例:

3.2 离散数据进行哑编码:

哑编码(Dummy Encoding)和独热编码(One-Hot Encoding)是常用的特征编码方法,用于将分类变量转换为数值表示。它们在不同的情况下有不同的适用性,选择哪种编码方法取决于数据的特点和机器学习算法的需求。

  1. 哑编码(Dummy Encoding):
    哑编码是一种将分类变量转换为二进制(0和1)表示的编码方法。对于具有k个类别的分类变量,哑编码会创建k-1个二进制特征(或称为哑变量),并用0和1表示类别的存在与否。其中,k-1个特征中的每一个对应于一个类别,而最后一个类别作为参考类别,不需要单独编码。哑编码的主要优点是编码后的特征具有较低的维度,适用于线性模型和一些需要较少特征的机器学习算法。
  2. 独热编码(One-Hot Encoding):
    独热编码是一种将分类变量转换为二进制向量表示的编码方法。对于具有k个类别的分类变量,独热编码会创建k个二进制特征,每个特征对应一个类别,并且只有一个特征的值为1,其余特征的值为0。独热编码的优点是它能够保留所有类别之间的相互独立性,适用于大多数机器学习算法,特别是需要考虑类别之间距离或关系的算法,如决策树、支持向量机等。
python 复制代码
import pandas as pd

# 创建包含分类变量的数据集
data = pd.DataFrame({'颜色': ['红', '蓝', '绿', '红', '绿']})

# 哑编码
dummy_encoded = pd.get_dummies(data['颜色'], prefix='颜色')
print(dummy_encoded)

# 独热编码
one_hot_encoded = pd.get_dummies(data['颜色'], prefix='颜色', drop_first=True)
print(one_hot_encoded)
python 复制代码
颜色_红  颜色_蓝  颜色_绿
0      1      0      0
1      0      1      0
2      0      0      1
3      1      0      0
4      0      0      1

   颜色_蓝  颜色_绿
0      0      0
1      1      0
2      0      1
3      0      0
4      0      1

例题:

1.类别无序:

采用哑编码或者onehot编码

2.类别有序:

直接映射到[0,m]

相关推荐
渡我白衣4 小时前
多路转接之epoll:理论篇
人工智能·神经网络·网络协议·tcp/ip·自然语言处理·信息与通信·tcpdump
明月照山海-4 小时前
机器学习周报二十八
人工智能·机器学习
weixin_4374977710 小时前
读书笔记:Context Engineering 2.0 (上)
人工智能·nlp
喝拿铁写前端10 小时前
前端开发者使用 AI 的能力层级——从表面使用到工程化能力的真正分水岭
前端·人工智能·程序员
goodfat10 小时前
Win11如何关闭自动更新 Win11暂停系统更新的设置方法【教程】
人工智能·禁止windows更新·win11优化工具
北京领雁科技10 小时前
领雁科技反洗钱案例白皮书暨人工智能在反洗钱系统中的深度应用
人工智能·科技·安全
落叶,听雪10 小时前
河南建站系统哪个好
大数据·人工智能·python
清月电子11 小时前
杰理AC109N系列AC1082 AC1074 AC1090 芯片停产替代及资料说明
人工智能·单片机·嵌入式硬件·物联网
Dev7z11 小时前
非线性MPC在自动驾驶路径跟踪与避障控制中的应用及Matlab实现
人工智能·matlab·自动驾驶
七月shi人11 小时前
AI浪潮下,前端路在何方
前端·人工智能·ai编程