数据挖掘(三)特征构造

前言

基于国防科技大学 丁兆云老师的《数据挖掘》课程
数据挖掘
数据挖掘(一)数据类型与统计
数据挖掘(二)数据预处理

3、特征构造
3.1 基本特征构造方法:

3.1.1 运用已有知识直接构造:

一般是根据原有特征挖掘新的更有用的特征,比如给出了质量和体积,则可以构造出密度特征

3.1.2 其它常见技巧:

常见构造特征技巧及运用场景:

3.1.3 时间类型数据特征构造:

时间特征(Time-Based Features):

如果数据中包含时间信息,可以从中提取各种时间特征,如年、月、日、季节、工作日、周末等。这些时间特征可以帮助模型捕捉到时间的周期性和趋势性,对于时间序列数据或具有时间相关性的数据集特别有用。

例:

3.2 离散数据进行哑编码:

哑编码(Dummy Encoding)和独热编码(One-Hot Encoding)是常用的特征编码方法,用于将分类变量转换为数值表示。它们在不同的情况下有不同的适用性,选择哪种编码方法取决于数据的特点和机器学习算法的需求。

  1. 哑编码(Dummy Encoding):
    哑编码是一种将分类变量转换为二进制(0和1)表示的编码方法。对于具有k个类别的分类变量,哑编码会创建k-1个二进制特征(或称为哑变量),并用0和1表示类别的存在与否。其中,k-1个特征中的每一个对应于一个类别,而最后一个类别作为参考类别,不需要单独编码。哑编码的主要优点是编码后的特征具有较低的维度,适用于线性模型和一些需要较少特征的机器学习算法。
  2. 独热编码(One-Hot Encoding):
    独热编码是一种将分类变量转换为二进制向量表示的编码方法。对于具有k个类别的分类变量,独热编码会创建k个二进制特征,每个特征对应一个类别,并且只有一个特征的值为1,其余特征的值为0。独热编码的优点是它能够保留所有类别之间的相互独立性,适用于大多数机器学习算法,特别是需要考虑类别之间距离或关系的算法,如决策树、支持向量机等。
python 复制代码
import pandas as pd

# 创建包含分类变量的数据集
data = pd.DataFrame({'颜色': ['红', '蓝', '绿', '红', '绿']})

# 哑编码
dummy_encoded = pd.get_dummies(data['颜色'], prefix='颜色')
print(dummy_encoded)

# 独热编码
one_hot_encoded = pd.get_dummies(data['颜色'], prefix='颜色', drop_first=True)
print(one_hot_encoded)
python 复制代码
颜色_红  颜色_蓝  颜色_绿
0      1      0      0
1      0      1      0
2      0      0      1
3      1      0      0
4      0      0      1

   颜色_蓝  颜色_绿
0      0      0
1      1      0
2      0      1
3      0      0
4      0      1

例题:

1.类别无序:

采用哑编码或者onehot编码

2.类别有序:

直接映射到[0,m]

相关推荐
AC赳赳老秦1 分钟前
文旅行业:DeepSeek处理客流数据生成预测模型与调度建议
人工智能·云原生·容器·kubernetes·notepad++·consul·deepseek
OLOLOadsd1232 分钟前
YOLO11改进_C3k2-ODConv优化_车轮缺陷检测与分类系统_裂纹划痕识别_原创
人工智能·分类·数据挖掘
OLOLOadsd1234 分钟前
基于YOLO13-C3k2-RFCBAMConv的注射器和药瓶计数检测系统_1
人工智能·计算机视觉·目标跟踪
Coding茶水间4 分钟前
基于深度学习的红外镜头下的行人识别系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
开发语言·人工智能·深度学习·yolo·目标检测·机器学习
CoderJia程序员甲5 分钟前
GitHub 热榜项目 - 日榜(2026-01-23)
人工智能·ai·大模型·github·ai教程
DS随心转小程序5 分钟前
ChatGPT和Gemini转pdf
人工智能·ai·chatgpt·pdf·豆包·deepseek·ds随心转
DS随心转APP5 分钟前
deepseek输出word指令
人工智能·ai·chatgpt·deepseek·ds随心转
Solar20256 分钟前
机械制造ToB企业获客困境与数字化解决方案架构深度解析
大数据·人工智能·架构
weixin199701080166 分钟前
马可波罗 item_search - 根据关键词获取商品列表接口对接全攻略:从入门到精通
大数据·人工智能
焦耳加热8 分钟前
江苏大学《Prog. Solid State Ch.》综述:超快焦耳加热技术—电池材料非平衡合成与结构精准调控的新范式
人工智能·科技·能源·制造·材料工程