数据挖掘--数据预处理

数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 -- 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数值数据的协方差

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或"压缩"表示
相关推荐
编程界一哥4 小时前
英雄联盟报错丢失xxx.dll快速修复工具:哪个安全有效?(2026版)
数据挖掘
涛声依旧393165 小时前
Python项目实战:学生信息管理系统
开发语言·python·数据挖掘
databook10 小时前
理论都会,实战就废?7个分析模板,帮你打通任督二脉
python·数据挖掘·数据分析
babe小鑫12 小时前
2026大专商务英语毕业学习数据分析指南
学习·数据挖掘·数据分析
YangYang9YangYan13 小时前
2026经济学专业工作后学数据分析的价值分析
数据挖掘·数据分析
YangYang9YangYan13 小时前
2026年大数据专业数据分析学习指南
大数据·数据挖掘·数据分析
AC赳赳老秦14 小时前
OpenClaw阿里云部署实操:多Agent协同,打造云端自动化工作流
人工智能·阿里云·数据挖掘·自动化·云计算·deepseek·openclaw
Omics Pro14 小时前
Cell|全球微生物群落整合数据库
人工智能·语言模型·自然语言处理·数据挖掘·数据分析
编程界一哥14 小时前
英雄联盟运行库修复工具安全吗?会封号吗?
数据挖掘
AI浩17 小时前
PaveSync:用于路面病害分析与分类的统一综合数据集
人工智能·机器学习·分类·数据挖掘