数据挖掘--数据预处理

数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 -- 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数值数据的协方差

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或"压缩"表示
相关推荐
后端小张22 分钟前
【AI 学习】深度解析Transformer核心:注意力机制的原理、实现与应用
人工智能·深度学习·学习·机器学习·自然语言处理·数据挖掘·transformer
upper202023 分钟前
图数据挖掘
人工智能·数据挖掘
STLearner18 小时前
AAAI 2026 | 时空数据(Spatial-temporal)论文总结[上](时空预测,轨迹挖掘,自动驾驶等)
大数据·人工智能·python·深度学习·机器学习·数据挖掘·自动驾驶
clarance201518 小时前
2025主流BI工具可信能力评估报告:从合规到智能的架构解析
数据库·人工智能·信息可视化·架构·数据挖掘·数据分析
大鹏的NLP博客1 天前
大模型中为什么 CoT 对分类有效?
人工智能·分类·数据挖掘
STLearner1 天前
AAAI 2026 | 时空数据(Spatial-temporal)论文总结[下](自动驾驶,天气预报,城市科学,POI推荐等)
人工智能·python·深度学习·机器学习·数据挖掘·自动驾驶·智慧城市
算法与编程之美1 天前
不同的优化器对分类精度的影响以及损失函数对分类精度的影响.
人工智能·算法·机器学习·分类·数据挖掘
沃彼特1 天前
不用任何软件,检测闪存(SD卡U盘)的真实容量检测非常简单的测试方式,没有之一,不会用电脑都会用这个。
人工智能·目标检测·数据挖掘
傻啦嘿哟1 天前
隧道代理在数据挖掘中的实战应用:从原理到落地的全流程解析
人工智能·数据挖掘
熊猫比分管理员1 天前
开源代码/直播系统免费源码/支持二开/直播、赛事与数据分析一体化解决方案
数据挖掘·数据分析