数据挖掘--数据预处理

数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 -- 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数值数据的协方差

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或"压缩"表示
相关推荐
云动雨颤4 小时前
爬虫是怎么工作的?从原理到用途
爬虫·python·数据挖掘
Learn Beyond Limits6 小时前
Clustering vs Classification|聚类vs分类
人工智能·算法·机器学习·ai·分类·数据挖掘·聚类
chao1898446 小时前
遗传算法与粒子群算法优化BP提高分类效果
算法·分类·数据挖掘
诸葛务农6 小时前
光电对抗分类及外场静爆试验操作规程
人工智能·嵌入式硬件·分类·数据挖掘
思通数科多模态大模型17 小时前
扑灭斗殴的火苗:AI智能守护如何为校园安全保驾护航
大数据·人工智能·深度学习·安全·目标检测·计算机视觉·数据挖掘
Chef_Chen20 小时前
数据科学每日总结--Day13--数据挖掘
人工智能·数据挖掘
on_pluto_21 小时前
【推荐系统14】数据分析:以阿里天池新闻推荐为例学习
人工智能·学习·数据挖掘·数据分析·推荐算法
数学难21 小时前
数据分析学习路线
学习·数据挖掘·数据分析
api_1800790546021 小时前
【技术教程】Python/Node.js 调用拼多多商品详情 API 示例详解
大数据·开发语言·python·数据挖掘·node.js
jerryinwuhan1 天前
Python数据挖掘之回归
python·数据挖掘·回归