数据挖掘--数据预处理

数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 -- 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数值数据的协方差

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或"压缩"表示
相关推荐
天天讯通2 小时前
智能外呼:降运营成本、优客户体验,数据分析来助力
数据挖掘·数据分析
技术支持者python,php4 小时前
训练分类识别器
人工智能·分类·数据挖掘
大千AI助手4 小时前
曼哈顿距离:概念、起源与应用全解析
人工智能·机器学习·数据挖掘·距离度量·曼哈顿距离·大千ai助手·街区距离
天地沧海4 小时前
各种和数据分析相关python库的介绍
python·数据挖掘·数据分析
泰迪智能科技014 小时前
企业数据挖掘平台怎么选择,有哪些应用场景?
人工智能·数据挖掘
人大博士的交易之路21 小时前
今日行情明日机会——20251201
大数据·数学建模·数据挖掘·数据分析·缠论·道琼斯结构·涨停板
GIS数据转换器1 天前
基于GIS的智慧招商引资数据可视化系统
人工智能·信息可视化·数据挖掘·数据分析·无人机·旅游
Python极客之家1 天前
基于数据挖掘的微博情感分析及话题追踪系统
python·数据挖掘·毕业设计·课程设计·情感分析
~~李木子~~1 天前
数据可视化:App Store数据分析:价格、类别与用户评分的深度洞察
信息可视化·数据挖掘·数据分析