数据挖掘--数据预处理

数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 -- 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数值数据的协方差

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或"压缩"表示
相关推荐
YangYang9YangYan5 天前
2026初入职场学习数据分析的价值
学习·数据挖掘·数据分析
有Li5 天前
PTCMIL:基于提示 token 聚类的全切片图像多实例学习分析文献速递/多模态医学影像最新进展
论文阅读·学习·数据挖掘·聚类·文献·医学生
数睿数据无代码开发5 天前
打破数据孤岛:深度解析 smardaten 数据连接器核心功能
数据挖掘·无代码
jarreyer5 天前
【数据分析绘图】excel绘图和bi工具区别
数据挖掘·数据分析·excel
装不满的克莱因瓶5 天前
了解多标签图像分类方法——从Sigmoid输出到真实世界复杂视觉理解
人工智能·pytorch·python·深度学习·机器学习·分类·数据挖掘
babe小鑫5 天前
大数据专业课难度高,学数据分析的价值
大数据·数据挖掘·数据分析
isNotNullX5 天前
一文分清数据统计、数据分析和数据挖掘!
人工智能·数据挖掘·数据分析
Keano Reurink6 天前
搜索API与GSC数据对比:发现数据盲区
数据库·python·数据挖掘
林间码客6 天前
05 逻辑斯蒂回归(Logistic Regression)
人工智能·数据挖掘·回归