数据挖掘--数据预处理

数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 -- 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数值数据的协方差

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或"压缩"表示
相关推荐
csuzhucong24 分钟前
人类知识体系分类
人工智能·分类·数据挖掘
云端FFF3 小时前
论文理解 【LLM-回归】—— Decoding-based Regression
人工智能·数据挖掘·回归
qq_436962188 小时前
奥威BI金蝶数据分析可视化方案:200+开箱即用报表驱动智能决策
信息可视化·数据挖掘·数据分析
啦啦啦在冲冲冲20 小时前
mse和交叉熵loss,为什么分类问题不用 mse
人工智能·分类·数据挖掘
~~李木子~~21 小时前
图像分类项目:Fashion-MNIST 分类(SimpleCNN )
人工智能·分类·数据挖掘
搞科研的小刘选手1 天前
【早稻田大学主办】2026年第三届人工智能与未来教育国际学术会议(AIFE 2026)
人工智能·机器学习·数据挖掘·机器人·未来教育·远程教育·移动学习
fanstuck1 天前
开源项目重构我们应该怎么做-以 SQL 血缘系统开源项目为例
数据库·sql·重构·数据挖掘·数据治理
Bony-2 天前
奶茶销售数据分析
人工智能·数据挖掘·数据分析·lstm
天才少女爱迪生2 天前
LLVM(Low Level Virtual Machine)介绍
python·数据挖掘
BEOL贝尔科技3 天前
对于生物样本库的温湿度监控是如何实现对数据进行历史数据分析的呢?
数据挖掘·数据分析