数据挖掘--数据预处理

数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 -- 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数值数据的协方差

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或"压缩"表示
相关推荐
rit84324992 小时前
高斯过程回归:原理与MATLAB实现
matlab·数据挖掘·回归
龙腾AI白云8 小时前
大模型部署资源不足?轻量化部署解决方案
python·数据挖掘
云栖笑笑生8 小时前
别再用 urllib 了,requests 才是互联网要饭的神器
数据挖掘
GIS数据转换器9 小时前
延凡分布式光伏集中监控平台
人工智能·分布式·数据挖掘·数据分析·无人机·智慧城市
乐迪信息10 小时前
乐迪信息:精准识别每一艘船:船舶AI类型分类算法技术解析
大数据·人工智能·物联网·安全·目标跟踪·分类·数据挖掘
YangYang9YangYan20 小时前
2026年工作后学习数据分析的价值与路径
学习·数据挖掘·数据分析
Yu_Lijing1 天前
Python数据分析和数据处理库Pandas(透视表)
人工智能·数据挖掘·数据分析·pandas
yong99901 天前
基于灰狼算法优化支持向量回归(GWO-SVR)的混合算法
算法·数据挖掘·回归
源码之家1 天前
Python股票数据分析与预测系统 大数据项目
大数据·python·机器学习·数据挖掘·数据分析·股票·可视化
AI科技星1 天前
宇宙终极几何:莫比乌斯光速螺旋统一理论-精细结构常数α本源结构
算法·机器学习·数学建模·数据挖掘·量子计算