数据挖掘——数据预处理

数据挖掘------数据预处理

数据预处理
- [数据预处理 ------主要任务](#数据预处理 ——主要任务)
- 数据清洗
- 数据集成
- - 相关分析
  - - 相关系数(也成为皮尔逊相关系数)
    - 协方差
- 数据规约

数据预处理

数据预处理 ------主要任务

数据清理
- 填写缺失值，平滑噪声数据，识别或删除离群，并解决不一致问题
数据集成
- 整合多个数据库，多维数据集或文件
数据规约
- 降维
- 降数据
- 数据压缩
数据转换
- 规范化
- 离散化

数据清洗

属性值缺失：
- 例如，职业=" "（丢失）
噪音，错误或离群
- 例如，工资="-10"（错误）
不一致的代码或不符的名称
- 年龄="42"生日="03/07/1997"
- 曾经评级"1,2,3"，现在评级"A，B，C"

如何处理丢失的数据

忽略元组：当类标号缺少时通常这么做（监督式机器学习中训练集缺乏类标签）。当每个属性缺少值比例比较大时，效果比较差
手动填写遗漏值：工作量大
自动填写
- 使用属性的平均值填充空缺值
- 最有可能的值：基于诸如贝叶斯公式或决策树推理

如何处理噪声数据

箱线图检测离群数据：删除离群点

如何处理不一致数据

不一致的代码或不符的名称
- 年龄="42"生日="09/24/1998"
- 曾经评级"1,2,3"，现在评级"A，B，C"
方法
- 计算推理、替换
- 全局替换

数据集成

将来自多个数据源的数据组合成一个连贯的数据源

整合多个数据库经常发生数据冗余
- Object identification：相同的属性或对象可能有不同的名字在不同的数据库中
- Derivable data：一个属性可能是"派生"的另一个表中的属性，例如，跑步能力
通过相关性分析和协方差分析可以检测到冗余的属性
仔细集成来自多个数据源，可能有助于减少/避免冗余和不一致的地方，并提高读取速度和质量

降维
降数据
数据压缩

降维法：PCA主成分分析

PCA主成分分析法核心idea
- 数据中很多属性之间可能存在这样或那样的相关性
- 能不能找到一个方法，将多个相关性的属性组合仅仅形成一个属性？

降数据------抽样法

简单随机抽样(SimpleRandomSampling)
- 相等的概率选择
- 不放回抽样(Samplingwithout replacement)
  - 一旦对象被选中，则将其删除
- 有放回抽样(Samplingwithreplacement)
  - 选择对象不会被删除
分组抽样
- 每组抽相近个数
- 用于偏斜数据

样本大小对数据质量的影响:

从8000个点分别抽2000和500个点
- 2000个点的样本保留了数据集的大部分结构
- 500个点的样本丢失了许多结构

数据压缩

函数映射：给定的属性值更换了一个新的表示方法，每个旧值与新的值可以被识别
方法
- 规范化：按比例缩放到一个具体区间
  - 最小 - 最大规范化
  - Z-得分正常化
  - 小数定标规范化
- 离散化

最小-最大规范化 ：
v ′ = v − min ⁡ A m a x A − min ⁡ A ( n e w _ m a x A − n e w − min ⁡ A ) + n e w − min ⁡ A v^{\prime}=\frac{v-\min A}{max A-\min A}\left(\right. \left.new\max A-n e w{-} \min A\right)+ new_{-} \min A v′=maxA−minAv−minA(new_maxA−new−minA)+new−minA
v v v即需要规范的数据

z-分数规范化 ：
v ′ = v − 均值 A 标准差 A v'=\frac{v-均值A}{标准差_A} v′=标准差Av−均值A

离散化方法

非监督离散化法
- 等宽法：根据属性的值域来划分，使每个区间的宽度相等
- 等频法：根据取值出现的频数来划分，将属性的值域划分成个小区间，并且要求落在每个区间的样本数目相等
- 聚类：利用聚类将数据划分到不同的离散类别