数据挖掘导论——第二章：数据

Wis4e2025-03-12 12:51

谈数据之前，我们要先知道数据有哪几种类型。数据的维度，数据的频率、位置、分布（方差或标准差衡量）等。

接着就是数据的质量，数据挖掘着眼于要么是对数据质量问题的检测和纠正，要么是使用可以容忍低质量数据的算法。第一步对数据质量问题的检测和纠正，通常称作数据清理。

涉及测量误差的问题：噪声、伪像、偏置、精度和准确度。

同时涉及测量误差和数据收集的问题：离群点、遗漏值、重复数据。

如何处理缺失值？删除/估计缺失值/分析过程中忽略缺失值/用所有可能值（按概率加权）替换

非标准化数据：不同特征的值域差别过大。这会带来什么问题？

1，在计算不同样本之间的距离时，假如不标准化，可能造成对特征的重要程度估计的影响

2，忽略了真正的偏差

两类标准化方式：

1，Max-Min标准化。容易受极端值影响。

2，Z-score标准化。使用前提：高斯分布。

标准化是同类数据之间进行的。

值得一提的是基因/蛋白表达矩阵（行为样本，列为基因），需要去除batch的时候，是沿着列标准化，要对基因表达正则化则沿着行（有些基因天生表达差异大）

对于分类数据或非量化数据，可以用one-hot encoding。

总之，数据清洗分为以下几步：数据去噪，清除异常值，处理缺失值，删除重复，分类数据编码，数据标准化。先后顺序可能会影响最后结果。