数据挖掘--数据预处理

数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 -- 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数值数据的协方差

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或"压缩"表示
相关推荐
liu****27 分钟前
神经网络基础
人工智能·深度学习·神经网络·算法·数据挖掘·回归
张小凡vip38 分钟前
数据挖掘(三) ----- JupyterHub与Jupyter Notebook的区别和安装JupyterHub
人工智能·jupyter·数据挖掘
十三画者1 小时前
【文献分享】LyMOI一种结合深度学习和大规模语言模型的用于解读组学数据的工作流程
人工智能·深度学习·语言模型·数据挖掘·数据分析
张小凡vip1 小时前
数据挖掘(二) ----- Jupyter Notebook使用示例和常见问题
人工智能·jupyter·数据挖掘
muddjsv2 小时前
从数据到决策:数据分析的通用范式及其在工业与学术领域的核心价值
数据挖掘·数据分析
飞Link2 小时前
数据增强中的数据标注、数据重构、协同标注和非LLM驱动的增强
python·重构·数据挖掘
小飞象—木兮2 小时前
《商业分析标准实践手册》:定义、价值、商业思维模型与商业分析能力及实操手册···(附相关材料下载)
信息可视化·数据挖掘·数据分析
自学不成才11 小时前
深度复盘:一次flutter应用基于内存取证的黑盒加密破解实录并完善算法推理助手
c++·python·算法·数据挖掘
lambo mercy14 小时前
自回归生成任务
人工智能·数据挖掘·回归
飞Link15 小时前
【大数据】SparkSQL常用操作
大数据·数据挖掘·spark