数据挖掘--数据预处理

数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 -- 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数值数据的协方差

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或"压缩"表示
相关推荐
liruiqiang053 小时前
机器学习 - 如何理解函数集合中的准确性、召回率、F1分数呢?
人工智能·机器学习·数据挖掘
乙真仙人4 小时前
重新定义数据分析:LLM如何让人专注真正的思考
大数据·人工智能·信息可视化·数据挖掘·数据分析
Echo bigdata4 小时前
系统认识数据分析
数据挖掘·数据分析
Bioinfo Guy6 小时前
NHANES数据挖掘|特征变量对死亡率预测的研究设计与分析
人工智能·数据挖掘
羊小猪~~1 天前
EDA数据分析结合深度学习---基于EDA数据分析和MLP模型的天气预测(tensorflow实现)
pytorch·python·深度学习·机器学习·数据挖掘·数据分析·tensorflow
长弓同学1 天前
python语义分析实战--基于LDA主题建模、TextBlob情感分析的评论数据分析及可视化(附代码)
开发语言·人工智能·python·数据挖掘·数据分析
dandellion_1 天前
【数据分析】一、初探 Numpy
python·学习·数据挖掘·数据分析·numpy
赵大仁1 天前
【人工智能】大语言模型的微调:让模型更贴近你的业务需求
人工智能·深度学习·神经网络·机器学习·语言模型·数据挖掘·数据分析
云天徽上1 天前
【数据可视化-12】数据分析岗位招聘分析
信息可视化·数据挖掘·数据分析
赵大仁2 天前
大语言模型的分层架构:高效建模的全新探索
人工智能·深度学习·神经网络·机器学习·自然语言处理·数据挖掘·数据分析