数据挖掘--数据预处理

数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 -- 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数值数据的协方差

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或"压缩"表示
相关推荐
悟乙己6 小时前
保序回归Isotonic Regression的sklearn实现案例
数据挖掘·回归·sklearn·保序回归
寒月霜华8 小时前
机器学习-探索性数据分析
数据挖掘·数据分析
月岛雫-10 小时前
“单标签/多标签” vs “二分类/多分类”
人工智能·分类·数据挖掘
TwoAI14 小时前
Pandas 数据分析:从入门到精通的数据处理核心
数据挖掘·数据分析·pandas
fanstuck1 天前
基于大模型的个性化推荐系统实现探索与应用
大数据·人工智能·语言模型·数据挖掘
TG_yunshuguoji1 天前
亚马逊云代理:亚马逊云怎么样进行大规模数据分析与处理?
数据挖掘·数据分析·云计算·aws
人大博士的交易之路1 天前
今日行情明日机会——20250912
大数据·数据挖掘·数据分析·缠论·缠中说禅·涨停回马枪·道琼斯结构
赵谨言2 天前
基于支持向量机的空间数据挖掘方法及其在旅游地理经济分析中的应用
经验分享·数据挖掘·毕业设计
赵谨言2 天前
基于数据挖掘技术构建电信5G客户预测模型的研究与应用
经验分享·5g·数据挖掘·毕业设计
CC数分2 天前
零基础3个月上岸[特殊字符]自学数据分析路线
学习·数据挖掘·数据分析·大学生·考证