数据挖掘--数据预处理

数据清理

缺失值

  1. 如果数据集含有分类属性,一种简单的填补缺失值的方法为,将属于同一类的对象的该属性值的均值赋此缺失值;对于离散属性或定性属性,用众数代替均值。
  2. 更复杂的方法,可以将其转换为分类问题或数值预测问题

噪声数据

  1. 识别出噪音将其去除 -- 比如孤立点的识别
  2. 利用其它非噪音数据降低噪音的影响,起到平滑(smoothing)的作用 -- 分箱(binning)方法可以用于平滑噪音。例如,将年收入的缺失值填补之后,将其取值利用分箱法平滑噪音。

数据集成

冗余和相关分析

标称数据的x^2相关检验

数值数据的协方差

数据归约

  • 维归约:减少所考虑的随机变量或属性的个数
  • 数量归约:用替代的、较小的数据表示形式替换原数据
  • 数据压缩:使用变换,以便得到原数据的归约或"压缩"表示
相关推荐
高洁012 小时前
基于物理交互的具身智能决策框架设计
算法·机器学习·数据挖掘·transformer·知识图谱
川西胖墩墩3 小时前
文生视频AI工具深度评测:2024年主流视频生成模型的技术对比与创作指南
人工智能·数据挖掘·音视频
lrh1228003 小时前
详解逻辑回归算法:分类任务核心原理、损失函数与评估方法
人工智能·分类·数据挖掘
是小蟹呀^3 小时前
图像分类里的小样本学习(Few-shot Image Classification)
学习·分类·数据挖掘
2501_943695333 小时前
大专统计与会计核算专业,怎么积累财务数据分析的案例?
数据挖掘·数据分析
Katecat996634 小时前
YOLOV8-ReCalibrationFPN-P3456:沥青路面施工阶段自动识别与分类
yolo·分类·数据挖掘
天远数科4 小时前
天远车辆过户查询API集成指南:Node.js 全栈视角下的二手车数据挖掘
大数据·数据挖掘·node.js·vim
BYSJMG20 小时前
计算机毕业设计选题推荐:基于大数据的肥胖风险分析与可视化系统详解
大数据·vue.js·数据挖掘·数据分析·课程设计
2501_9418372620 小时前
蘑菇可食用性分类识别_YOLO11分割模型实现与优化_1
人工智能·数据挖掘
木非哲1 天前
AB实验高级必修课(二):从宏观叙事到微观侦查,透视方差分析与回归的本质
人工智能·数据挖掘·回归·abtest