1.数据挖掘概述
- 数据挖掘定义 :
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息或知识的非平凡过程。
-
含义 :
-
数据源必须是真实的、大量的、含噪声的;
-
发现的是用户感兴趣的知识;
-
发现的知识要可接受、可理解、可运用;
-
并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
-
-
步骤 :
-
数据清洗
-
数据集成
-
数据选择
-
数据变换
-
数据挖掘
-
模式评估
-
知识表示
-
-
数据挖掘对象 :
-
关系数据库 :
-
数据仓库
-
文本 : 非结构化或半结构化的数据;
-
多媒体数据
-
web数据
-
复杂型的数据
-
-
数据挖掘发现的知识类型 :
-
广义知识
-
关联知识 : 发现关联规则的算法 : Apriori算法 和 频繁模式树(FP-树)
-
聚类 : 根据类内相似性最大,类间相似性最小的原则进行聚类或分组,属于无监督性学习,常用方法 : 统计分析方法,机器学习,神经网络方法;
-
分类知识 :
- 概念 : 反映同类事物共同性的特征型知识和不同事物之间的差异型特征知识。
-
应用 : 客户细分
-
方法 : 决策树分类,贝叶斯分类,人工神经网络,遗传算法等;
-
预测知识 :
-
用分类预测离散数据
-
用回归分析预测连续数据。
-
-
序列模式知识
-
有价值的知识
-
-
数据挖掘中常用的十三种技术 :
统计技术,关联规则,基于历史的分析,遗传算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析,差别分析,概念描述等
2.数据探索和预处理
- CRISP-DM
概念 : 跨行业数据挖掘标准流程(CRISP-DM)把完整的数据挖掘过程定义为六个标准阶段,分别是业务理解、数据理解、数据准备、创建模型、模型评估和模型应用
-
数据探索是从数据质量 和数据特征等两个角度进行分析
-
数据探索的主要目的 : 数据探索的主要目的:
1.有助于选择合适的数据预处理和数据分析技术
2.可以通过对数据进行直观检查来发现模式
3.数据探索中使用的某些技术(如可视化)可以用于理解和解释数据挖掘结果。
-
数据的一些特征 : 极差,平均值 , 分位数,方差,标准差等;
-
表 : 直方图,条形图,散点图,箱型图
-
数据预处理 : 数据清洗 , 数据集成 , 数据规约 , 数据变换 ;
-
数据清洗 :
-
空缺值 : 忽略 , 人工填写,平均值 , 填充算法;
-
噪声数据 : 是一个测量变量中的随机错误或偏差,包括错误的值和偏离期望的孤立点值。
- 处理 : 分箱,聚类,回归
-
不一致数据 : 人工更正 , 数据字典
-
-
数据集成和变换
数据集成:将来自多个数据源的数据合并到一起:
数据变换:对数据进行规范化操作,将其转换成适合于数据挖掘的形式。
-
集成要注意的问题:
模式集成问题;
冗余问题;
数据值冲突检测与消除。
-
规范化 : 将数据按比例缩放至一个小的特定区间;
方法 :
-
1.最大最小规范化,
消除量纲的影响;
方法 :
v′= ( v−min / max−min ) * (new_max−new_min) + new_min
-
2.z-score规范化 :
这种方法基于原始数据的均值 mean 和标准差 standard deviation 进行数据的标准化。将数据按其特征(按列进行)减去其均值,然后除以其方差。最后得到的结果是,对每个特征/每列来说所有数据都聚集在 0 附近,方差值为 1。数学公式如下:
X' = (X- Xmean)/Xstd
例:假定属性income的平均值与标准差分别为$54000和$16000,使用z-score规范化,则属性值$73600将变换为:
(73600-54000)/16000=1.225
-
3.小数定标规范化
假定A的取值范围[-986, 917],则A的最大绝对值为986,为使用小数定标规范化,用1000(即j=3)除每个值,这样-986被规范化为-0.986。
-
-
-
数据规约 : 数据消减或约简,是在不影响最终挖掘结果的前提下,缩小所挖掘数据的规模。
数据规约策略 :
-
数据立方体聚集;
-
维归约(属性归约);
-
数据压缩;
-
数值归约;
-
离散化和概念分层生成
-