第一章、概述
1.1.1数据分析:采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,提取出有用的信息的过程。
1.1.2数据挖掘:从海量数据种通过相关的算法来发现隐藏在数据中的规律和知识的过程。
1.1.3知识发现的过程
1.1.4数据分析与数据挖掘的区别
1.1.5数据分析与数据挖掘的联系
数据-------数据分析----->信息-------数据挖掘-------->知识
1.2分析与挖掘的数据类型
1.3数据分析与数据挖掘的方法
1.3.1频繁模式:Apriori
1.3.2分类与回归:决策树、朴素贝叶斯、支持向量机、神经网络、规则分类器、基于模式的分类、逻辑回归......
1.3.3聚类分析:原型聚类、密度聚类、层次聚类、图聚类
1.3.4离群点分析:离群点是指全局或局部范围内偏离一般水平的观测对象
1.4数据分析与数据挖掘使用的技术
1.5应用场景及存在的问题
1.5.1推荐顺序
1.5.2数据类型多,高维数据,噪声,可视化,隐私数据的保护
第二章、数据
2.1.1数据属性:标称属性、二元属性、有序属性、数值属性{离散属性、连续属性}
2.2数据的基本统计描述
2.3数据的相似性和相异性
相似性:两个对象相似程度的数量表示,数据值高表明相似性越大
相异性:两个对象不相似程度的数量表示,数值越低表明相似性越大,相异性的最小值通常为0
第三章、数据预处理
3.1.1数据存在的问题:数据不一致、噪声、缺失值
3.1.2数据质量要求
3.1.3数据预处理的主要任务
数据清理:
数据集成:不同来源数据放到统一地方
第四章、数据仓库
4.1数据仓库基本概念
4.1.1数据仓库的定义及特征
4.1.2数据仓库体系结构
4.1.3数据模型
第九章、离群点检测
9.1离群点定义与类型
9.1.1概念:全局或局部范围内偏离一般水平的观测对象
应用价值:网络入侵检测、工业损毁检测、网络监视异常、医疗处理、欺诈检测
9.1.2类型
全局离群点
条件离群点
集体离群点
9.2离群点检测
海量数据集多数数据服从一定的模型分布