一、数据分析和数据挖掘的概念
从规范的概念上来说:
数据分析是指用适当的统计分析的方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。
大白话说:其实数据分析和数据挖掘都是从数据中提取有用信息的过程。只不过是他们两个的提取方法和侧重不相同。数据分析侧重于用统计学的方法从现有数据中分析出信息;数据挖掘侧重于利用机器学习技术从大量数据中挖掘出有用信息的过程。
二、数据分析和数据挖掘需要掌握的三方面要素
工具:R语言、Python语言、Excel、PPT、Hive、Spark、MySQL、Orcal等等

思维:"树"和"田"
理论:

三、探索性数据分析
(1)、集中趋势
平均值、中位数、众数

(2)、离散程度
表示离散程度的几个指标:极差、标准差、方差、变异系数

(3)、相关系数
相关系数的指标有:皮尔森相关系数、斯皮尔曼等级相关系数

(4)、可视化展示
可视化展示的原则就是利用合适的图表来清晰的表达出数据中的信息。
常见的一些数据图表:

(5)、总结

四、预测和分类
首先先说数据挖掘的流程就是:数据选取--->模型训练--->模型验证--->模型修正--->使用模型

预测和分类中的五个算法(有监督学习):线性回归、逻辑回归、决策树算法、支持向量机、朴素贝叶斯

五、分群和降维
