了解过数据分析的概念之后,我们再来说下数据分析的常规步骤。
明确目标
首先我们要确定一个目标,即我们要从数据中得到什么。比如我们要看某个指标A随时间的变化趋势,以期进行简单的预测。
数据收集
当确定了目标之后,就有了取数的方向。比如我们要观察A随时间的变化,就要记录A的值。或者从已经记录了A的值的数据库、文件、日志等取数。
数据清洗和预处理
有时候我们收集的数据并不是完全有效的,或者并不能为我们的服务。这个时候就需要把这部分数据剔除。或者有时候我们收集到的是文本数据,需要做一下归类,使用数字等符号来做替代,方便做数据的相关性分析,这个时候就需要对数据左小处理。
探索性数据分析(EDA)
使用统计图表来多维度展示数据,更直观地去查看数据地特征。
数据分析和建模
选择适当的数据分析方法和建模技术,来将得到地结论模型化。比如把折线图拟合成曲线。
评估模型
使用测试数据测试模型,评估模型准确性。
利用模型
利用模型做一些数据预测,支撑我们目标之上地目标。