数据分析是通过总结数据的规律来解决业务问题。数据分析包括如下几个主要内容:
现状分析:分析现在发生了什么
原因分析:分析为什么会发送这种情况
预测分析:预测未来会出现什么
数据分析的基本流程:获取数据,数据处理,数据分析,验证结果
数据处理是从大量的、杂乱的、缺失的数据中抽取出对解决问题有意义的数据。
数据处理包括数据规约、数据清洗、数据加工
数据规约:保证数据完整性的同时减小数据的规模,提高数据处理速度
数据清洗:
- 数据探索分析:统计判断数据是否存在缺失异常的情况
- 缺失数据处理:对于缺失数据,如果较多直接删除。如果不多,可以填充,用0或者均值填充
- 异常数据处理:对于不符合常理的数据进行删除
数据加工:
- 数据抽取:选取数据部分内容
- 数据计算:通过各种算法,得到进一步信息
- 数据分组:按照有关信息进行分组
- 数据转换:数据标准化处理,比如z_score标准