数据分析篇-数据认知分析

一简介

数据认知分析，实际是对数据的整体结构和分布特征进行分析，是对整个数据外在的认识，也是数据分析的第一步。对于数据认知的分析，一般会考虑分散性、位置特性、变量的相关性等，一般会考虑平均数、方差、极差、峰度和偏度等基础统计量。数据认知的过程实际是快速从数据中抽取信息的过程。

二常见认知分析

2.1 数据的波动

单个变量数据的波动一般通过方差和标准差来衡量，方差即序列中各个变量与算数平均数作差的平方和的均值，标准差是方差的正二次方根值，通常方差或者标准差越大，说明当前的数据序列波动大。

如果是多个数据序列的波动情况，可以使用协方差进行衡量，衡量的方式为两个变量的均值的差做乘积，然后进行求和，再除以序列的个数。协方差的计算公式参考为:COV(X,Y)=E(XY)-E(X)E(Y)

方差计算公式：

标准差计算公式：

2.2数据的相关性

相关性分析可以快速理解不同变量之间的变动方向和统一程度
数据的相关性可以通过散点图简单了解，也可以通过相关系数来表示，也可以通过判定系数来衡量
1.散点图
确认坐标系后，进行绘制，参考下图

2.相关系数

相关系数有三种计算逻辑：Pearson相关系数和Spearman秩相关系数和判定系数

Pearson相关系数 计算逻辑如下

其中相关系数r，如果趋近于0，则表示两个变量不相关，如果r的绝对值趋近于1，则表示两个变量呈现一定的相关性，若r<0，则表示有一定的负相关性，若r>0，则表示有一定的正相关性

Spearman秩相关系数 ，是反映等级相关程度的统计分析指标，一般需要将数据进行排序，然后再计算相关系数，其主要步骤参考下图

判定系数：判定系数是相关系数的平方，一般用于衡量回归方程对y的解释程度。如果判定系数接近1，则说明x与y的相关性越强，如果判定系数越接近0，则说明两个变量之间没有线性关系。

2.3. 数据分布

数据分布主要考虑的统计变量的序列分布情况，主要的统计变量梳理如下

2.4.数据对比

业务数据的共同特征和差异化，可以通过数据对比体现出来。
通过数据对比，可以帮助我们分辨出业务的变化、发展趋势，以及基于通用事务的个性特征，从而帮助我们深刻认识业务的本质和规律。
对比分析一般是将两个相互联系的指标进行比较，从数量上进行展示和说明，当前业务研究对象的发展趋势、发展水平或者各种关系是否协调，适合于时间序列的比较分析和指标建的纵横比较分析。
对比分析包含绝对数比较和相对数比较，绝对数比较是指使用绝对数进行对比，寻找差异的一种方法，相对数是将两个有关联的质保进行对比，反映客观现象质检数量联系程度的综合指标。相对数比较有如下几种

2.5 周期对比

周期性分析，一般用于探索某个变量随时间变化的趋势，用于较长周期趋势的预测和分析，比如年度周期趋势、月度趋势、季节性趋势、周度趋势、产品生命周期等。

2.6.贡献度分析

贡献度分析也是帕累托分析，也称二八定律，也称为ABC分析法，即同样的投入放入到不同的地方会产生不同的效益，通常一个公司80%的收益来源于20%的畅销产品，而其他80%的产品只带来了20%的收入。

贡献度分析，可以让我们迅速了解当前企业的主要业务和产品定位，了解企业现状。