一、互联网数据分析的基本思路
二、描述性分析
描述性分析:通过计算数据的集中性特征和波动性特征以了解数据的基本情况。
数值分析:数量、平均数、极差、标准差、方差、极值
分布规律---均匀分布
均匀分布也叫矩形分布,它在相同长度间隔的分布概率是等可能的。
分布规律---正态分布
正态分布是一个非常常见的连续概率分布,其在统计学上的十分重要,经常用在自然和社会科学来代表一个不明的随机变量。
分布规律---长尾分布
互联网上从歌曲和软件的下载、网页的点击到网上店铺的销售,都呈现长尾分布的特征。曲线头部位置较高,随着序号的增大,曲线陡然下降,但在尾部位置曲线并没有迅速坠落到零,二十及其缓慢地贴近于横轴。
三、诊断性分析(关联分析)
诊断分析:深入挖掘问题根源,识别依赖关系,找出影响因子。
相关性只能解释过去,不能预测未来的一个发展。
诊断性分析---相关系数
四、预测性分析
预测性分析:使用线性回归或者逻辑回归的方法找到自变量与因变量之间的关系,并使用该关系式预测因变量的变化。