数据分析——基础

目录

一、什么是数据分析

1、什么是数据

2、数据类型

3、数据分析

[3.1 数据分析概念](#3.1 数据分析概念)

[3.2 数据分析要结合的维度](#3.2 数据分析要结合的维度)

[3.3 数据分析的目的](#3.3 数据分析的目的)

二、数据分析流程

三、数据呈现形式

1、柱状图

2、折线图

3、柱线图

4、饼图

5、漏斗图

6、雷达图

7、散点图

8、桑基图

四、数据分析的几种常见方法

1、趋势分析

2、对比分析

[2.1 环比](#2.1 环比)

[2.2 同比](#2.2 同比)

3、细分分析

五、数据产品结构


一、什么是数据分析

1、什么是数据

是对客观事物的性质、状态以及相互关系等进行记载的组合。不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等。

  • 运营数据

AARRR模型又称海盗模型,指的是一款产品在运营阶段的各个生命周期,主要有五个阶段:拉新(获取)、激活、留存、付费(转化)、传播(推荐),可以指导产品运营和用户增长。

运营常见数据指标:

  1. 拉新:对于APP:下载量、安装量、打开量、注册量 对于网站:访问量、注册量 .. 通常以日、周、月为周期来统计以上指标的新增
  2. 活跃:基础活跃数据 :日活、周活、月活/每日、每周和每月的访问次数 深入活跃数据:停留时长、跳出率 可以针对整个APP的数据,也可以针对某个模块或某个页面的数据
  3. 留存:基础留存数据 :次日留存、7日留存、月留存 深入留存数据:不同价值层次用户的留存
  4. 转化:产品核心业务或指定业务的转化数据 电商产品的转化指标 :订单转化率(每日新增用户的下单转化率、总用户的下单转化率、下单/支付的用户转化率、不同流量路径的转化率等)、客单价、GMV(商品交易总额) 内容产品的转化指标 :发布转化率、互动行为转化率等 社交产品的转化指标 :社交行为的转化率、充值行为的转化率等 在线教育产品转化指标:学习相关行为的转化率
  5. 传播:指用户自发传播的数量 邀请成功的用户占总用户的比例被邀请的注册用户在总注册用户的比例
  • 独立页面数据
  1. PV(访问量 Page View):用户每打开一个页面就被记录一次,用户多次打开同一界面,浏览量值累计
  2. UV(访客数 Unique Visitor):一天内同一访客多次访问只计算一个访客
  3. 访问时长:用户在该页面停留的时间
  4. 跳出率:只浏览了一个页面便离开网站的访问次数占总的访问量的百分比

2、数据类型

  • 业务数据:产品的整体业务数据,比如订单量、发文数量、活跃用户数量等,跟产品的具体某个页面和用户具体的行为无关
  • 行为数据:统计的是用户在特定页面或特定功能上的行为数据,比如某个按钮的点击情况
  • 第三方数据:通过API接口获得的数据,比如物流信息

3、数据分析

3.1 数据分析概念

通过收集数据,提取出有用的数据,利用合理的方法进行分析,总结出相应的结论

3.2 数据分析要结合的维度

  • 角色 (产品、运营、市场)

  • 时间(历史、当下、未来)

  • 范围(产品全局、功能模块、类型划分)

  • 类型(活跃度、订单转化率)

3.3 数据分析的目的

发现问题、解决问题、验证问题是否有效解决

二、数据分析流程

  1. 明确目标(分析什么数据)
  2. 梳理业务(数据涉及到产品的哪些模块、页面和功能)
  3. 数据采集(通过业务数据统计、埋点数据统计的方式来获得相应数据)
  4. 数据整理(将得到的数据整理在后台,涉及数据清洗
  5. 数据分析(通过不同维度来分析数据)
  6. 数据呈现(将数据以不同的报表形式呈现出来)

数据清洗: 去除'脏数据'(不完整数据、错误数据、几余数据),对数据进行知识发现及质量管理,根据标准定义存储在数据仓中。

三、数据呈现形式

数据可视化:旨在借助于图形化手段,清晰有效地传达与沟通数据信息。(柱状图、折线图、散点图、饼图、雷达图)

1、柱状图

  • 适用场景:数据的分类对比,适合固定维度分布,但不适用于分类过多的情况
  • 适用数据:区域分布、月度分布
  • 设计时常见的问题:①名称显示:内容名称过长时采用倾斜或省略 ②最小刻度:纵坐标往往不是从0开始,而是从最小刻度开始

2、折线图

  • 适用场景:随时间变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势
  • 适用数据:活跃度、用户数,PV\UA......

3、柱线图

折线图与柱状图结合对比。

4、饼图

  • 适用场景:了解数据分布情况,不适用分类过多的情况
  • 适用数据:用户分布、类型分布
  • 设计时常见的问题:①显示上限:内容过多会显示不过来,可将较少的内容合并为"其他" ②显示区间:可按照不同区间显示内容

5、漏斗图

  • 适用场景:表示某个环节业务量与上一环节之间的差异,适用有固定流程并且环节较多的分析,可以直观地显示转化率和流失率

  • 适用数据:整体留存、转化分析

6、雷达图

  • 适用场景:了解同类别的不同属性的综合情况,以及比较不同类别的相同属性差异
  • 使用数据:用户画像、内容画像

7、散点图

  • 适用场景:因变量随自变量而变化的大致趋势,存在大量数据点,结果更精准,数据量小的时候会比较混乱
  • 适用数据:优劣分布

8、桑基图

  • 适用场景:表示不同页面(模块)的流量转化,适用对用户路径进行分析
  • 适用数据:用户转化分析

四、数据分析的几种常见方法

1、趋势分析

趋势分析适用于产品核心指标的长期跟踪,如:活跃度、点击率等。需要明确数据的变化,以及对变化原因进行分析。

当数据出现异常,一般从3个角度查找问题:

  1. 技术层面:是否统计出错,或者产品出bug
  2. 产品层面:是否出现重要功能变更,导致数据异常变化
  3. 运营层面:是否运营措施有重大变更,导致数据异常变化

2、对比分析

对比分析,就是给孤立的数据一个合理的参考系,否则孤立的数据毫无意义。一般而言,对比数据时数据的基本面,比如行业的情况,全站的情况等。(对比分析要控制变量)

2.1 环比

本期统计数据与上期数据对比

2.2 同比

本期统计数据与上一年度对应期间数据对比

3、细分分析

在得到一些初步结论时,需要进一步细拆,因为在一些综合指标的使用过程中,会抹杀一些关键的数据细节,而指标本身的变化,也需要分析变化产生的原因。这里的细分要进行多维度的细拆。最常用的维度是5W2H分析方法

五、数据产品结构

数据产品结构 :

第三方产品与数据后台关系:

相关推荐
EterNity_TiMe_3 分钟前
【论文复现】(CLIP)文本也能和图像配对
python·学习·算法·性能优化·数据分析·clip
智慧化智能化数字化方案24 分钟前
华为IPD流程管理体系L1至L5最佳实践-解读
大数据·华为
CV学术叫叫兽1 小时前
一站式学习:害虫识别与分类图像分割
学习·分类·数据挖掘
PersistJiao2 小时前
在 Spark RDD 中,sortBy 和 top 算子的各自适用场景
大数据·spark·top·sortby
2301_811274312 小时前
大数据基于Spring Boot的化妆品推荐系统的设计与实现
大数据·spring boot·后端
Yz98762 小时前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
青云交2 小时前
大数据新视界 -- 大数据大厂之 Hive 数据导入:多源数据集成的策略与实战(上)(3/ 30)
大数据·数据清洗·电商数据·数据整合·hive 数据导入·多源数据·影视娱乐数据
武子康2 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
武子康2 小时前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
java·大数据·数据仓库·hive·hadoop·mysql
时差9532 小时前
Flink Standalone集群模式安装部署
大数据·分布式·flink·部署