数据分析全貌

文章目录

    • [3. 系统认识数据分析](#3. 系统认识数据分析)
      • [3.1 数据分析的全貌](#3.1 数据分析的全貌)
        • [3.1.1 观测](#3.1.1 观测)
        • [3.1.2 实验](#3.1.2 实验)
        • [3.1.3 应用](#3.1.3 应用)
          • [[1] 基于数据反馈不断迭代产品和业务策略](#[1] 基于数据反馈不断迭代产品和业务策略)
            • [1. 什么是MECE法则?](#1. 什么是MECE法则?)
          • [[2] 基于数据训练算法,让机器自动化地完成工作](#[2] 基于数据训练算法,让机器自动化地完成工作)

3. 系统认识数据分析

数据分析是一种客观认知世界并且改造世界的基础方法

总结为三个词:观测、实验、应用

3.1 数据分析的全貌

  • 观测
    • 指通过一些技术手段获得数据,并对数据进行分析和测量
    • 目的是对事物形成客观量化的认知
    • 你也可以简单理解为获取数据并制作报表、图表和仪表盘
  • 实验
    • 指通过不断提出假设实践假设,并基于观测的数据验证假设
    • 目的是准确得知哪些方法可以有效地让事物朝着人为设定的方向发展
    • 实验是当今人类进行科学研究最有利的武器,一切自然规律的发现都离不开基于数据的实验
    • 在商业场景下,也一样
    • 当你不知道哪种产品设计更受欢迎时,每种版本各做一次,基于数据做出判断就是最准确高效的方法
    • 这其实就是互联网行业里最常见的一种实验:A/B测试
  • 应用
    • 指在实际的生产环境下使用实验得到的技术和方法,并基于数据不断迭代
    • 目的是用实验得到的新方法有效提升生产力,从而更好地创造价值
    • 简单来说,实验中最受用户欢迎的产品设计并不能直接创造商业价值
    • 需要将设计正式生产,并不断基于市场反馈的数据迭代提升,才能让用户买单
    • 只有完整实现了观测-实验-应用的全流程才能将数据分析的价值最大化
      • 但,真正了解全貌并亲身经历的数据分析师其实少之又少
      • 行业的现状是,大多数分析师都停留在实现各种观测的工具人阶段
      • 并且由于很多企业的数据建设不完善,分析师自身能力不足,导致最基础的数据支持都要成为一个专门的岗位
3.1.1 观测
  • 观察:负责采集数据、储存数据、展示数据

  • 数据不是凭空产生的,采集它们的方式主要有四种

    1. 解析系统日志

      埋点获取新数据:基于整个系统日志自定义日志记录新信息,称之为埋点

    2. 通过传感器采集

    3. 爬虫

    4. API:应用程序接口

  • 数据采集完成后,就要进行存储了

    ​ 储存数据:各种类型的数据库 hive mysql sql server Presto PostgreSQL Impala

  • 从数据库获取到数据后,就要进行展示了

  • 测量:负责设定标准、发现异常、研究关系

    • 分析数据的目的到底是什么?
      • 及时发现异常,并找到数据之间的因果关系
    • 首先,数据是客观统一的
      • 观测的第一步,就是要设定标准
      • 观测的第二步,就是要仔细研究异常值
      • 观测的最后一步,研究数据之间的关系:可视化查看相关性,建模推导相关性
3.1.2 实验
  • 在完成对数据的观测后,我们往往会有非常多的疑问

    • 解决这些疑问的唯一方法:提出合理的假设,然后验证假设
  • 所有未经事实数据验证的想法都是假设

  • 除了直接基于现有的数据验证假设,很多时候我们要专门设计实验获取数据

    • 例如:设计A/B测试获取数据

    什么是A/B测试?

    A/B测试(也称为分割测试或对照测试)是一种市场营销实验方法,用于比较两个或多个版本的某个元素,以确定哪个版本在目标受众中表现更好或产生更高的效果。这种测试方法常用于网站、应用程序、邮件营销、广告、产品设计和其他数字营销领域,以帮助做出更明智的决策,提高用户体验、转化率和业务绩效。

    A/B测试通常包括以下步骤:

    1. 确定目标:首先,需要明确测试的目标是什么。这可以是提高点击率、增加转化率、提高销售额、减少反弹率等。
    2. 创建变量:选择要测试的元素或变量,这可以是网页的标题、页面布局、按钮颜色、广告文案、产品价格等。
    3. 随机分组:将目标受众随机分成两个或多个组,每组都将看到不同版本的测试元素。例如,一组看到版本A,另一组看到版本B。
    4. 执行测试:同时运行不同版本的测试,确保测试条件相似,以便结果可比较。通常,测试运行一段时间,以收集足够的数据。
    5. 数据收集:收集测试期间的数据,包括用户行为、点击率、转化率等关键指标。
    6. 分析结果:使用统计分析方法来比较不同版本的表现,确定哪个版本在目标指标上表现更好。这可以包括假设检验、置信区间等统计方法。
    7. 做出决策:根据测试结果,决定采纳哪个版本作为新的标准版本,以改善业务绩效。

    A/B测试的优势在于它能够基于实际数据做出决策,而不仅仅是基于主观猜测或假设。这使得市场营销人员和产品团队能够更有效地优化他们的策略和设计,以满足用户需求,提高用户体验,提高转化率,并最终增加业务收入。

3.1.3 应用

目前应用数据创造价值的方法有且只有两种:

[1] 基于数据反馈不断迭代产品和业务策略
  • 整个流程其实非常简单,并且都可以借助B1平台自动提供数据支持

  • 明确目标+拆解指标

  • 并基于这个目标去拆解各个部门各个时间合理的数据指标

  • 常见的拆解方法有流程拆解法、二分法、象限拆解法、杜邦分析法等等等等

    也可以使用AARRR、PEST、RFM、SWOT、5W1H等现成的拆解框架

​ 总之,只要符合MECE法则即可

1. 什么是MECE法则?

MECE(发音:me see)分析法是 Mutually Exclusive Collectively Exhaustive的首字母缩写词,中文意思是"相互独立、完全穷尽",即所谓的 "无重复、无遗漏"。

在按照 MECE 原则将某个整体(不论是客观存在的还是概念性的整体)划分为不同的部分时,必须保证划分后的各部分符合以下要求:

各部分之间相互独立 (Mutually Exclusive) --- "相互独立"意味着问题的细分是在同一维度上,并有明确区分、不可重复的

所有部分完全穷尽 (Collectively Exhaustive) --- "完全穷尽" 则意味着全面、完整,没有遗漏或缺失

当我们在分析解决问题,或对复杂事物进行分明别类时,往往会用到MECE法则。它能有效的帮我们对问题进行结构化分析,或对事物进行归类分组,避免因思维混乱而出现重叠或遗漏的逻辑问题。

具体拆解框架可见博客:数据分析之拆解方法 - 璃墨 - 博客园 (cnblogs.com)

  • 准备数据

    从数据库取数,借助工具处理后搭建数据看板即可

  • 观测数据 将数据应用于业务

    ​ 但,这是不可能的,在真实的业务场景中,业务基本不可能按照预定的轨迹发展,各种各样的问题都会在业务完善的过程中凸显出来。此时,我们要快速地基于看板发现这些数据上的异常,然后思考形成这些异常可能的原因,拆解问题,提出可以解决问题优化业务的假设

  • 数据实验

    没有数据,就需要通过实验获取数据【A/B测试】后再进行验证

    而一旦假设被验证,也就意味着我们找到了可以有效解决问题,提升业务的方法

  • 制定策略

    • 如果是产品改动,只需要不断上线数据表现更好的产品版本即可
    • 如果是业务改动,则需要将新的业务方法准确传达给业务的执行人员,并确保改动被有效地实施
  • 优化迭代

    • 一旦掌握这种科学的数据应用方法,业务将以极快的速度发展,数据分析才能在业务场景下创造出真正的价值
[2] 基于数据训练算法,让机器自动化地完成工作
  • 数据分析在训练算法的过程中,可以发挥价值的地方有很多:

    一、为算法设定明确的业务目标

    • 目标是训练算法的前提条件,整个算法相当于一个函数,而目标就是最后输出的y值

    • y值的选取会直接决定算法的强度

    • 它既要考虑实际的业务场景,又要考虑用怎样的数据对目标进行衡量

    • 这件工作一定基于大量的数据分析才能完成

    二、为算法提供高质量的数据

    • ​ 设定目标后,算法会基于你输入的数据越来越准确地达到你所设定的目标

    • 你输入的数据质量越高,算法的准确度就越高

    • 而高质量的数据就需要使用数据分析从大量数据中筛选了

    三、判断算法是否真的创造了实际价值

    • 这点非常简单,算法形成后,肯定不能只看准确度
    • 是否真的创造了业务价值,才是最终的衡量标准

    四、帮助业务更好地使用算法

    • 没错,光有算法还不行,得会用

    • 而业务是很难理解算法原理的,此时就需要用数据分析的方法告诉业务,使用算法后能提升哪些业务数据,并为业务提供相应的观测方法

    • 只有业务从数据层面看到了算法对业务的提升,他们才会更加深入地使用算法

相关推荐
D11_2 小时前
Pandas缺失值处理
python·机器学习·数据分析·numpy·pandas
Kenneth風车5 小时前
【机器学习(五)】分类和回归任务-AdaBoost算法-Sentosa_DSML社区版
人工智能·算法·低代码·机器学习·数据分析
C7211BA5 小时前
使用knn算法对iris数据集进行分类
算法·分类·数据挖掘
知识分享小能手6 小时前
mysql学习教程,从入门到精通,SQL DISTINCT 子句 (16)
大数据·开发语言·sql·学习·mysql·数据分析·数据库开发
紫钺-高山仰止6 小时前
【脑机接口】脑机接口性能的电压波形的尖峰分类和阈值比较
大数据·分类·数据挖掘
阡之尘埃8 小时前
Python数据分析案例59——基于图神经网络的反欺诈交易检测(GCN,GAT,GIN)
python·神经网络·数据挖掘·数据分析·图神经网络·反欺诈·风控大数据
环能jvav大师9 小时前
基于R语言的统计分析基础:使用dplyr包进行数据操作
大数据·开发语言·数据分析·r语言
惟长堤一痕10 小时前
医学数据分析实训 项目三 关联规则分析作业--在线购物车分析--痹症方剂用药规律分析
python·数据分析
经纬恒润10 小时前
应用案例分享 | 智驾路试数据分析及 SiL/HiL 回灌案例介绍
数据挖掘·数据分析·智能驾驶·ai智能体
eeee~~10 小时前
GeoPandas在地理空间数据分析中的应用
python·jupyter·信息可视化·数据分析·geopandas库