认识数据分析

文章目录

    • [1. 认识数据分析](#1. 认识数据分析)
      • [1.1 数据自身的三大属性](#1.1 数据自身的三大属性)
      • [1.2 建数仓 数据分析的工程技术](#1.2 建数仓 数据分析的工程技术)
      • [1.3 数据分析解决问题的原理](#1.3 数据分析解决问题的原理)
      • [1.4 数据分析的具体流程](#1.4 数据分析的具体流程)
      • [1.5 数据的中心化和智能化](#1.5 数据的中心化和智能化)
      • [1.6 数据分析的四种类型和六个方向](#1.6 数据分析的四种类型和六个方向)

1. 认识数据分析

1.1 数据自身的三大属性

  • 客观:用数字衡量和表现一件客观事物时,能最大程度统一大家的认知

  • 量化:量化的数据,可以利用数学原理进行各种精密的计算,得出更多价值的结果

    如业务推导:门店成交额=下单人数*平均客单价,知道其中两个即可推算第三个

    统计学:平均数、中位数、众数

    微积分:求导--路程-速度-加速度

  • 机器可处理:数据是少数人和机器都能理解和处理的信息,人可以借助机器高效处理数据的各种信息

  • 数据图表:机器给予规则计算和展现数据

  • 数据工程:让机器替代人去7*24小时汇总和处理数据

  • 机器学习:让机器按照人设定的规则去试错尝试、求解最佳参数

1.2 建数仓 数据分析的工程技术

随着数据系统的晚上,如果企业的数据汇总超过了Excel的存储上线

那么企业需要建立自己的大规模数据仓库,处理不断增长的数据资产,数据仓库技术占到数据分析实现所用技术的70%以上

  • 埋点采集

    • 传感器 :传感器通常用于测试物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,使其活起来
  • 系统日志采集方法:

    • 日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和web服务器记录的用户访问行为
    • 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chkwa,Cloudera和Flume,Fackbokk的Scribe.这些工具采用分布式架构,能满足每秒数百M的日志数据采集和传输需求
  • web爬虫

    • 网络爬虫指为搜索引擎下载并存储网页的程序,它是搜索引擎和web缓存的主要的数据采集方式,通过网络爬虫或网站公开API等方式从网站上获取数据信息。
  • 传输存储(数仓)

    • 传输:借助网络

    • 存储:借助数据库技术,研究如何组织和存储数据,高效获取和处理数据是一门大学问

      ​ 其涉及了:速度、准确性、最大规模、以及数据种类

  • 提取回流(数仓/算法)

    • 提取即将数据查询到,并导出为文件
    • 回流即指数据被操作过之后,怎么会到数据库,继续参与到生产和建模
  • 清洗处理(数仓)

    • 清洗:指利用一些第三方库清洗数据,使其符合数据包准
    • 处理:使得数据符合实际的需求
  • 连接导入:

    • 即对接不同的工具和软件,涉及到各种中间件和协议
  • 分析建模(分析/算法)

    • 分析:计算,并绘制一些可视化的图表等
  • 建模

    • 即机器学习与深度学习
  • 部署应用

    • BI监控
    • 算法平台:先知
    • 工程开发

1.3 数据分析解决问题的原理

  • 传统:问题发生----结合现实----逻辑推理----得出结论
  • 数据:问题发生----结合现实----数据映射----量化分析----得出结论

数据分析只是分析的一种,能对碎片化的信息加以抽象和整合,不过度依赖量化,才是真正的分析能力

1.4 数据分析的具体流程

  • 注意分析数据的目的:
    • 业务分析:关注数据与业务的关联性,映射关系和可解释性
    • 建模分析:关注数据的整体特征(特征决定上限,模型调参无限趋近于上限)
    • 分析的种类:
      • 计算型分析:统计学,机器学习
      • 逻辑型分析:归纳/演绎,思维模型

1.5 数据的中心化和智能化

  • 中心化

    • 当数据仓库建立完毕后,企业的数据团队基本上也搭建完毕了,但初级的数仓仍然有诸多问题

    • 跨库查询:数据存储在不同服务器中,无法实现业务级的垮库查询

    • 数据架构:数据中每个系统的开发独立维护,指标定义、数据结构、数据类型等架构标准都

      统一

    • 数据需求:字段需求无法精准有节奏地一一实现,开发说不做就不做了

    • 中心化的数据库将会统一管理企业的所有数据字段,将所有数据汇总到一个技术架构和仓库里

    • 只有一线C端的大型互联网公司才完成了数据中心的建设

      • 京东B轮的时候才进行了数仓的全面重构和中心化

      • 淘宝也是在阿里云出世后才彻底完成

      • 字节很多新增业务部依旧日无法接入数据中心

  • 智能化
    • 在完成数据中心的建设后,企业在数据征途上将挑战一个永无止境目标一一商业智能
    • 商业智能实现的四个阶段
  • 反映现实情况

  • 监控关键指标

  • 辅助决策制定
  • 实现自动决策

1.6 数据分析的四种类型和六个方向

相关推荐
hboot6 天前
AI工程师第二课 - 数据处理
人工智能·python·数据分析
王小王-1237 天前
基于 Hive 的网易云音乐数据分析及可视化系统
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
Database_Cool_7 天前
大规模数据分析降本指南:AnalyticDB Serverless 弹性架构实战
数据仓库·阿里云·架构·数据分析·serverless
YangYang9YangYan7 天前
2026初入职场学习数据分析的价值
学习·数据挖掘·数据分析
有Li7 天前
PTCMIL:基于提示 token 聚类的全切片图像多实例学习分析文献速递/多模态医学影像最新进展
论文阅读·学习·数据挖掘·聚类·文献·医学生
数睿数据无代码开发7 天前
打破数据孤岛:深度解析 smardaten 数据连接器核心功能
数据挖掘·无代码
砚底藏山河7 天前
沪深A股:如何获取基金持股数据
java·python·数据分析·maven
jarreyer7 天前
【数据分析绘图】excel绘图和bi工具区别
数据挖掘·数据分析·excel
装不满的克莱因瓶7 天前
了解多标签图像分类方法——从Sigmoid输出到真实世界复杂视觉理解
人工智能·pytorch·python·深度学习·机器学习·分类·数据挖掘