业务分析师眼中的数据中台

sql 复制代码
关于数据中台的概念和定义很多。从建设方法论角度阿里提出了"One Data,One Service"。从建设意义的角度是为企业数字化转型、数据价值变现。从核心能力又分为数据研发、数据治理、数据应用等模块。

对于上面的定义和概念,不了解大数据圈的人可能会觉得很抽象,并不能真正地理解。下面我通过数据中台用户之一业务分析师的视角具像化数据中台的一次应用场景,方便你能更好的理解它。

某电商平台 Q1 季度某个品类的商品销售额下降了 30%,老板要求小明给出问题的原因,并进行整改。要解释这个问题,小明必须从现有的数据入手,看看哪里出了问题。

现有指标分析

  1. 首先小明需要定位到下降 30% 销售额的指标,归属在哪个域哪个业务过程。通过指标系统 定位到了该指标属于交易域、在平台支付的业务过程内,一个叫"销售额 " 的指标。
  2. 圈定了要分析的业务过程(平台支付)下的相关指标,小明要查看各个指标的统计口径,进一步了解它们的计算逻辑、数据来源以及有哪些维度可以分析(指标系统内均已维护了这些信息),以此缩小分析范围。在这些指标内,小明留意到了一个渠道维度的销售额指标叫做"渠道销售额"。小明想看下各个渠道的具体销售额,确认是否是各个渠道全面下滑还是个别渠道下滑导致的。于是走权限申请 流程,申请该指标对应的源数据表权限(数据库权限)。由于销售额表是核心表(安全等级被资产管理员标记为极高),权限申请流程除了会流转到表业务负责人,还需要二级甚至一级 leader 审批(数据中台会管理表元数据信息,其中之一会基于安全部门指导打标源表字段中的中、高安全等级字段,然后基于数据血缘推算下游表安全等级)。
  3. 权限审批通过后,小明拿着指标系统 提供的指标 sql,在自助取数平台查询"渠道销售额"这个指标数据。数据查询出来后,环比上一季度,发现是由于是淘宝渠道的销售额出现巨大下降,拖累了整体品类销售数据。可是当他想进一步探查淘宝渠道下降的原因:是否是商品库存不足?是否是商品在淘宝平台曝光率不高导致?却发现并没有更细粒度的指标了。现在,靠现有的数据已经没办法进一步解读业务问题的原因了,小明需要进行探索式分析。

探索式分析

  1. 既然现有指标不满足分析需求,小明通过数据地图查看当下有哪些现成的表数据可以进行自助分析。小明查到了有一张带商品信息的用户行为统计表,十分幸运的是,这张表中的用户行为数据也包含渠道信息,按照渠道、商品品类进行聚合、过滤,就可以满足分析的需求了。所以,他在数据地图的相关表详情页里申请了这些表的权限。
  2. 等了一段时间,权限审批终于通过,小明收到了来自权限中心的通知,于是他马不停蹄地在自助分析(自助取数)上,基于 SQL 对相关表进行了探查分析。对比分析后发现,淘宝渠道该品类的商品曝光率几乎没有下降、环比的点击量也相近,说明该品类的商品在淘宝平台的热度是正常的。是什么原因导致该品类的商品转换率变低了呢?是市场需求变动、库存不足还是其他原因?当小明想查看渠道粒度的品类商品的库存时候,却发现数据地图上没有满足分析需求的表。没有表数据小明就无法继续往下排查了,于是他根据公司业务流程规范对数据开发同学提了数据研发的需求。

数据研发

  1. 整个数据研发链路划分为 4 个阶段,大部分流程对小明来说是透明的。
  2. 第一阶段:数据开发(数仓)同学接到需求后,首先和小明对齐数据口径,明确开发需求。
  3. 第二阶段:数据开发阶段,秉持先设计后开发的理念,数仓同学会经过模型设计,数据集成、数据开发、数据测试、配置稽核监控、任务发布上线多个步骤。比较核心步骤的是数据集成和数据开发,简而言之就是小明要统计商品粒度的库存。而商品库存这种业务数据是在商品部门,数仓同学(基于公司流程规范)将业务线的商品表拉取到数仓 hive 表(数据集成),然后基于业务数据进行二次加工,比如基于数据口径做聚合、过滤、联表等 SQL 操作(数据开发)。
  4. 第三阶段:数据交付阶段,是把数据中台中的数据导出到中间存储(DB,KV,MPP 等),通过数据服务,发布成 API,数据应用通过 API 可以获取数据。(此处是为了对外的应用服务,小明还在数据分析中,无须开发)
  5. 第四阶段:运维。因为大部分任务都需要基于 T+1 每天更新数据。(如果不需要更新数据,仅取一次数据也无需维护)

可视化展现

  1. 数仓同学开发完成、交付给小明之后。小明立马通过指标平台自助取数平台进行分析,对比分析后发现,淘宝渠道销售数据下降的主要原因是:该品类下的部分畅销商品经常库存为 0,出现缺货情况,导致整体品类销售额下降。
  2. 现在,找到了问题原因。为了给老板讲清楚分析过程,小明还要通过报表的方式,把分析过程呈现出来。所以,他又在可视化报表平台上制作了报表,把报表授权给相关的管理层。

分析过程产品化(数据应用)

  1. 为了持续地监控该问题,并对其进行智能预警,小明需要将分析过程固化到数据产品中。他策划并发起了供应链决策协同系统,能够自动检测商品的库存和销售,智能生成补货建议,然后推送给采购系统。

上述就是小明的工作内容,都是基于数据中台上的功能开展的。

现在我们回过头来看阿里的数据中台建设的核心方法论:"OneData、OneService "。 对 OneData 的定义是"构建统一数据规范让数据成为一种资产,而非成本"。翻译成白话就是数据是要可复用的,可以沉淀为资产,是对除了数据建设流程还包括对数据开发的模型设计能力提出要求。比如今天供应链部门的小明提出的加工商品库存表数据,过几日市场部门也提出了商品库存表的数据加工,数仓同学就无需再开发一次,提供上次加工的表即可。这个看似很正常的事情,但如果没有指标系统、数据地图、数仓设计中心,业务方就像大海捞针要从上千、上万张表里找自己的需求表,就算能找到也不确定计算口径、数据来源是否是自己需要的,保险起见就是消耗开发成本重新加工一张。 "OneService 致力于统一数据服务":建设统一 API 管理平台(统一数据网关),提供对外提供服务。小明基于加工出来的库存表在表报系统构建报表,隔壁市场部基于存库报表构建了实时大屏。若干日后数仓同学想梳理数据资产,下线一些无用表。扫描到商品库存表时,通过数据血缘获取依赖它的下游表,但不知道有多少线上应用查询了这张表。这就造成了"上线容易、下线难"的问题。OneService 的好处之一就是对于数据开发,提高了数据应用的管理效率,建立了表到应用的链路关系。另一方面 API 接口对应用开发屏蔽了底层数据存储,使用统一标准的 API 接口查询数据,提高了数据接入的速度。

附录

以上描述的小明工作内容穿插了大量的数据中台功能模块,按类别分大致如下:

类别 模块 核心功能 用户对象
数据研发 数据集成 提供各种数据源的离线、实时数据传输 数据开发
数据开发 1、基于 Hive、Spark 的离线数据开发 2、基于 Flink 的一站式实时数据开发 数据开发
数仓设计中心 模型设计开发平台,通过构建主题域,分层的方式组织数据。基于指标、度量、维度构建数据模型。 数据开发
运维中心 1、任务运维:任务管理(重跑、补数)、任务治理、智能告警等 2、资源运维:提供调度、计算、存储等资源的看板 数据开发
数据测试 提供数据对比、静态代码检查的测试工具 数据开发
数据治理 数据地图 企业元数据门户,包括审批、通知等 数据开发、分析师
指标系统 统一管理指标的业务口径定义、消除指标口径不一致,形成企业的指标字典 数据开发、应用开发、数据产品、运营、分析师
数据质量管理 基于用户配置的稽查规则全链路监控数据 数据开发
成本优化中心 消除无用的、低价值的数据和作业,建立数据 ROI 评估体系 资产管理员、数据开发
数据管理中心 数据生命周期管理、数据资产管理、数据备份与恢复 资产管理员、数据开发
数据安全中心 数据脱敏、数据加密 数据开发
数据服务 数据服务 提供统一 API 管理平台,基于数据平台数据,对外提供服务 数据开发、应用开发
数据应用 自助取数 基于指标、维度查询数据,支持自定义 SQL 查询 运营、产品、分析师
数据填报 上传自定义数据 运营
报表 可视化报表 运营、产品、分析师
大屏 可视化大屏 运营、产品、分析师
可视化分析 界面化的数据查询,相对自助取数无需 SQL 能力 运营、分析师
....

推荐阅读

政采云大数据权限系统设计和实现

JDK11 与 JDK8 特性差异浅谈

Mysql全文索引

聊一聊状态机

自助取数平台探索与实践

招贤纳士

政采云技术团队(Zero),Base 杭州,一个富有激情和技术匠心精神的成长型团队。规模 500 人左右,在日常业务开发之外,还分别在云原生、区块链、人工智能、低代码平台、中间件、大数据、物料体系、工程平台、性能体验、可视化等领域进行技术探索和实践,推动并落地了一系列的内部技术产品,持续探索技术的新边界。此外,团队还纷纷投身社区建设,目前已经是 google flutter、scikit-learn、Apache Dubbo、Apache Rocketmq、Apache Pulsar、CNCF Dapr、Apache DolphinScheduler、alibaba Seata 等众多优秀开源社区的贡献者。

如果你想改变一直被事折腾,希望开始折腾事;如果你想改变一直被告诫需要多些想法,却无从破局;如果你想改变你有能力去做成那个结果,却不需要你;如果你想改变你想做成的事需要一个团队去支撑,但没你带人的位置;如果你想改变本来悟性不错,但总是有那一层窗户纸的模糊......如果你相信相信的力量,相信平凡人能成就非凡事,相信能遇到更好的自己。如果你希望参与到随着业务腾飞的过程,亲手推动一个有着深入的业务理解、完善的技术体系、技术创造价值、影响力外溢的技术团队的成长过程,我觉得我们该聊聊。任何时间,等着你写点什么,发给 zcy-tc@cai-inc.com

微信公众号

文章同步发布,政采云技术团队公众号,欢迎关注

相关推荐
HyperAI超神经34 分钟前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
搞大屏的小北 BI2 小时前
国内旅游:现状与未来趋势分析
信息可视化·数据分析·旅游·数据可视化·bi 工具
Hello.Reader3 小时前
TopK算法在大数据重复数据分析中的应用与挑战
大数据·算法·数据分析
安静的_显眼包O_o3 小时前
【数据分析】DataFrame.query()
数据挖掘·数据分析·pandas
数据龙傲天3 小时前
1688商品API接口:电商数据自动化的新引擎
java·大数据·sql·mysql
Elastic 中国社区官方博客3 小时前
Elasticsearch:使用 LLM 实现传统搜索自动化
大数据·人工智能·elasticsearch·搜索引擎·ai·自动化·全文检索
羊小猪~~5 小时前
机器学习/数据分析--用通俗语言讲解时间序列自回归(AR)模型,并用其预测天气,拟合度98%+
人工智能·python·机器学习·数据挖掘·数据分析·回归·时序数据库
Jason不在家5 小时前
Flink 本地 idea 调试开启 WebUI
大数据·flink·intellij-idea
Elastic 中国社区官方博客6 小时前
使用 Vertex AI Gemini 模型和 Elasticsearch Playground 快速创建 RAG 应用程序
大数据·人工智能·elasticsearch·搜索引擎·全文检索
CHICX12297 小时前
【Hadoop】改一下core-site.xml和hdfs-site.xml配置就可以访问Web UI
xml·大数据·hadoop