数据治理(1)-数据规划

目录

一、数仓规划

[1. 数据分层](#1. 数据分层)

[2. 业务分类](#2. 业务分类)

[3. 数据域](#3. 数据域)

[4. 业务过程](#4. 业务过程)

二、数据标准

三、维度建模

[1. 维度表](#1. 维度表)

[2. 明细表](#2. 明细表)

[3. 汇总表](#3. 汇总表)

四、数据指标

五、数据建模的必要性

一、数仓规划

进行数据建模时,需要进行数据分层、业务分类、主题域和业务过程设计。

1. 数据分层

您可以结合业务场景、数据场景综合考虑设计数仓的数据分层,业界通用的五层数仓分层:

您也可以根据业务需求创建其他分层数据层。

  • 数据引入层 ODS(Operational Data Store)

  • 明细数据层 DWD(Data Warehouse Detail)

  • 汇总数据层 DWS(Data Warehouse Summary)

  • 应用数据层 ADS(Application Data Service)

  • 公共维度层 DIM(Dimension)

2. 业务分类

当企业业务比较复杂,不同类型业务彼此间需要共享数据域,但是又希望能在模型设计和应用过程中快速定位本业务的数据时,可结合真实业务情况,规划不同的业务分类,在后续建模的维度表和明细表中,将其关联到对应的业务分类中。
*

3. 数据域

数据域是一个较高层次的数据归类标准,是对企业业务过程进行抽象、提炼、组合的集合,是企业业务人员在使用数据时第一个分组入口,可以帮助企业业务人员快速的从海量的数据中快速圈定到自己的业务数据。

数据域面向业务分析,一个数据域对应一个宏观分析领域,比如采购域、供应链域、HR域、电商业务域等。数据域的设定建议由统一组织或者人员(如数据架构师或者模型小组成员)进行管理和设定,数据域设计人员需要能对企业有深刻的业务理解,更多的表达对业务的解释和抽象。
*

4. 业务过程

业务过程是对业务活动流程的描述,例如在电商领域,加购、下单、支付等都可以是一个业务过程。进行业务效果分析时,业务过程有非常典型的应用,例如常用漏斗分析,即将购买商品的业务活动分解为浏览商品、加入购物车、下订单、付款、确认收货等业务过程,统计每个业务过程的"订单数",将可以针对"订单数"这一指标做漏斗分析。
*

二、数据标准

DataWorks数据建模支持在建模前规划制定数据标准,或在建模使用过程中根据业务情况沉淀企业业务的数据标准。通过规范约束标准代码、度量单位、字段标准、命名词典,来保障后续建模与应用过程中数据处理的一致性。

例如,现有注册表和登录表两张表,注册表中存储了会员ID,字段名为user_id ,登录表中也存储了会员ID,字段名为userid,此时针对会员ID这个数据创建统一的字段标准,例如指定数据处理的标准代码、指定字段的属性要求(例如字段的数据类型、长度、默认值等)、指定数据的度量单位。创建好字段标准后,后续在建模过程中涉及到会员ID这个字段的设置时,即可直接关联此标准,以此来保障所有会员ID字段的标准统一。
*

三、维度建模

数据建模理念遵循维度建模思想,维度建模功能进行数据仓库建模设计时:
*

###### **1. 维度表**

结合业务的数据域的规划,提取出各业务数据域中进行数据分析时可能存在的维度,并将维度及其属性通过维度表的方式存储下来。例如,在进行电商业务数据分析时,可用的维度及其属性有:订单维度(属性包括订单ID、订单创建时间、买家ID、卖家ID等)、用户维度(性别、出生日期等)、商品维度(包括商品ID、商品名称、商品上架时间)等,此时您就可以将这些维度和属性创建为订单维度表、用户维度表、商品维度表等,将维度属性记录作为维度表的字段。后续您可将这些维度表部署到数仓中,通过ETL将实际维度数据按照维度表定义的方式进行存储,方便业务人员在后续的数据分析时进行取用。
###### **2. 明细表**

结合业务过程的规划,梳理分析各业务过程中可能产生的实际数据,将这些实际数据字段通过明细表的方式存储下来。例如下订单这一业务过程中,您可以创建下订单这一明细表,用于记录下单过程可能产生实际数据字段,例如订单ID、订单创建时间、商品ID、数量、金额等。后续您可将这些明细表部署到数仓中,通过ETL将真实的数据按照明细表的定义方式进行汇总存储,便于业务分析时取用。
###### **3. 汇总表**

您可以结合业务数据分析和数仓分层,将一些明细的事实数据和维度数据先进行汇总分析,创建汇总表,后续数据分析时直接取用汇总表中的数据即可,无需再取用明细表和维度表中的数据。

四、数据指标

指标体系由原子指标修饰词时间周期派生指标构成。

  • 原子指标:是基于某一业务过程下的度量,如"支付订单"业务过程中的"支付金额"。

  • 修饰词:是对指标统计业务范围的限定,如限定"支付金额"的统计范围为"母婴类产品"。

  • 时间周期:用于明确指标统计的时间范围或者时间点,如指定统计"支付金额"的时间周期为"最近7天"。

  • 派生指标:由原子指标、修饰词、时间周期组合定义。如,统计"最近7天""母婴类产品"的"支付金额"。


五、数据建模的必要性

  • 1. 海量数据的标准化管理

    企业业务越庞大数据结构就越复杂,企业数据量会随着企业业务的快速发展而迅速增长,如何结构化有序地管理和存储数据是每个企业都将面临的一个挑战。

  • 2. 业务数据互联互通,打破信息壁垒

    公司内部各业务、各部门之间数据独立自主形成了数据孤岛,导致决策层无法清晰、快速地了解公司各类数据情况。如何打破部门或业务领域之间的信息孤岛是企业数据管理的一大难题。

  • 3. 数据标准整合,统一灵活对接

    同一数据不同描述,企业数据管理难、内容重复、结果不准确。如何制定统一的数据标准又不打破原有的系统架构,实现灵活对接上下游业务,是标准化管理的核心重点之一。

  • 4.数据价值最大化,企业利润最大化

    在最大程度上用好企业各类数据,使企业数据价值最大化,为企业提供更高效的数据服务。

相关推荐
SelectDB技术团队17 分钟前
兼顾高性能与低成本,浅析 Apache Doris 异步物化视图原理及典型场景
大数据·数据库·数据仓库·数据分析·doris
soso19682 小时前
DataWorks快速入门
大数据·数据仓库·信息可视化
B站计算机毕业设计超人2 小时前
计算机毕业设计SparkStreaming+Kafka旅游推荐系统 旅游景点客流量预测 旅游可视化 旅游大数据 Hive数据仓库 机器学习 深度学习
大数据·数据仓库·hadoop·python·kafka·课程设计·数据可视化
Yz98766 小时前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
武子康6 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
武子康6 小时前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
java·大数据·数据仓库·hive·hadoop·mysql
锵锵锵锵~蒋6 小时前
实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么
大数据·数据仓库·flink·实时数据开发
武子康15 小时前
Java-06 深入浅出 MyBatis - 一对一模型 SqlMapConfig 与 Mapper 详细讲解测试
java·开发语言·数据仓库·sql·mybatis·springboot·springcloud
JessieZeng aaa18 小时前
CSV文件数据导入hive
数据仓库·hive·hadoop