3、如何从0到1去建设数据仓库

1、数仓实施过程

1.1 数据调研

数据调研包括:业务调研、需求调研

业务调研

需要调研企业内有哪些业务线、业务线的业务是否还有相同点和差异点

各个业务线有哪些业务模块,每个模型下有哪些业务流程,每个流程下产生的数据

是怎样存储的

业务调研完后的产出:

业务调研表、各个业务流程图


需求调研

主要调研 分析师、运营人员的数据需求 和 现有报表系统中的数据需求


1.2 数仓架构设计

数据域(主题域)的划分

进行数据调研后,需要对 业务过程或维度进行归纳、抽象出数据域

数据域的特点:

为保证数仓的稳定性,数据域需要从业务过程中抽象提炼

并且长期维护和更新,但不轻易变动

划分数据域时,既要能覆盖当前所有的业务需求,又要在有新的业务进入时

毫无影响的进入已有的数据域或者扩展新的数据域


构建总线矩阵

构建总线矩阵的目的是为了明确两个事情:

1、明确每个数据域下有哪些业务过程

2、明确每个业务过程与哪些维度相关


1.3 规范定义

规范定义主要包括:表命名规范、字段命名规范、ETL开发规范 (后续章节会单独介绍这块内容)

1.4 模型设计

模型设计主要包括:事实表设计、维度表设计 (后续章节会单独介绍这块内容)

1.5 代码开发

ETL开发过程

1.6 评审

对设计的模型、开发代码进行评审

1.7 上线及配置质量监控

调度任务上线及配置质量监控任务

1.8 总结

数仓的建设是一个高度迭代和动态的过程,一般采用螺旋式实施方法。

在总体架构设计完成之后,开始根据数据域进行迭代式模型设计和评审

在架构设计、规范定义、模型设计等过程中,都要引入评审机制,以确保实施过程的正确性

相关推荐
hexionly2 天前
数据仓库·架构,建模(二)
数据仓库
干就完事了4 天前
Hive视图
数据仓库·hive·hadoop
A尘埃4 天前
Hive基于Hadoop的数据仓库工具
数据仓库·hive·hadoop
杂家5 天前
Hive on Spark && Spark on Hive配置
大数据·数据仓库·hive·hadoop·spark
智海观潮6 天前
Hive经典面试题之连续登录、行转列和列转行
数据仓库·hive·hadoop
泰克教育官方账号6 天前
泰涨知识 | 10分钟快速入门Hive之基本操作篇
数据仓库·hive·hadoop
Dragon online7 天前
数据仓库深度探索系列:数仓建设全流程解析
数据仓库
isNotNullX7 天前
数据中台有什么用?数据仓库和数据中台怎么选?
大数据·数据仓库·人工智能·数据中台
martian6657 天前
第九章:如何学习和掌握BI?
大数据·数据仓库·学习·etl·bi
isNotNullX10 天前
怎么理解ETL增量抽取?
数据库·数据仓库·etl·企业数字化