3、如何从0到1去建设数据仓库

1、数仓实施过程

1.1 数据调研

数据调研包括:业务调研、需求调研

业务调研

需要调研企业内有哪些业务线、业务线的业务是否还有相同点和差异点

各个业务线有哪些业务模块,每个模型下有哪些业务流程,每个流程下产生的数据

是怎样存储的

业务调研完后的产出:

业务调研表、各个业务流程图


需求调研

主要调研 分析师、运营人员的数据需求 和 现有报表系统中的数据需求


1.2 数仓架构设计

数据域(主题域)的划分

进行数据调研后,需要对 业务过程或维度进行归纳、抽象出数据域

数据域的特点:

为保证数仓的稳定性,数据域需要从业务过程中抽象提炼

并且长期维护和更新,但不轻易变动

划分数据域时,既要能覆盖当前所有的业务需求,又要在有新的业务进入时

毫无影响的进入已有的数据域或者扩展新的数据域


构建总线矩阵

构建总线矩阵的目的是为了明确两个事情:

1、明确每个数据域下有哪些业务过程

2、明确每个业务过程与哪些维度相关


1.3 规范定义

规范定义主要包括:表命名规范、字段命名规范、ETL开发规范 (后续章节会单独介绍这块内容)

1.4 模型设计

模型设计主要包括:事实表设计、维度表设计 (后续章节会单独介绍这块内容)

1.5 代码开发

ETL开发过程

1.6 评审

对设计的模型、开发代码进行评审

1.7 上线及配置质量监控

调度任务上线及配置质量监控任务

1.8 总结

数仓的建设是一个高度迭代和动态的过程,一般采用螺旋式实施方法。

在总体架构设计完成之后,开始根据数据域进行迭代式模型设计和评审

在架构设计、规范定义、模型设计等过程中,都要引入评审机制,以确保实施过程的正确性

相关推荐
D明明就是我41 分钟前
Hive 知识点梳理
数据仓库·hive·hadoop
莫叫石榴姐10 小时前
SQL百题斩:从入门到精通,一站式解锁数据世界
大数据·数据仓库·sql·面试·职场和发展
lifallen18 小时前
从Apache Doris 学习 HyperLogLog
java·大数据·数据仓库·算法·apache
doll ~CJ20 小时前
数据仓库与数据挖掘基础知识
数据仓库·数据挖掘
数据要素X2 天前
寻梦数据空间 | 架构篇:从概念到落地的技术实践与突破性创新
大数据·运维·数据仓库·微服务·数据治理·数据中台·可信数据空间
呆呆小金人2 天前
SQL入门: HAVING用法全解析
大数据·数据库·数据仓库·sql·数据库开发·etl·etl工程师
一起喝芬达20102 天前
当数据仓库遇见AI:金融风控的「认知大脑」正在觉醒
数据仓库·人工智能
jianmin09203 天前
Python高效数据分析从入门到实战的七个步骤
数据仓库
卡拉叽里呱啦4 天前
Apache Iceberg介绍、原理与性能优化
大数据·数据仓库
AI悦创|编程1v18 天前
00-1-正则表达式学习心得:从入门到上瘾,再到克制
数据仓库·正则表达式·数据挖掘·ai悦创编程一对一教学·python一对一辅导·python一对一教学