浅谈数据仓库运营

一、背景

企业每天都会产生大量的数据,随着时间增长,数据会呈现几何增长,尤其在系统基建基础好的公司。好的数据仓库需要提前规划和好的运营,才能支持企业的发展,为企业提供数据分析基础。

二、目标

提高数据仓库存储性能和开发质量以及数据质量

三、数据运营指标

3.1 开发质量

表名规范性:检验数据库表名是否按照数仓表名规范,表名是否按照词根翻译

字段名规范性:检验表字段名是否按照词根中文进行翻译

字段类型规范性:检验表字段类型是否按照数据标准设立

表引用次数:根据表引用次数进行排名,重点关注引用次数高的和次数低的,次数高的定期优化,确保任务执行失败,次数低的考虑数据架构是否合理,如果存在次数为0的说明未使用(很多业务调整但是表还没有拿掉,会存在很多僵尸表)。

表循环依赖:检查数据库表是否存在循环写入(A->B,B->C,C->A),很多公司不存在数据架构师,往往为了实现报表需求,直接拿已经做好的指标,可能会存在循环写入的情况(A表用B表指标1,B表用A表指标2)

表层级依赖:数仓规范会要求ODS只能写入DWD层,DWD层只能写入DWS层。

SQL编写规范性:在sql中我们会要求sql编写规范,不写 select *, 字段后带有注释,字段前有表别名,每个表必须重命名,字段换行等等

3.2 ETL任务

任务失败次数:查看任务失败次数排名,重点关注容易出错的任务

任务执行时长:优化长时间执行任务,降低资源使用

任务读取数据量:查看任务读取数据量大小,大数据量访问的数据库做好性能支撑

任务执行时间点分布:查看任务集中时间点,将任务均匀分布,避免任务集中执行

任务类型分布:查看执行任务类型分布,针对不同类型任务分配资源

3.3 数据质量

**一致性:**数据值在数据集之间和数据集内之间表达的相符程度

**完整性:**引用完整性或数据集内部的一致性

**准确性:**数据模式符合预期程度

**及时性:**数据更新是否及时

**唯一性:**数据集的任何实体不会重复出现

**有效性:**数据值与定义的域值一致

四、实施步骤

定规范:制定数据仓库开发规范,建立词根库,制定数据标准。

定流程:将开发最佳实践落地成流程,做好人岗匹配。

规范落地监控:根据规范开发规范规则监控,识别违法规范行为。

奖罚措施:奖励优秀的开发,惩罚违法开发规范的行为。

相关推荐
RestCloud8 小时前
让数据流动更智能:元数据如何重塑DataOps与ETL
数据仓库·etl·数据处理·数据传输·元数据·数据集成平台·dataops
喻师傅14 小时前
数据仓库——总线架构详解
数据仓库·架构
RyanJohnson14 小时前
企业数据仓库
数据仓库·1024程序员节
北邮-吴怀玉1 天前
5.1.5 大数据方法论与实践指南-数据仓库存储格式选择
大数据·数据仓库
派可数据BI可视化1 天前
数字化转型迫在眉睫,企业应该如何面对?
大数据·数据仓库·信息可视化·数据挖掘·数据分析
SeaTunnel3 天前
(二)从分层架构到数据湖仓架构:数据仓库分层下的技术架构与举例
大数据·数据仓库·数据分析·数据同步
数智顾问3 天前
Hive数据仓库架构原理深度解析与核心实践指南
数据仓库
那我掉的头发算什么4 天前
【数据库】navicat的下载以及数据库约束
android·数据库·数据仓库·sql·mysql·数据库开发·数据库架构
励志成为糕手5 天前
Hive数据仓库:架构原理与实践指南
大数据·数据仓库·hive·1024程序员节·hql