离线数仓-数据治理

目录

一、前言

[1.1 数据治理概念](#1.1 数据治理概念)

[1.2 数据治理目标](#1.2 数据治理目标)

[1.3 数据治理要解决的问题](#1.3 数据治理要解决的问题)

[1.3.1 合规性](#1.3.1 合规性)

元数据合规性

数据质量合规性

数据安全合规性

[1.3.2 成本](#1.3.2 成本)

存储资源成本

计算资源成本

二、数据仓库发展阶段

[2.1 初始期](#2.1 初始期)

[2.2 扩张期](#2.2 扩张期)

[2.3 缓慢发展期](#2.3 缓慢发展期)

[2.4 变革期](#2.4 变革期)

三、数据治理内容

[3.1 元数据治理](#3.1 元数据治理)

[3.2 数据质量治理](#3.2 数据质量治理)

[3.3 数据安全治理](#3.3 数据安全治理)

[3.4 计算资源治理](#3.4 计算资源治理)

[3.5 存储资源治理](#3.5 存储资源治理)

四、数据治理总结

[4.1 模型合规治理](#4.1 模型合规治理)

[4.2 数据质量合规治理](#4.2 数据质量合规治理)

[4.3 数据安全合规治理](#4.3 数据安全合规治理)

[4.4 存储资源治理](#4.4 存储资源治理)

[4.5 计算资源治理](#4.5 计算资源治理)

[4.6 数据价值治理](#4.6 数据价值治理)

五、数据治理如何推动

六、思考与沉淀


一、前言

1.1 数据治理概念

数据治理包含了数据生命周期(从获取、使用到处置)内对其进行管理的所有原则性方法。涵盖确保数据安全、私有、准确、可用和易用所执行的所有操作,包括必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。通常是在是数仓发展的中后期开展数据治理活动。

1.2 数据治理目标

数据模型合规,数仓内部及下游易用且有保障,提升开发及使用效率,发挥数据价值, 降本增效。最大化数据使用的ROI(投资回报率)

1.3 数据治理要解决的问题

1.3.1 合规性

元数据合规性

各模型、表,子字段等未按照数据标准规范制作

数据质量合规性

数据质量问题发生频繁,缺少链路保障

数据安全合规性

模型、表/字段未做权限管控,被下游随意引用

1.3.2 成本

存储资源成本

无用数据模型较多,某些表存在不必要存储周期

计算资源成本

存在无效任务,数据倾斜任务,高读写任务(运行时间长)

数据治理的实施可以借助云平台,例某商业版的数据治理工作台的功能如下截图:

'

二、数据仓库发展阶段

2.1 初始期

  • **业务特点:**单一、少量的业务模式探索
  • **数据诉求:**支持统一数仓内部规范,通过核心数据模型支撑下游应用(数据分析、运营、风控、产品、算法)

2.2 扩张期

  • **业务特点:**快速扩张
  • **数据诉求:**大量的复合指标,派生指标需要在BI看板、算法等多个场景重复使用。该阶段重点投入数据应用建设、支撑数仓内部和业务方更快定位指标、数据模型、用户数据等,实现自助查询。

2.3 缓慢发展期

  • **业务特点:**稳增长
  • **数据诉求:**对原有数据仓库进行治理优化,包括数据质量全链路保障、元数据管理、数据安全等基建的建设,还包括指标体系建设(指标定义、指标口径、指标地图)、计算/存储资源治理等内容。(该阶段可以进行集中化数据治理)

2.4 变革期

  • **业务特点:**发现新的机会,精细化运营
  • **数据诉求:**快速支持业务创新

三、数据治理内容

3.1 元数据治理

这里的元数据治理主要介绍数据表合规治理,文章指路:

数仓治理-数据表合规治理-CSDN博客文章浏览阅读808次,点赞19次,收藏22次。数仓治理-数据表合规治理https://blog.csdn.net/SHWAITME/article/details/135749389?spm=1001.2014.3001.5502

3.2 数据质量治理

数据质量治理文章指路:

数仓治理-数据质量治理-CSDN博客文章浏览阅读936次,点赞27次,收藏29次。数仓数据治理-数据质量治理https://blog.csdn.net/SHWAITME/article/details/135737631?spm=1001.2014.3001.5501

数据质量文章指路:

数仓-数据质量-CSDN博客文章浏览阅读1k次,点赞19次,收藏15次。数仓-数据质量https://blog.csdn.net/SHWAITME/article/details/135732154?spm=1001.2014.3001.5501

3.3 数据安全治理

数据安全治理文章指路:

数仓治理-数据安全治理-CSDN博客文章浏览阅读343次,点赞9次,收藏7次。数仓治理-数据安全治理https://blog.csdn.net/SHWAITME/article/details/135832433?spm=1001.2014.3001.5502 数据安全文章指路:

数仓-数据安全-CSDN博客文章浏览阅读758次,点赞24次,收藏15次。数仓-数据安全https://blog.csdn.net/SHWAITME/article/details/135830159?spm=1001.2014.3001.5502 上述的元数据治理、数质量治理、数据安全治理属于合规治理 的范畴。

3.4 计算资源治理

计算资源治理见文章:

数仓治理-计算资源治理-CSDN博客文章浏览阅读1.1k次,点赞34次,收藏18次。数仓治理-计算资源治理https://blog.csdn.net/SHWAITME/article/details/135760673?spm=1001.2014.3001.5501

3.5 存储资源治理

存储资源治理见文章:

数仓治理-存储资源治理-CSDN博客文章浏览阅读64次,点赞3次,收藏3次。数仓治理-存储资源治理https://blog.csdn.net/SHWAITME/article/details/136000702?spm=1001.2014.3001.5502

四、数据治理总结

4.1 模型合规治理

  • 数据标准重制定:包括对原来数据域重构,表字段命名体系重构,按照新标准对原来的模型进行合规改造;
  • 元数据信息补充:包括添加元数据owner,对元数据的使用说明,颗粒度声明,主键声明以及字段中文名具体内容等进行完善,便于数仓内部或下游使用;
  • 制度建设:完善模型评审机制,代码提交强审核,保障内容合规后上线;
  • 分层合理性:治理不规范的模型分层引用,例如ADS层表依赖了非DWS层的表等;
  • 数据链合理性:重构因快速支撑业务而产生的烟囱模型,消除链条冗长,数据产出耗时长等问题;

4.2 数据质量合规治理

  • 流程化:包括制定任务上线/变更流程,指标变更流程等;
  • dqc管控:对4大基础dqc进行补充,对核心业务模型dqc补充,对经常触发的dqc进行调整(例如:表行数波动等,可借助算法对近7天的dqc波动率进行监测,动态评估阈值;
  • sla及基线治理:上线前把控,保障基线正常运行,核心任务优先产出且分配高资源,培训及整理值班运维手册,建设容灾备份的快恢能力;
  • 针对上游问题的数据治理(数据源出现问题):建设数据质量的长期监测体系;

4.3 数据安全合规治理

  • 角色权限管控:对不同的使用者/开发者提供不同的使用权限。划分不同的报表、大屏看板的权限等级,使得在同一个图表中,不同等级的用户查看的数据内容也不一样;
  • 数据脱敏,防止数据泄露;
  • 表/字段分级:对每个表及字段进行打标签,保障每张表都有数据安全管控;
  • 数据权限使用:表/字段走审批流程 ,设置数据使用申请时的卡点负责人/负责组;
  • 其他的数据下载管控:例如:最多下载 1000行/次, 离职数据的风险管控等;

4.4 存储资源治理

  • 设置统一的表/分区的生命周期,对当前表按照新标准进行裁剪,对未分区表进行重制定分区;
  • 长期未引用/被使用/临时的表进行下线处理;
  • 压缩格式优化/存储格式优化
  • 根据业务场景对表的存储重划分:对较大数据量的表,评估是否可以采取全量转增量的存储策略,对用户表可以采取拉链表等;

4.5 计算资源治理

  • 数据倾斜任务治理;
  • 针对消耗大量的cpu/内存的任务进行治理;
  • 无效监控项,重复开发的模型、数据价值低的模型及时下线;
  • 梳理数据链路并对任务调度进行治理;
  • 规划核心任务,分配任务优先级,非核心的任务靠后运行;
  • 小文件治理

4.6 数据价值治理

  • 烟囱数据模型及对应的任务,模型粒度成功的任务及时下线处理;
  • ads公共逻辑下沉到dws,实现逻辑复用;
  • 建立模型价值度量指标,逐步下线低价值的模型;
  • 下线ads层未被下游引用的场景模型(不再支撑具体的业务,没有存在的 意义)

五、数据治理如何推动

  • 跟下游协同配合最重要的是调动他们的积极性,让下游感觉到治理能对他们带来价值。
  • 实施奖惩措施,让下游积极参与其中。
  • 和bi一起做治理,可将治理成效的月报/周报发送全技术/业务部门,使他们也能感知到数仓治理的价值。

六、思考与沉淀

代补充~

相关推荐
Data跳动2 小时前
Spark内存都消耗在哪里了?
大数据·分布式·spark
woshiabc1113 小时前
windows安装Elasticsearch及增删改查操作
大数据·elasticsearch·搜索引擎
lucky_syq3 小时前
Saprk和Flink的区别
大数据·flink
lucky_syq3 小时前
流式处理,为什么Flink比Spark Streaming好?
大数据·flink·spark
袋鼠云数栈3 小时前
深入浅出Flink CEP丨如何通过Flink SQL作业动态更新Flink CEP作业
大数据
小白学大数据5 小时前
如何使用Selenium处理JavaScript动态加载的内容?
大数据·javascript·爬虫·selenium·测试工具
15年网络推广青哥5 小时前
国际抖音TikTok矩阵运营的关键要素有哪些?
大数据·人工智能·矩阵
节点。csn6 小时前
Hadoop yarn安装
大数据·hadoop·分布式
csding116 小时前
写入hive metastore报问题Permission denied: user=hadoop,inode=“/user/hive”
数据仓库·hive·hadoop
arnold666 小时前
探索 ElasticSearch:性能优化之道
大数据·elasticsearch·性能优化