目录
[1.1 数据治理概念](#1.1 数据治理概念)
[1.2 数据治理目标](#1.2 数据治理目标)
[1.3 数据治理要解决的问题](#1.3 数据治理要解决的问题)
[1.3.1 合规性](#1.3.1 合规性)
[1.3.2 成本](#1.3.2 成本)
[2.1 初始期](#2.1 初始期)
[2.2 扩张期](#2.2 扩张期)
[2.3 缓慢发展期](#2.3 缓慢发展期)
[2.4 变革期](#2.4 变革期)
[3.1 元数据治理](#3.1 元数据治理)
[3.2 数据质量治理](#3.2 数据质量治理)
[3.3 数据安全治理](#3.3 数据安全治理)
[3.4 计算资源治理](#3.4 计算资源治理)
[3.5 存储资源治理](#3.5 存储资源治理)
[4.1 模型合规治理](#4.1 模型合规治理)
[4.2 数据质量合规治理](#4.2 数据质量合规治理)
[4.3 数据安全合规治理](#4.3 数据安全合规治理)
[4.4 存储资源治理](#4.4 存储资源治理)
[4.5 计算资源治理](#4.5 计算资源治理)
[4.6 数据价值治理](#4.6 数据价值治理)
一、前言
1.1 数据治理概念
数据治理包含了数据生命周期(从获取、使用到处置)内对其进行管理的所有原则性方法。涵盖确保数据安全、私有、准确、可用和易用所执行的所有操作,包括必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。通常是在是数仓发展的中后期开展数据治理活动。
1.2 数据治理目标
数据模型合规,数仓内部及下游易用且有保障,提升开发及使用效率,发挥数据价值, 降本增效。最大化数据使用的ROI(投资回报率)
1.3 数据治理要解决的问题
1.3.1 合规性
元数据合规性
各模型、表,子字段等未按照数据标准规范制作
数据质量合规性
数据质量问题发生频繁,缺少链路保障
数据安全合规性
模型、表/字段未做权限管控,被下游随意引用
1.3.2 成本
存储资源成本
无用数据模型较多,某些表存在不必要存储周期
计算资源成本
存在无效任务,数据倾斜任务,高读写任务(运行时间长)
数据治理的实施可以借助云平台,例某商业版的数据治理工作台的功能如下截图:
'
二、数据仓库发展阶段
2.1 初始期
- **业务特点:**单一、少量的业务模式探索
- **数据诉求:**支持统一数仓内部规范,通过核心数据模型支撑下游应用(数据分析、运营、风控、产品、算法)
2.2 扩张期
- **业务特点:**快速扩张
- **数据诉求:**大量的复合指标,派生指标需要在BI看板、算法等多个场景重复使用。该阶段重点投入数据应用建设、支撑数仓内部和业务方更快定位指标、数据模型、用户数据等,实现自助查询。
2.3 缓慢发展期
- **业务特点:**稳增长
- **数据诉求:**对原有数据仓库进行治理优化,包括数据质量全链路保障、元数据管理、数据安全等基建的建设,还包括指标体系建设(指标定义、指标口径、指标地图)、计算/存储资源治理等内容。(该阶段可以进行集中化数据治理)
2.4 变革期
- **业务特点:**发现新的机会,精细化运营
- **数据诉求:**快速支持业务创新
三、数据治理内容
3.1 元数据治理
这里的元数据治理主要介绍数据表合规治理,文章指路:
3.2 数据质量治理
数据质量治理文章指路:
数据质量文章指路:
3.3 数据安全治理
数据安全治理文章指路:
数仓-数据安全-CSDN博客文章浏览阅读758次,点赞24次,收藏15次。数仓-数据安全https://blog.csdn.net/SHWAITME/article/details/135830159?spm=1001.2014.3001.5502 上述的元数据治理、数质量治理、数据安全治理属于合规治理 的范畴。
3.4 计算资源治理
计算资源治理见文章:
3.5 存储资源治理
存储资源治理见文章:
四、数据治理总结
4.1 模型合规治理
- 数据标准重制定:包括对原来数据域重构,表字段命名体系重构,按照新标准对原来的模型进行合规改造;
- 元数据信息补充:包括添加元数据owner,对元数据的使用说明,颗粒度声明,主键声明以及字段中文名具体内容等进行完善,便于数仓内部或下游使用;
- 制度建设:完善模型评审机制,代码提交强审核,保障内容合规后上线;
- 分层合理性:治理不规范的模型分层引用,例如ADS层表依赖了非DWS层的表等;
- 数据链合理性:重构因快速支撑业务而产生的烟囱模型,消除链条冗长,数据产出耗时长等问题;
4.2 数据质量合规治理
- 流程化:包括制定任务上线/变更流程,指标变更流程等;
- dqc管控:对4大基础dqc进行补充,对核心业务模型dqc补充,对经常触发的dqc进行调整(例如:表行数波动等,可借助算法对近7天的dqc波动率进行监测,动态评估阈值;
- sla及基线治理:上线前把控,保障基线正常运行,核心任务优先产出且分配高资源,培训及整理值班运维手册,建设容灾备份的快恢能力;
- 针对上游问题的数据治理(数据源出现问题):建设数据质量的长期监测体系;
4.3 数据安全合规治理
- 角色权限管控:对不同的使用者/开发者提供不同的使用权限。划分不同的报表、大屏看板的权限等级,使得在同一个图表中,不同等级的用户查看的数据内容也不一样;
- 数据脱敏,防止数据泄露;
- 表/字段分级:对每个表及字段进行打标签,保障每张表都有数据安全管控;
- 数据权限使用:表/字段走审批流程 ,设置数据使用申请时的卡点负责人/负责组;
- 其他的数据下载管控:例如:最多下载 1000行/次, 离职数据的风险管控等;
4.4 存储资源治理
- 设置统一的表/分区的生命周期,对当前表按照新标准进行裁剪,对未分区表进行重制定分区;
- 长期未引用/被使用/临时的表进行下线处理;
- 压缩格式优化/存储格式优化
- 根据业务场景对表的存储重划分:对较大数据量的表,评估是否可以采取全量转增量的存储策略,对用户表可以采取拉链表等;
4.5 计算资源治理
- 数据倾斜任务治理;
- 针对消耗大量的cpu/内存的任务进行治理;
- 无效监控项,重复开发的模型、数据价值低的模型及时下线;
- 梳理数据链路并对任务调度进行治理;
- 规划核心任务,分配任务优先级,非核心的任务靠后运行;
- 小文件治理
4.6 数据价值治理
- 烟囱数据模型及对应的任务,模型粒度成功的任务及时下线处理;
- ads公共逻辑下沉到dws,实现逻辑复用;
- 建立模型价值度量指标,逐步下线低价值的模型;
- 下线ads层未被下游引用的场景模型(不再支撑具体的业务,没有存在的 意义)
五、数据治理如何推动
- 跟下游协同配合最重要的是调动他们的积极性,让下游感觉到治理能对他们带来价值。
- 实施奖惩措施,让下游积极参与其中。
- 和bi一起做治理,可将治理成效的月报/周报发送全技术/业务部门,使他们也能感知到数仓治理的价值。
六、思考与沉淀
代补充~