离线数仓-数据治理

一、前言

[1.1 数据治理概念](#1.1 数据治理概念)

[1.2 数据治理目标](#1.2 数据治理目标)

[1.3 数据治理要解决的问题](#1.3 数据治理要解决的问题)

[1.3.1 合规性](#1.3.1 合规性)

元数据合规性

数据质量合规性

数据安全合规性

[1.3.2 成本](#1.3.2 成本)

存储资源成本

计算资源成本

二、数据仓库发展阶段

[2.1 初始期](#2.1 初始期)

[2.2 扩张期](#2.2 扩张期)

[2.3 缓慢发展期](#2.3 缓慢发展期)

[2.4 变革期](#2.4 变革期)

三、数据治理内容

[3.1 元数据治理](#3.1 元数据治理)

[3.2 数据质量治理](#3.2 数据质量治理)

[3.3 数据安全治理](#3.3 数据安全治理)

[3.4 计算资源治理](#3.4 计算资源治理)

[3.5 存储资源治理](#3.5 存储资源治理)

四、数据治理总结

[4.1 模型合规治理](#4.1 模型合规治理)

[4.2 数据质量合规治理](#4.2 数据质量合规治理)

[4.3 数据安全合规治理](#4.3 数据安全合规治理)

[4.4 存储资源治理](#4.4 存储资源治理)

[4.5 计算资源治理](#4.5 计算资源治理)

[4.6 数据价值治理](#4.6 数据价值治理)

五、数据治理如何推动

六、思考与沉淀

一、前言

1.1 数据治理概念

数据治理包含了数据生命周期（从获取、使用到处置）内对其进行管理的所有原则性方法。涵盖确保数据安全、私有、准确、可用和易用所执行的所有操作，包括必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。通常是在是数仓发展的中后期开展数据治理活动。

1.2 数据治理目标

数据模型合规，数仓内部及下游易用且有保障，提升开发及使用效率，发挥数据价值，降本增效。最大化数据使用的ROI（投资回报率）

1.3 数据治理要解决的问题

1.3.1 合规性

元数据合规性

各模型、表，子字段等未按照数据标准规范制作

数据质量合规性

数据质量问题发生频繁，缺少链路保障

数据安全合规性

模型、表/字段未做权限管控，被下游随意引用

1.3.2 成本

存储资源成本

无用数据模型较多，某些表存在不必要存储周期

计算资源成本

存在无效任务，数据倾斜任务，高读写任务（运行时间长）

数据治理的实施可以借助云平台，例某商业版的数据治理工作台的功能如下截图：

二、数据仓库发展阶段

2.1 初始期

**业务特点：**单一、少量的业务模式探索
**数据诉求：**支持统一数仓内部规范，通过核心数据模型支撑下游应用（数据分析、运营、风控、产品、算法）

2.2 扩张期

**业务特点：**快速扩张
**数据诉求：**大量的复合指标，派生指标需要在BI看板、算法等多个场景重复使用。该阶段重点投入数据应用建设、支撑数仓内部和业务方更快定位指标、数据模型、用户数据等，实现自助查询。

2.3 缓慢发展期

**业务特点：**稳增长
**数据诉求：**对原有数据仓库进行治理优化，包括数据质量全链路保障、元数据管理、数据安全等基建的建设，还包括指标体系建设（指标定义、指标口径、指标地图）、计算/存储资源治理等内容。（该阶段可以进行集中化数据治理）

2.4 变革期

**业务特点：**发现新的机会，精细化运营
**数据诉求：**快速支持业务创新

三、数据治理内容

3.1 元数据治理

这里的元数据治理主要介绍数据表合规治理，文章指路：

数仓治理-数据表合规治理-CSDN博客文章浏览阅读808次，点赞19次，收藏22次。数仓治理-数据表合规治理https://blog.csdn.net/SHWAITME/article/details/135749389?spm=1001.2014.3001.5502

3.2 数据质量治理

数据质量治理文章指路：

数仓治理-数据质量治理-CSDN博客文章浏览阅读936次，点赞27次，收藏29次。数仓数据治理-数据质量治理https://blog.csdn.net/SHWAITME/article/details/135737631?spm=1001.2014.3001.5501

数据质量文章指路：

数仓-数据质量-CSDN博客文章浏览阅读1k次，点赞19次，收藏15次。数仓-数据质量https://blog.csdn.net/SHWAITME/article/details/135732154?spm=1001.2014.3001.5501

3.3 数据安全治理

数据安全治理文章指路：

数仓治理-数据安全治理-CSDN博客文章浏览阅读343次，点赞9次，收藏7次。数仓治理-数据安全治理https://blog.csdn.net/SHWAITME/article/details/135832433?spm=1001.2014.3001.5502 数据安全文章指路：

数仓-数据安全-CSDN博客文章浏览阅读758次，点赞24次，收藏15次。数仓-数据安全https://blog.csdn.net/SHWAITME/article/details/135830159?spm=1001.2014.3001.5502 上述的元数据治理、数质量治理、数据安全治理属于合规治理 的范畴。

3.4 计算资源治理

计算资源治理见文章：

数仓治理-计算资源治理-CSDN博客文章浏览阅读1.1k次，点赞34次，收藏18次。数仓治理-计算资源治理https://blog.csdn.net/SHWAITME/article/details/135760673?spm=1001.2014.3001.5501

3.5 存储资源治理

存储资源治理见文章：

数仓治理-存储资源治理-CSDN博客文章浏览阅读64次，点赞3次，收藏3次。数仓治理-存储资源治理https://blog.csdn.net/SHWAITME/article/details/136000702?spm=1001.2014.3001.5502

四、数据治理总结

4.1 模型合规治理

数据标准重制定：包括对原来数据域重构，表字段命名体系重构，按照新标准对原来的模型进行合规改造；
元数据信息补充：包括添加元数据owner，对元数据的使用说明，颗粒度声明，主键声明以及字段中文名具体内容等进行完善，便于数仓内部或下游使用；
制度建设：完善模型评审机制，代码提交强审核，保障内容合规后上线；
分层合理性：治理不规范的模型分层引用，例如ADS层表依赖了非DWS层的表等；
数据链合理性：重构因快速支撑业务而产生的烟囱模型，消除链条冗长，数据产出耗时长等问题；

4.2 数据质量合规治理

流程化：包括制定任务上线/变更流程，指标变更流程等；
dqc管控：对4大基础dqc进行补充，对核心业务模型dqc补充，对经常触发的dqc进行调整（例如：表行数波动等，可借助算法对近7天的dqc波动率进行监测，动态评估阈值；
sla及基线治理：上线前把控，保障基线正常运行，核心任务优先产出且分配高资源，培训及整理值班运维手册，建设容灾备份的快恢能力;
针对上游问题的数据治理（数据源出现问题）：建设数据质量的长期监测体系;

4.3 数据安全合规治理

角色权限管控：对不同的使用者/开发者提供不同的使用权限。划分不同的报表、大屏看板的权限等级，使得在同一个图表中，不同等级的用户查看的数据内容也不一样；
数据脱敏，防止数据泄露；
表/字段分级：对每个表及字段进行打标签，保障每张表都有数据安全管控；
数据权限使用：表/字段走审批流程，设置数据使用申请时的卡点负责人/负责组;
其他的数据下载管控：例如：最多下载 1000行/次，离职数据的风险管控等;

4.4 存储资源治理

设置统一的表/分区的生命周期，对当前表按照新标准进行裁剪，对未分区表进行重制定分区;
长期未引用/被使用/临时的表进行下线处理；
压缩格式优化/存储格式优化
根据业务场景对表的存储重划分：对较大数据量的表，评估是否可以采取全量转增量的存储策略，对用户表可以采取拉链表等；

4.5 计算资源治理

数据倾斜任务治理；
针对消耗大量的cpu/内存的任务进行治理；
无效监控项，重复开发的模型、数据价值低的模型及时下线；
梳理数据链路并对任务调度进行治理；
规划核心任务，分配任务优先级，非核心的任务靠后运行；
小文件治理

4.6 数据价值治理

烟囱数据模型及对应的任务，模型粒度成功的任务及时下线处理；
ads公共逻辑下沉到dws，实现逻辑复用；
建立模型价值度量指标，逐步下线低价值的模型；
下线ads层未被下游引用的场景模型（不再支撑具体的业务，没有存在的意义）

五、数据治理如何推动

跟下游协同配合最重要的是调动他们的积极性，让下游感觉到治理能对他们带来价值。
实施奖惩措施，让下游积极参与其中。
和bi一起做治理，可将治理成效的月报/周报发送全技术/业务部门，使他们也能感知到数仓治理的价值。

六、思考与沉淀

代补充~