大数据之数据治理体系全面指南

数据治理是企业数据建设必不可少的一个环节。

好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集存储计算使用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。下面我将结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会遇到的哪些坑。

1 数据治理到底是在做什么

1.1 一个小故事

在正文之前,我先介绍一个小故事。年底了,企业财务管理员小张需要统计公司的金融财务情况。忙碌了一年,公司老板亟需知道公司目前的运营状况。小张需要考虑哪几个点呢:

"

  1. 公司目前有哪些财产?
  2. 这些财产从哪里来?用到了哪些地方?
  3. 是否所有财产的使用均符合规范和制度?

"

幸好小张年初已经制定了一套管理标准。每笔财产的出入都有记录且严格把控使用情况,过程可追溯可审查。最后,小张得到了领导们的一致好评。

1.2 数据治理做的事情

故事中的小张监管着公司所有金融财产活动,确保财产使用的有序高效。这也是数据治理角色的类似功能。

"数据治理的核心工作: 在企业的数据建设进程中,保障企业的数据资产得到正确有效地管理。"

一般来说,数据从外部或者内部产生后,经过大数据手段处理,流转到不同的业务端,为企业的上层应用提供数据赋能。

整个过程,如图所示。

  • 我们先做一些类似数据同步的工作将数据放入到大数据系统中
  • 数据进来后需要管理和存储,即参考建模理论和实际场景建设数仓
  • 经过主题规划、维度确定、标签计算输出等步骤处理
  • 数据输出到报表、应用端使用

整体流程数据治理体系将全程监管。要确认进出系统的数据质量怎么样?是否可转化数据资产数据血缘是否可追溯、数据安全等问题。

"脏乱差的数据是无法使用的,甚至严重埋雷。"

2 为什么要做数据治理

有一些企业对这个问题的概念很模糊,认为目前的数据规模很小,人为可控,暂时不需要做数据治理。但是在实际使用中还是会遇到很多问题:

  • 数据监管力度不够,出现脏数据
  • 数据体系逐渐规模变大,管理混乱
  • 数据的血缘丢失,无法回溯旧、老的数据

无论企业的数据规模如何,我认为还是提起做好数据治理的规划。考虑到成本的问题,可以分阶段进行。

"为什么要进行数据治理:

  1. 你的数据是否真的可用,缺失和异常值怎么办?
  2. 数据从哪里来到哪里去,血缘信息是否丢失
  3. 数据访问是否安全,明文标识还是加密?
  4. 新的数据加工参考什么规范,维度和标签管理是否存在标准?

"

有剑在手不用和无剑可用是两回事。提前做好数据治理规划,会节省后续的改造成本,避免过程冗余重构或者推倒重来等情况的发生。

数据治理可以有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量安全流程可追溯的业务数据。

3 数据治理体系

企业数据治理体系包括数据质量管理元数据管理主数据管理数据资产管理数据安全数据标准等内容。

1)数据质量一般采用业内常用的标准来衡量数据质量的好坏:完整性准确性一致性及时性

  • 完整性:数据的记录和信息是否完整,是否存在缺失情况
  • 准确性:数据汇总记录的信息和数据是否准确,是否存在异常或者错误
  • 一致性:多个业务数仓间的公共数据,必须在各个数据仓库中保持一致
  • 及时性:数据能及时产出和预警

2)元数据管理元数据是关于数据的组织、数据域及其关系的信息,通俗理解,元数据就是描述数据的数据。

元数据包含技术元数据业务元数据。可以帮助数据分析人员清楚了解企业拥有什么数据,它们存储在哪里,如何抽取、清理、维护z这类数据,也即数据血缘。

  • 帮助构建业务知识体系,确立数据业务含义可解释性
  • 提升数据整合和溯源能力,血缘关系可维护
  • 建立数据质量稽核体系,分类管理监控

3)主数据管理企业主数据指企业内一致并共享的业务主体,大白话理解就是各专业公司和业务系统间共享的数据。常见的主数据比如公司的员工客户数据机构信息供应商信息等。这些数据具有权威性和全局性,可归约至公司的企业资产。一般主数据管理需要遵循如下几点:

  • 管理和监管各组织机构、子公司、部门对主数据的访问,制定访问规范和管理原则
  • 定期进行主数据评估,判断既定目标的完善程度
  • 组织相关人员和机构,统一完善主数据建设
  • 提供技术和业务流程支持,全集团集中统筹

4)数据资产管理一般企业在数字化转型时都会考虑数据资产梳理。你的数据有没有被合理利用?如何产生最大价值?这是数据资产管理关心的核心工作。在构建企业资产时一般会考虑不同角度,即业务角度和技术角度,最后进行合并,输出统一的数据资产分析,并向外提供统一的数据资产查询服务。

如何盘活数据,形成数据资产,提供完整的数据资产全景视图,可方便运营者全局、宏观地掌控企业资产动态。5)数据安全数据安全是企业数据建设必不可少的一环,我们的数据都存储在大大小小的磁盘中,对外提供不同程度的查询和计算服务。需要定时对数据进行核查敏感字段加密访问权限控制,确保数据能够被安全地使用。6)数据标准大白话理解,我们需要在组织内定义一套关于数据的规范,好让我们都能理解这些数据的含义。今天张三说这个客户号是办理银行卡的客户,明天李四又说是借贷过的客户。对比一看,两者的字段类型和长度一致,到底要采纳哪个意见呢?数据标准是保障数据的内外部使用和交换的一致性和准确性的规范性约束,通过统一规范,消除二义性

4 企业数据治理实施过程

4.1 数据治理实施框架

数据治理体系是为了规范业务数据规范、数据标准、数据质量和数据安全中的各类管理任务活动而建立的组织、流程与工具。通过一个常态化的数据治理组织,建立数据集中管理长效机制,规范数据管控流程,提升数据质量,促进数据标准一致,保障数据共享与使用安全,从而提高企业运营效率和管理水平。

4.2 数据治理组织架构

企业数据治理体系除了在技术方面的实施架构,还需要管理方面的组织架构支撑。一般在数据治理建设初期,集团会先成立数据治理管理委员会。从上至下由决策层管理层执行层构成。决策层决策、管理层制定方案、执行层实施。层级管理、统一协调。

4.2.1 组织架构

1)决策层提供数据标准管理的决策职能,通俗理解即拍板定方案。2)管理层

  • 审议数据标准管理相关制度
  • 对跨部门难的数据标准管理争议事项进行讨论并决策
  • 管理重大数据标准事项,提交信息科技管理委员会审议

3)执行层

  • 业务部门:负责业务线数据标准的制定、修改、复审,推广落实数据标准等
  • 科技开发:承担治理平台、数据标准、数据质量等实施工作;系统设计和开发工作中遵循数据标准
  • 科技运营:负责技术标准的制定和技术推广

4.2.2 管理层职责

1)项目经理

  • 确定项目目标、范围和计划
  • 制定项目里程碑
  • 管理跨项目协同

2)专家评审组评审项目方案,确定方案的合理性3)PMO

  • 确保项目按计划执行
  • 管理项目重大风险
  • 执行跨项目协同、沟通
  • 组织项目关键评审

3)数据治理专项组执行各项目的落地实施和运营推广,推动执行层的实施数据治理技术落地和项目进展。

4.2.3 执行层职责

数据架构师、数据治理专家和业务专员形成数据治理"铁三角",紧密协作,推进数据治理与数据架构落地。

1)业务专员业务专员作为业务部门数据治理的接口人,在标准质量应用等领域组织业务人员开展工作

  • 定义数据规则
  • 保障数据质量
  • 提出数据需求

2)数据治理专家数据治理专家作为数据治理组成员,负责设计数据架构,运营数据资产;牵头组织业务、IT达成数据治理目标。

  • 构建数据逻辑模型
  • 监控数据质量
  • 运营数据资产

3)数据架构师数据架构师作为IT开发部门的专家,承担数据标准落地、模型落地的重任,协助解决数据质量问题。

  • 数据标准落地
  • 逻辑模型落地
  • 物理模型落地

4.3 数据治理平台

在确定了技术实施方案和组织管理架构,下面需要进行数据治理体系的落地实施。在大型企业中一般会开发一个完整的数据治理平台,囊括所有数据治理功能,对外提供平台服务。1)核心功能数据治理平台作为数据治理的产品体系,旨在保障数据平台的数据是安全、可靠的、标准的、有价值的。

  • 数据资产管理:提供面向用户的场景化搜素,提供全景数据资产地图,方便快速查找资产和资产分析
  • 数据标准管理:统一定制数据标准,提高包括字段、码值、数据字典管理,保障业务数据和中台数据的统一标准
  • 数据质量监控:提供事前、事中、事后的数据质量体系,支持数据质量监控规则配置、告警管理等功能
  • 数据安全:提供数据安全脱敏、安全分级和监控
  • 数据建模中心:统一建模,提供业务系统建模和模型管理

2)元数据管理元数据管理系统作为数据治理平台的前端展示门户,帮助实现对数据资产的快速检索能力,提高数据使用有效性和效率。通过建立完整且一致的元数据管理策略,提供集中、统一、规范的元数据信息访问、查询和调用功能。

3)数据质量

  • 数据质量监控:支持所有用户进行数据质量监控规则配置
  • 规则阻断:配置数据质量监控阻断规则,数据质量出现差异可实时阻断下游作业运行,屏蔽错误结果链路扩散。
  • 告警:数据质量出现预设偏差,及时发出预警通知及时修复

4)数据标准支持定制统一的数据标准平台,包括字段标准管理,码值标准管理以及字典管理,业务源数据和中台数据统一标准。

5)数据安全基于集团数据资产实现数据安全分级管理,自动识别安全信息;提供数据访问安全行为监测,及时识别访问风险。

4.4 数据治理评估

数据治理平台开发完成并运行,需要对整体数据治理体系的效果进行验证和评估。

"1)数据是否可以消除"脏、乱、差"的现象

2)数据资产是否最大价值化

3)所有数据的血缘是否完整可追溯。。。"

1)数据资产通过构建数据资产管理体系,实现资产全覆盖,并支持全局搜索和精准定位目标资产。

  • 实现全局搜索,面向用户提供场景化检索服务
  • 支持标签、数据地图、表名和字段名等多种检索维度
  • 支持进行数据地图,源业务数据字典的结果筛选
  • 比如支持PV/UV用户搜索和资产展示,明确服务目标

2)数据标准新旧数据标准沉淀,打通了数据建模工具、数据标准库和词根标准库,落地数据标准和词根。

  • 实现数据标准库100%拉通
  • 智能识别数据标准和引用
  • 客户端同步更新数据标准、词根

3)数据安全保持事前制度建设事中技术管控事后监控审计的原则建立全流程数据安全管控体系。基于以上数据安全管控体系,支持数据安全定级,构建灵活的数据安全共享流程。

4)数据质量通过数据质量雷达图,定期进行数据和任务质量打分,综合考察数据质量效果。

  • 数据完整性:查看数据项信息是否全面、完整无缺失
  • 告警响应程度:日常管理、应急响应、降低影响;避免数据损毁和丢失
  • 监控覆盖程度:确保数据遵循统一的数据标准和规范要求
  • 作业稳定性:监控作业稳定性,是否存在作业异常等问题
  • 作业时效性:检查任务对应的数据项信息获取是否满足预期要求

5 数据治理的几点误区

1)数据治理是否要做得大而全

"这是一个经典问题,一般对于不同阶段和规模的企业,数据治理的实施程度会有所不同。一般建议先根据自身的数据状况分阶段进行,避免盲目铺开规模,过程中可调整。"

2)数据治理只是技术考虑的事情

"正如文中所说,数据治理不仅仅是技术团队的事情,而是整个集团一起协作完成。其中就包括各业务线以及其他管理组织,没有一个好的实施方案和协作机制,往往事倍功半。"

3)数据治理可以短期见效

"数据治理是个长期过程,会跟随着企业数据的规模和数仓规划的变更同步调整,部分功能可能会在短期内卓有成效,完整体系搭建短期很难实现。"

4)必须得有工具平台,才能开展数据治理

"俗话说工欲善其事必先利其器,有好的工具当然是更好,前提是已经有了成熟的数据治理体系规划和策略。工具和技术手段目前市面上很成熟,先把理论给铺垫好。"

5)数据治理感觉很模糊?不知道最后的落地结果

"数据治理是一个长期工作,需要相关从业者根据企业的数据现状和管理模式去构建和调整,建议边做实践边总结归纳,小步慢跑是一个很好的方式。"

欢迎点赞本文,关注本账号!

相关推荐
锵锵锵锵~蒋1 个月前
实时数据开发|简单理解Flink流计算中解决乱序的机制--水位线
flink·数据开发·实时数据开发
知识分享小能手3 个月前
mysql学习教程,从入门到精通,SQL 删除数据(DELETE 语句)(19)
大数据·开发语言·数据库·sql·学习·mysql·数据开发
xintaiideas6 个月前
SQL语句的案例分析
数据开发
数仓之路6 个月前
数据仓库之核心模型与扩展模型分离
大数据·数据仓库·分布式·spark·维度建模
左美美  ̄8 个月前
MySQL到Doris的StreamingETL实现(Flink CDC 3.0)
大数据·数据仓库·flink·flink cdc·数据开发
张飞的猪1 年前
ClickHouse(24)ClickHouse集成mongodb表引擎详细解析
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据处理·数据开发
张飞的猪1 年前
ClickHouse(22)ClickHouse集成HDFS表引擎详细解析
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据开发
张飞的猪1 年前
ClickHouse(21)ClickHouse集成Kafka表引擎详细解析
大数据·数据库·数据仓库·clickhouse·etl·数仓·数据开发
张飞的猪1 年前
ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析
大数据·数据库·数据仓库·clickhouse·postgresql·etl·数仓·数据开发