大数据时代,数据治理

一、大数据时代还需要数据治理吗?

数据平台发展过程中随处可见的数据问题

大数据不是凭空而来,1981年第一个数据仓库诞生,到现在已经有了近40年的历史,相对数据仓库来说我还是个年轻人。而国内企业数据平台的建设大概从90年代末就开始了,从第一代架构出现到现在已经经历了近20年的时间。

在这20年的时间里,国内数据平台实施者可以说是受尽折磨,数据项目一直不受待见,是出了名的脏活累活。

可以说,忽视数据治理给数据平台建设带来了不少问题。随处可见的数据不统一,难以提升的数据质量,难以完成的数据模型梳理等源源不断的基础性数据问题,限制了数据平台发展,导致数据应用不能在商业上快速展示效果。

举一个典型商业智能应用的例子,管理驾驶舱可能大家都听说过,很多企业建设了管理驾驶舱,但是建设完之后往往成为摆设,只有当领导需要看的时候,大家才去拼命改数据。

为什么数据平台的建设遇到这么多"坎",而且难以真正发挥其商业价值?其实核心问题还是数据本身不统一,数据内容准确度不高。

数据治理逐渐受到各行业认识

我国最早意识到数据治理重要性的行业银行是金融行业。由于对数据的强依赖,金融业一直非常重视数据平台的建设,经过几代数据平台的验证,发现数据治理是平台建设的主要限制因素,而且随着投资和建设的投入增加,对数据治理的重要性的认识也越来越深刻。

央行与银监会也非常重视数据治理,早在2008年开始,在全国银行业推行统一的数据标准,控制行业的数据质量。工行、建行、国开等大型银行,对数据治理都非常重视,下图是某大型银行针对数据全生命周期的数据管控。

现阶段各领域都开始了大数据平台的搭建,期望运用大数据的能力,来实现数字化转型。大数据平台的搭建实际上还是数据信息的搭建,传统型数据平台遇到的全部难题大数据平台都会有可能遇到,鉴于数据信息量级的发生变化,大数据平台必定还会出现新的难题。

大数据时代下需用新一代的数据治理能力

现阶段大数据平台的重要难题具体体现在下列四个方面:

数据信息不可知:用户不了解大数据平台中有什么数据信息,也不知道这一些数据信息和业务的关联性有哪些,尽管认识到大数据的重要性,但平台中是否有能化解自个所面对业务难题的关键数据信息?该到哪里寻找这一些数据信息?

数据信息不可控:数据信息不可控是在传统型数据平台开端就一直存在的不足,在大数据时代体现得更加显著。并没有统一的数据标准致使数据信息很难集成和统一,并没有质量控制致使大量数据因质量过低而很难被运用,并没有能有效的管控整体大数据平台的流程管理。

数据信息不可取:用户即便 知道自个业务所需用的是那些数据信息,也无法方便自助式地取得数据信息,反之,获取数据需用较长的研发过程,致使业务剖析的需求很难被迅速满足需要,而在大数据时代,业务寻求的是针对于特定业务难题的迅速剖析,这类漫长的需求处理速度是很难满足需要业务需求的。

数据信息不可联:大数据时代,企业有着着大量数据,但企业数据知识相互间的关联性还较为弱,并没有把数据信息和知识结构关联性起来,企业员工很难作到数据信息与知识相互间的迅速转换,无法对数据信息开展自助式的的探索和挖掘,数据信息的深层次价值很难体现。

通过剖析上述四种难题,能够发现传统型数据平台面对的难题,在大数据时代不但并没有消失,还不断涌现而出更新的难题,传统型的数据治理需用提升能力,来化解大数据平台搭建过程中的这一些难题。

在传统型数据平台阶段,数据治理的目标主要是做管控,为数据信息部门创建1个的治理办公环境,涉及范畴、质量等。

在大数据平台阶段,用户对数据信息的需求持续上升,用户范畴从数据信息部门拓展到全企业,数据治理无法再仅仅面向数据信息部门了,需用变为面向全企业用户的办公环境,需用以全企业用户为中心,从给用户提供服务的角度,管控好数据信息的同时为用户提供自助式获得大数据的能力,幫助企业实现数字化转型。

二、如何面向用户开展大数据治理?

面向用户的大数据治理实践案例

很多企业经过一段时间的摸索,已经看到了用户对大数据治理的这种需求,大数据治理也持续在各行业的大数据平台建设中得到关注。

以某公司数据治理平台建设为例,该公司以元数据为基础,实现了贯穿数据设计、产生、存储、迁移、使用、归档等环节的数据全生命周期管理,以及数据从源端到数据中心,再到应用端的全过程的管理,做到了以用户为中心,通过大数据治理,为用户提供了更便捷、更灵活、更准确地获得企业大数据资产的能力。

该公司的大数据治理的起点是先以元数据为基础,构建数据资产管理体系。从用户的视角说明白企业数据有哪些,哪些用户能够使用。在该公司的数据资产定义过程中,选择了贴近业务用户的数据分类方案,梳理和识别企业运营数据资源。

基于第一步形成的数据分类管理体系框架,梳理、整合各级各类数据资源,建立了数据资产树,按照不同数据细类制定相应的工作模板,对指标数据和明细数据进行梳理和归并。

所有资产梳理和控制的最终目标都是为了用户能够使用数据,通过L0--L1--L2三个层次的定义,以业务驱动为导向提高数据查询的实用性。

L0:按照公司行业业务域--业务主题--业务活动的结构化方法,对查询进行分类导航。

L1:依据业务和数据源中数据资源情况,按业务主题对数据进行预处理和定义。

L2:将数据库表字段等技术元数据转换为业务人员可以理解的业务元数据。

通过梳理数据、管理数据、提供数据、关联业务,形成了一整套以用户为中心的大数据治理能力,最终为用户直接使用数据提供了帮助,从而使数据治理完成了从以管控为中心到以业务为中心的转变。

面向用户的大数据治理的四个阶段

面向用户的大数据治理该如何做,总结为以下四个阶段:

(1)第一阶段:全面梳理企业信息,自动化构建企业的数据资产库

在第一阶段,主要是对企业大数据的梳理,从而全面掌握企业大数据的情况,主要有以下三个方面。

梳理全企业数据架构,对企业的数据模型、数据关系、数据处理有清晰化的认识。

对数据资产形成统一的自动化管理,形成企业的元数据库。

对企业数据资产形成多种视图,使数据资产能够让不同用户,有不同视角的展示。

(2)第二阶段:建立管理流程,落地数据标准,提升数据质量

在第二阶段,需要建立大数据管控能力,包括从业务的角度梳理企业数据质量问题,形成质量控制能力,形成核心数据标准,并抓标准落地。针对关键问题,建立数据的管理流程,少而精,控制核心问题。

在这个阶段主要是为数据部门形成一套管理大数据的能力,同时为数据部门形成数据管理的工作环境。

(3)第三阶段:直接为用户提供价值,向用户提供数据微服务

通过前两个阶段,企业能够建立基本的数据治理的能力,在此基础上,还需要以用户为中心,为用户提供直接获取数据的能力。

第三阶段依赖于前两个阶段能力的建设,在这个阶段的目标是向用户提供自助化的数据服务,使用户能够自助地获取和使用数据,并且在用户的使用过程中再反过去进一步落地标准、控制质量。

(4)第四阶段:智能化企业知识图谱,为全企业提供数据价值

最后一个阶段是将数据沉淀成为知识,形成企业的知识图谱,提供从"关系"的角度去分析问题的能力。

一般来说,数据搜索是通过业务术语(知识)来搜索的,而知识之间是有相互联系的,例如水果和西红柿是上下位关系(后者是前者的具体体现),好的搜索除了要列出直接结果,还需要显示与之关联的知识,这就要建立知识图谱。

简单说知识图谱就是概念、属性以及概念之间的关联关系,这个关系可以手工建立,也能通过自然语言处理等方法,对政策、法规、需求、数据库comments、界面等多种来源进行分析,自动化建立起企业知识图谱。从而使数据治理成为整个企业的数据工作环境,强化企业数据与知识体系之间的关联,加快企业员工数据与知识之间的转换效率,让数据的深层价值得以体现。

通过这四个阶段的建设,使数据治理平台由数据部门的工作环境,转变成为全企业的数据工作环境,以用户为中心,让用户能够直接使用大数据,并通过用户的使用来管理数据,持续优化数据质量,在达到治理数据目标的同时,也最大限度发挥了数据的价值。

三、面向用户的自服务大数据治理架构

自服务大数据治理架构

以用户为中心的自服务大数据治理技术架构包括5部分:数据资产管理、数据监控管理、数据准备平台、数据服务总线,消息与流数据管理。

整个平台分为5块核心能力:数据资产、数据准备、数据服务总线、消息&流数据管理、数据监控管理。

数据资产管理是对企业数据信息统一管理也是整个平台的基础,数据准备平台是资产服务化的加工厂,它不但能将原始数据通过服务形式以用户能看懂的方式提供,也可以通过在线数据模型设计实现最终数据产品的发布,起到承上启下的作用。

数据服务总线和消息&流数据管理的价值层次是一致的,只是从数据时效性上面对数据进行了区分,去适应用户不同的管理和应用诉求。起到数据通道和安全管理两个核心内容。

数据监控管理有别于大数据中的数据节点管理,而是从数据管理的视角切入对数据的结构的变化、关系的变化进行管理和控制,它是数据持续发挥价值的监管者。

自服务大数据治理的关键技术

(1)人工智能的知识图谱构建

知识图谱的构建,主要有以下三个步骤:

a、基于企业元数据信息,通过自然语言处理、机器学习、模式识别等算法,以及业务规则过滤,实现知识提取。

b、以本体形式表示和存储知识,自动构建成起资产知识图谱。

c、通过知识图谱关系,利用智能搜索、关联查询手段,为最终用户提供更加精确的数据。

(2)细粒度的敏感信息控制

数据内容安全管理包括对IT系统和数据进行敏感度等级划分的定义、浏览、检核,辅助安全规则在业务、技术领域的应用。

从功能上包括数据敏感性分级、系统敏感性分级,数据安全策略定义管理,安全策略输出,安全管理报告,数据安全检核,敏感数据角色管理,敏感数据权鉴管理及相关电子审批流程。

(3)自助化的大数据服务生产线

这里有4个关键点:

a、自助的查询到想要的数据。

b、自动的生成数据服务。

c、及时稳定的获得数据通道。

d、数据安全有保证。

通过自助化的数据生产线,数据使用方(业务人员)大大减少了对开发人员依赖,80%以上的数据需求,都能通过自己进行整合开发,最终获取数据。让所有用数据的人能方便得到想要的数据。

(4)多维度实时的数据资产信息的展示

数据治理平台提供实时、全面的数据监控,不仅能从作业、模型、物理资源等各方面进行全面的数据资产盘点,还能对数据及时性、问题数据量等方面的数据健康环境进行全面的预警。

(5)以业务元模型为核心的数据微服务

数据需要以服务的形式提供给最终用户,在服务的提供上不能再采用传统的方式,而需要用微服务的方式提供,每个单独数据微服务自己对所提供数据做缓存,在其中利用元数据能力,把知识(业务模型)与技术(数据模型)相结合,从而向最终数据用户提供多种数据能力,使用户能够以多种方式使用数据。

最后在整个大数据治理平台的构建中还需要满足一系列原则,包括元数据、数据标准和数据质量,总结起来一共12个原则。

四、总结

大数据时代,企业急需建立以用户为中心的自服务大数据治理,信息梳理、数据管控、连接用户、智能化是实现自服务大数据治理的四个主要阶段,掌握一系列关键技术和技术原则,是实现自服务大数据治理的重要基础。

相关推荐
狼头长啸李树身1 小时前
眼儿媚·秋雨绵绵窗暗暗
大数据·网络·服务发现·媒体
Json_181790144802 小时前
商品详情接口使用方法和对接流程如下
大数据·json
Data 3172 小时前
Hive数仓操作(十七)
大数据·数据库·数据仓库·hive·hadoop
bubble小拾6 小时前
ElasticSearch高级功能详解与读写性能调优
大数据·elasticsearch·搜索引擎
ZOHO项目管理软件6 小时前
EDM平台大比拼 用户体验与营销效果双重测评
大数据
HyperAI超神经7 小时前
Meta 首个多模态大模型一键启动!首个多针刺绣数据集上线,含超 30k 张图片
大数据·人工智能·深度学习·机器学习·语言模型·大模型·数据集
Hello.Reader9 小时前
TopK算法在大数据重复数据分析中的应用与挑战
大数据·算法·数据分析
数据龙傲天9 小时前
1688商品API接口:电商数据自动化的新引擎
java·大数据·sql·mysql
Elastic 中国社区官方博客9 小时前
Elasticsearch:使用 LLM 实现传统搜索自动化
大数据·人工智能·elasticsearch·搜索引擎·ai·自动化·全文检索
Jason不在家11 小时前
Flink 本地 idea 调试开启 WebUI
大数据·flink·intellij-idea