大数据治理域——数据资产管理示例

摘要

本文主要介绍了大数据治理域中的数据资产管理示例,涵盖了京东数科的数据资产管理实践、水利行业的数据治理模式、军政部门数据治理应用、政务大数据问题、医疗行业数据治理问题以及内某电器集团的数据治理案例。通过这些案例,展示了数据治理在不同领域的应用和价值,以及数据治理对于提升数据质量、保障数据安全、促进业务发展的重要作用。

1. 京东数科数据资产管理

京东经过6年的业务发展和信息化建设,已实施了100多个业务应用系统,积累了海量的、丰富的数据资源。基于公司内部及外部数据资源,数据资产管理部已经建立了企业级的数据仓库,并开发了大量的数据应用产品。但是随着当今社会技术发展以及公司对数据资产管理的重视,现有的数据治理水平已经不能满足公司业务战略发展的需要。2019年初,京东为了全面了解公司当前数据资产管理现状,识别数据资产管理能力不足,找准关键问题和目标差距,开展了数据资产管理成熟度评估。总体上来看,**京东比较重视数据运维、分析和应用,数据基本能够满足业务需求,但数据资产管理系统支撑能力较弱。**基于数据资产管理现状和愿景,构建了数据资产管理体系,提出了数据资产管理能力改进建议和方向,并制定了数据资产管理路线

数据资产管理体系包括对数据资产的管理、优化和利用,建立常态化的数据管控机制,以应对广泛的数据应用需求,保障数据质量、安全,支撑企业的智能决策应用。京东数科从数据架构设计、数据资产管理、数据安全管理、统一业务指标体系、数据服务管理等五个方面构建了数据管理框架,通过组织保障、规范流程、技术创新完成数据管理的目标。

数据资产管理从数据资产盘点出发,厘清数据之间的关系,建立数据资产管控的标准和体系,实现京东全域数据的资产地图,为数据进一步的应用和挖掘奠定基础。

1.1. 数据资产盘点

盘活企业数据资产,第一步就需要对已有数据进行集中盘点。如图7所示,通过盘点将散落的数据源信息汇聚到一起,在数据生产者和数据消费者之间建立一个完整统一的数据谱系,标识出有哪些数据可以消费、数据来源哪里、哪些数据之间有关联。

通过资产盘点,建立全公司的数据资产地图,实现所有数据源的统一登记和展现,消除因为信息不对称导致不同部门之间数据的重复存储和抓取,共同完善底层数据资源扩充和共享

1.2. 元数据管理

数据分析师或BI人员每天都要与大量的数据模型打交道,如果数据模型没有任何的表描述、字段说明,数据使用将变得非常困难。即使数据开发工程师维护了详尽的表信息,也会存在大量的解释成本,如果没有辅助工具能够记录这些表的信息,数据分析师或BI人员需要到相应的仓库或集市上去逐个查看表的基本信息,这将严重影响工作效率。基于以上的考虑,京东数科研发了自己的元数据管理平台,用于管理数据模型的一些基本信息,方便分析师或BI人员快速查询,从而可以更快地了解表的信息,处理业务的数据需求。图为京东的元数据管理平台所展示的数据血缘。

  1. 由数据创建产生。如数值为空、数据内容和描述不符、数据精度不足、数据默认值使用不当和数据录入的校验规则不当等;
  2. 由数据获取产生。如数据结构错误、数据获取不完整、数据采集点不正确、取数时点不正确等;
  3. 由数据传递产生。如接口数据传递延时、接口数据漏传、网络传输不可靠丢包、数据传递不及时等;
  4. 由数据加工产生。如数据清洗和加工逻辑不正确、算法错误导致数据多算、漏算等。

围绕上述数据质量产生的原因,结合京东信息系统建设的特点,京东大数据定义数据质量好坏可以从以下几个指标来描述。

  1. 及时性:数据平台是否满足业务应用对的时间要求;
  2. 完整性:数据平台是数据平台是否包含了业务应用所需要的有数据;每份数据的记录是否完整无缺;
  3. 准确性:获取的每一份数据是否存在异常或者错误信获取的每一份数据是否存在异常或者错误信息;
  4. 数据平台在数据的获取、传递加工过程中是否能保证准确;
  5. 可用性:多维度、多渠道获取的数据是否能够易于理解并使用

通过评估规则,定期校验数据的波动性、一致性、有效性等,并进行预警,具体如图

1.3. 资产管理平台建设

数据资产管理必须有平台进行支撑,京东通过在大数据平台与业务场景应用中间建立一个统的数据管理中台体系,加强对使用建立一个统的数据管理中台体系,加强对数据使用机制的管控,让内外部数据能汇聚融合,有序流通,具体如图。数据资产管理平台的目标,主要有两个方面:

  1. 第一是资源管理的角度。一方面通过合理的数据使用流程和机制,帮助企业节省存储和计算资源;另一方面,要丰富外部数据资源,实现全域数据资产的持续扩充。
  2. 第二是数据资产质量提升的角度,通过数据资产管理来提高数据资产的质量和数据服务质量。

数据资产的质量,是通过持续跟踪数据资产的使用状况,形成从数据源头到数据消费的整条数据链路,了解数据资产使用的热点,不断沉淀数据使用过程中的共性问题,规范数据服务流程,指导数据架构、模型、数据服务接口的优化,提升使用效率,同时引入数据治理的策略和系统,提升数据资产的质量。

数据服务的质量,主要是从满足应用的角度来监控任务时效、响应效率、数据一致性等问题。京东通过数据资产运营、SLA监控、指标统一管理等组合手段,促进数据的集中共享,保证口径的统一,让数据消费者减少找数据和对数据的问题,更多地专注到数据创新应用中。

数据资产管理平台的实现,能够在数据生产系统和业务应用场景中间,通过数据源管理、数据治理、数据应用管理几个关键环节,实现接入流程、开发流程和数据应用规范的统一,从而达到上述提到的目标。

1.4. 大数据挖掘应用

京东大数据的数据应用体现在业务的各个环节,如采销、搜索、推荐、广告、供应链、金融、物流等。数据服务于内部业务人员,可用于实现个性化的搜索和推荐、极致的用户体验、精准的广告投放、快捷的物流服务等;服务于商家,可用于指导商家的教学化运营,协助其优化营销策略,提升店铺销售额。京东打造了服务于商家和内部运营人员的数据产品,提供更方便快捷的大数据应用服务。

智能营销产品就是一款面向客户全生命周期的个性化数据营销工具,通过分析和挖掘客户的浏览、交易等数据,确定客户所处的全生命周期阶段,预测用户对各种商品(在品类、SKU等各种维度)的促销响应,基于预测结果构建营销场景进行个性化营销,跟踪营销效果并基于数据反馈进行循环预测,构成营销闭环。智能营销产品在用户预测和促销过程中都做到了个性化、智能化、自动化,能够显著提升促销效果。在实际的应用中,促销的效率较非智能化、个性化的系统提升200%以上。

智能营销产品采用了大数据技术预测用户流失、预测用户上行、预测用户对促销的响应程度,并结合全程的准实时数据跟踪,做到针对每位个体用户的个性化营销。产品不仅提升了用户体验,而且帮助运营方和商户选择合适的用户进行营销活动,增强营销效果,提升产品销量。

1.5. 大数据价值变现

京东数科充分利用超3亿活跃用户的交易数据及几十万供应商与合作伙伴数据,通过统一的大数据平台实现数据集中,确保各级部门均可在保证数据隐私和安全的前提下共享数据,充分发挥数据作为企业重要资产的业务价值。

京东数科建立了客户、产品的统一视图,有效促进业务的集成和协作,并为企业级分析、交叉销售提供基础。集

团业务人员可以基于这些数据进行多维分析和数据挖掘,为业务创新(客户服务创新、产品创新等)创造有利条件。

同时,数据平台对数据的集中管理,为管理分析、挖掘预测等系统提供了一致的数据基础,改变了现有系统数据来源多、数据处理复杂的现状,实现应用系统建设模式的转变,提升相关IT系统的建设和运行效率。

随着大数据、人工智能、商业智能等技术的应用,京东数科正在开启对传统行业的形态重构,推出了一系列产品和服务。比如大数据风控产品,它是指通过运用大数据构建模型的方法对借款方进行风险控制和风险提示。大数据风控通过采集大量借款企业的各项指标进行数据建模分析,不仅提高了效率,还使统计结果变得更加有效。

2. 构建水利行业新的数据治理模式

水利信息化在推进过程中,受限于投资来源不同、建设管理各异等历史原因,水利信息化中存在大量的信息孤岛、业务割据、设施分散、安全薄弱等问题,随着水利信息化的不断深入和发展,这些问题已成为实现信息共享、业务协同的突出问题,严重影响了水利信息化整体效益的发挥。

数据治理是整个水利信息化资源整合共享的关键手段,依据对数据源分析以及数据库建设现状分析,通过数据治理对已有和新建数据库的数据资源整合,实现统一数据模型、统一基础数据、统一数据交换,为水利信息的共享与应用提供来源权威、标准统一、持续更新的水利数据支撑。

水利数据由基础数据和水利专题数据、水利共享数据组成,其中水利专题数据包括水资源、水环境等各种业务数据,通过统一模型对水利专题数据进行组织,形成基础数据库,再进行统一数据交换。我们采用了一套专业的数据治理平台进行治理工作,把数据交换形成一个专门的功能模块,所有其他的系统,都可以调用此功能模块来实现数据的交换。

在水利数据的治理过程中,通过采用宏观与微观相结合的方式对数据进行处理,将零散数据变为统一整合的数据。

2.1. 宏观数据治理思路

宏观的数据治理过程主要完成水利数据资源体系的梳理与整合,构建统一的数据标准和数据资源目录体系,实现对水利数据资源的统一存储和管理,促进水利数据资源的融合与共享服务,形成水利数据的DaaS结构体系,具体如图所示。

  1. 基于水利系统现有的数据体系,进行数据收集整理工作,完成建模样例数据和测试数据的整理,在水利数据模型基础上完成对象标识库、基本属性库、业务属性库、空间属性库、对象关系库、元数据库、数据资源目录库、多媒体库和应用服务库等9类数据库的存储结构设计与建设的集成和配合工作。
  2. 完成基于元数据库和数据资源目录库存储结构的数据资源目录应用体系结构的设计与建设工作,包括数据资源目录多维分类体系、数据资源目录标准制定等。
  3. 完成对象编码体系的建设工作。对象编码是对象间关系表达与系统间数据交换的必要条件。本项目拟在整合范围内的所有对象采用全球唯一码(GUID)做物理主键标识,便于计算机识别和处理,另外建立具有一定语义的对象编码作为候选键(业务主键)。对于候选键,现行对象编码比较完整、可满足要求的可继续使用,如测站代码、河流编码、水资源分区代码等,对目前没有统一编码规则的对象则结合分类体系码、流域分区码和行政区码,在一定区域范围编排顺序码,形成对象编码。
  4. 完成数据交换平台整合与建设工作。数据交换平台是对所有数据交换服务的集成,主要指为实现数据交换而配备的各类工具软件以及利用工具软件做的二次开发定制服务。工具软件主要包括数据库复制工具、ETL工具、数据交换消息中间件和ESB数据交换服务总线;定制服务是基于工具软件做二次定制开发,主要是利用工具做各类服务配置以及提供信息推送服务、搜索服务、数据调用服务等。
  5. 完成数据共建系统的建设。数据共建系统包括数据迁移与转换子系统、非空间数据更新子系统和数据资源目录注册子系统。系统立足不同专业领域现有的信息化基础,提供不同的数据资源建设方式和技术手段,采用物理集中和逻辑集中相结合的方式,将原本离散、多元、异构、分布的数据资源进行整合。
  6. 完成数据共享系统的建设。包括数据展现子系统、数据搜索子系统、数据调用子系统、数据资源情况统计子系统。基于统一身份认证和访问授权,为用户提供多种数据资源共享方式和相应的数据资源共享服务功能。
  7. 完成数据展现系统的建设工作。数据展现系统由空间数据展现、非空间数据展现和个人数据中心三个部分组成。非空间数据展现包括报表展现、图形展现、非结构化数据展现、下载和服务查询等模块。个人数据中心包括推送数据展现、智能搜索数据展现、智能职能数据展现、数据评价和个人设置。
  8. 完成数据搜索子系统的建设工作。由于水利行政管理的数据种类繁多、数据量庞大,既有结构化数据,又更多的是各种电子文档格式的非结构化或半结构化数据;既有文本形式的数据,又有多媒体形式的数据;既有空间数据,又有非空间数据。因此,仅仅通过数据资源目录进行信息的检索是不够的。数据搜索子系统提供更加丰富、强大的数据检索服务,使用户对水文、基础地理数据,水质监测、水利工程、水功能区等水利业务数据及其他数据进行更好的检索、匹配。
  9. 完成数据调用子系统的建设。数据调用子系统是数据需求用户对水利数据资源目录中需要审批使用的数据进行申请使用的功能,同时数据的提供者通过本子系统可实现对调用申请的审批。
  10. 完成数据管理系统的建设。数据管理系统包括元数据管理子系统、数据资源目录管理子系统、对象管理子系统、数据推送管理子系统、数据调用管理子系统、运行情况监察与评价管理子系统。

2.2. 微观数据治理思路

微观数据治理的过程,我们主要围绕数据资源体系的规划与建设、基础数据的收集与整编、数据库的整合与建设、元数据库建设、数据仓库和数据集市的建设、决策支持系统的建设、综合信息服务系统建设等7个方面的内容进行处理。具体如下:

  1. 数据资源体系的规划与建设。根据业务对象关联关系及业务管理的逻辑体系,对水利数据资源等进行梳理、分析与规划,形成统一的数据资源体系。
  2. 基础数据的收集与整编。根据现有系统基础数据的自然属性与关联关系,规划与整编基础对象(如行政区划、河流水库湖泊、水利工程信息,测站基本信息等)的编码与属性,形成统一标准的基础数据。
  3. 数据库的整合与建设。根据数据本身的存储特性、服务特性,按照国家和水利行业标准,实施数据库迁移、改造与整合。整合对象:防汛抗旱指挥系统数据库、山洪灾害防治项目数据库、水资源监控能力建设项目数据库、中小河流水文监测系统数据库、中小河流(洪水易发区)水文监测一期工程数据库、水利普查成果数据库等。
  4. 元数据库建设。通过对水利信息数据资源的梳理与分析、分类与抽取,形成数据集、对象、要素等不同层次的存储类、管理类、服务类元数据,并统一存储管理,完成元数据库的建设。
  5. 数据仓库和数据集市的建设。通过数据抽取、转换、加载,构建多维数据存储模型,实现面向不同业务主题数据仓库的建设;并基于数据仓库,根据不同应用对象,形成不同的数据集市。
  6. 决策支持系统的建设。通过OLAP分析、统计报表、数据挖掘分析等,构建决策支持系统。
  7. 综合信息服务系统建设。通过构建基于数据中心的数据服务,面向各类数据需求单元提供水利信息数据共享与服务;基于数据仓库,通过智能搜索、统计分析、GIS展现,面向各级领导提供综合性的信息服务。

通过数据治理能够确保在水利数据的整个生命周期中都保持较高的数据质量,然后再采用面向对象统一水利数据模型的方法对基础、共享和专题等数据进行整合,实现水利数据空间、属性、时间、关系和元数据的一体化管理,统一对象编码,统一数据字典,将涉及水利业务应用全局的水利对象基础数据,以及水利对象空间和业务关系等数据,统一纳入水利数据中心,统一向各类水利业务应用提供权威、全面、完整和一致的基础数据服务。为各类业务应用提供规范、权威和高效的水利数据支撑。

3. 数据治理在军政部门信息安全应用

3.1. 数据治理的需求

数据是信息系统(数据、信息基础设施及应用软件)的三大组成部分之一,标准数据是信息交换和数据共享的主要资源,在军队、政府数字化建设中占有非常重要的位置,对于军政系统的各项活动,如对态势的认知和一致理解并实现信息优势,为各级人员快速、准确地判断决策提供所需信息,制定、研讨解决方案,下达和执行命令及对执行的效果进行评估等活动中都起着至关重要的作用。

在两个系统或多个系统之间进行信息交换时,必须对数据有一个共同的理解,特别是在当前的信息时代,大量的信息往往源于不同的部门,它们对数据的定义、命名以及数据的表示方式各不相同,因此,在不同部门间交换信息时必须对数据的语义和语法达成一致的协议才能进行交换。前期普遍的做法是,信息系统大多在系统范围内通过制定信息交换标准来解决,各大业务系统各自制定了本功能系统的信息交换标准。后来发现,这些信息交换标准之间对数据的定义和语法表示均不一致。这些系统本身固然可以交换信息,但系统间交换信息就必须进行转换。对个别数据通过转换的办法以达到对数据的共同理解尚可允许,对于大量数据都要通过转换则是不能允许的。

为了适应未来高技术条件下军事行动的需要,各部分业务之间必须及时交换各类信息,要使这些信息为各部队共同理解,为大家共享,必须对数据进行标准化。要实现数据标准化就必须制定有关的法规,建立相应的机制,建造适应数据标准化管理的工具和手段,并建造各业务共用的数据共享环境,建立完整、统一的信息数据资源体系。

在数据建设方面,该领域的数据建设主要由人工从日常业务中采集,基础数据由各单位录入,但还有大量的实时类、变化频率高的数据无法采集,从而难以形成大规模数据积累,制约了数据的分析和挖掘能力的发展,限制了智能化、精确化的辅助决策能力的提升。

在数据利用方面,各个业务部门掌握和积累了一批领域数据,但处于安全保密的原因,是这些数据资源大多为某个部门或个别单位专有,基于网络的共享数据资源十分有限。例如,目前用于内部网络共享的数据服务多为新闻报道、学习资料、通知通告等一般性数据;诸如气象、测绘、舆情等重要的数据资源尚难以实现共享应用。此外,

民用数据资源作为国战略资源的重要组成部分,其发展速度有目共睹,并已成为军事活动中数据管理必要后备。但是由于目前军事信息系统与民用数据资源的技术体制存在较大差异,不能顺畅地使用民用数据资源为军政各项任务服务。

在数据服务方面,主要采用"定向推送"为主的数据交换模式,即由数据供应者根据数据供应关系将数据推向数据使用者。这种交换模式中,由于数据使用者在数据交换过程中处于被动地位,数据需求的变化难以及时、有效地传递给数据供应者,数据需求往往得不到充分满足。数据供应者为了避免遗漏,经常采取"宁滥勿缺"的策略转而推送过量的数据,不仅消耗网络带宽资源,而且往往使得数据使用者陷入迷茫,对于数据管理产生负面影响。随着业务的发展,越来越要求能够根据任务需要动态调整数据管理结构,便捷地获取所需数据。因此,需要提供数据资源的按需发现、定位和获取机制,实现基于网络的数据管理能力。

3.2. 数据治理的主要工作

1)构建数据字典。

数据字典存储了数据的定义、格式、用法、结构(包括数据体系结构、主题域模型和其他模型),数据字典是一个包括大量的标准数据元素和非标准的数据元素的数据库,它汇集了描绘数据元素的数据(元数据),以便用来设计、监控、记录、保护和控制信息系统和数据库中的数据。数据字典是用于收集和贮存数据标准及其元数据,以及收集、创建、批准、查询、实施和维护数据标准。同时数据字典为应用和管理用户提供了访问军用基础数据与信息的交互接口。

数据字典包括数据标准规范和元数据标准体系。数据标准规范是基础,元数据标准体系是数据标准规范体系化的表现。

3.3. 制定数据标准。

数据标准是符合数据标准化规程要求,特别是关于实体、属性(数据元素)实体关系要求的一种特定数据格式。数据标准的基本组成部分是逻辑数据模型和元数据。

数据模型是反映数据的内在结构,是根据活动模型的数据需求而开发的,它定义了实体和它们的数据元素,并表示出实体间的相互关系。数据模型标识逻辑信息要求和元数据,这些要求和元数据构成关系数据库里的物理数据库方案和标准数据元素的基础。关系数据模型是在软件需求分析和设计活动中用作物理数据交换和共享数据结构的一种逻辑基础。

元数据是描述数据特性的信息,关于数据的数据或信息。每个元数据由三部分构成:元数据名称、元数据约束程度及元数据的定义。

为保证在信息交换中数据的共同理解和共享,必须要求对数据的基本单元------数据元素进行标准化,以便对数据元素有一致的解释及表示形式。标准数据是信息交换和数据共享的主要资源,在军队、政府数字化建设中占有非常重要的位置。

我们已制定了电子信息装备的国标、军标约一千多项,同时,还有大量的适合军民通用的民用国家标准和行业标准,包括电子整机和元器件的标准。

3.4. 构建数据集成环境。

数据集成环境就是要提供数据集成服务,支持创建共享数据环境。分布式的数据仍可在源位置上管理,不需要移动、复制或中心化,为各业务应用在共享数据环境中提供网络化的数据服务。其主要内容包括:

  1. 虚拟数据访问和基于信息的数据发现:屏蔽不同数据源间的差异(包括数据模式、数据分布),为其他服务提供统一的数据视图和操作接口。数据共享和已有安全机制结合,对集成数据进行定制或提取;
  2. 统一的数据访问入口:数据集成服务在全域范围内为用户和应用提供"一站式"的数据资源访问。通过将共享数据环境全域的方式组织起来,为用户和应用提供统一的访问入口来访问相应的数据;
  3. 数据集成服务的框架:支持从多种类数据源获取不同类型的数据,并且按照用户和/或应用的需要来定制和转换数据。整个框架主要分为访问接口层、XML聚合层和数据提供层,访问接口层为用户和应用提供统一标准接口来访问数据;XML聚合层是一个独立于数据源的基于XML的数据整合层,提供对从多个数据源访问获得数据的转换和整合,支持第三方的转换引擎;数据提供层提供集成不同的数据源方式,包括关系数据库数据、基于URL数据源、XML文档/XSL样式单和文件。数据目录服务是在全域的作用范围内,提供数据信息的发布、维护和查询功能。

3.5. 开发信息分发工具。

信息分发本身包括信息资源的表示和描述、信息资源的定位与发现、信息的检索和查询、以及信息的传送与递交。信息分发工具的功能与作用是,根据战场信息用户的信息需求、业务人员关于信息分发的策略(包括有关法令要求)以及可用的信息和基础设施资源,最大限度地提高分发到信息用户的相关信息流量,实现在适当的时间、适当的地点,将有用的信息送到正确的用户手中。信息分发工具的主要功能(服务)包括:

  1. 信息访问,信息访问服务能实现平台基础服务的分发订阅、消息代理等功能;实施与用户访问权限和分配基础设施资源有关的业务人员政策;明确信息生成者的访问权限;允许用户输入自己的信息需求;
  2. 信息递送控制,信息递送控制使信息分发基础设施的资源(通信和存储)利用最佳化。将政策和用户信息需求与资源分配挂钩,管理信息生成者和信息用户之间的数据格式转换;
  3. 信息系统支持服务,提供对信息系统中的目录、安全、操作和计划管理功能的必要的接口,能使信息的感知、访问和递送成为可能。

3.6. 建设信息安全保障平台。

数据安全环境的目标是建设信息安全保障平台,贯彻多层次防御的战略思想,全面提供"保护、检测、响应和恢复"四个相互联系、相互支撑的动态功能。建设信息安全保障平台,就是建立自主的信息保障机制,保护多传感器网络、通信网络和信息处理网络不受干扰和破坏,自主开发相关的网络协议、软件系统和设备,提高网络系统的安全性、可靠性和抗毁能力和信息系统多层次防御能力,确保关键的信息基础设施的安全。

建设信息安全保障环境过程中,应遵循安全标准规范体系开发信息系统安全分析软件;建立安全评估模型,支持安全信息采集、海量数据转储与处理、基于上下文状态演进的系统分析与抽象、智能分析推理;对系统抵抗能力及可恢复性等系统安全状态进行量化;建立包括各种安全产品的集成演示验证与评测环境。

3.7. 数据治理的展望

数据建设将更加着眼于运用、更加趋于务实。在越来越多真实、紧迫的需求驱动下,数据建设将朝着"实时、好用、有用"的方向发展,构建满足应用需求的数据资源,构建丰富的数据对接、数据交换、数据转换机制和接口,将其他领域的数据资源接入到应用系统中,形成满足应用需要的数据池;构建完善的数据发现机制,通过对元数据的建设,彻底解决"有数据不能用、有数据找不到"的难题;构建完善的数据校核规则和机制,解决数据"不好用、质量差"的问题。

将更重视辅助决策、智能分析能力的提升。现在的业务系统中使用的绝大多数是原始数据(Raw数据),即没有加工过的数据,这种数据有用,但难以直接支撑决策、分析。实战对数据资源的需求往往不是原始数据,而是知识和决策。所以,还应构建丰富的分析计算模型和强大的大数据分析计算能力,使得数据为业务系统的辅助决策、智能分析提供更加直接有效的数据支撑。

4. 数据治理中政务大数据问题

政务数据,其实就是政府单位在执行对城市、社会、公众的服务、管理等行政职能过程中拥有和管理的数据,如公安、交通、工商、司法、医疗、卫生、就业、社保、地理、文化、教育、科技、环境、金融、统计、气象等数据。随着政务信息化的不断发展,各级政府积累了大量与公众生产生活息息相关的政务数据,并成为这些极具价值的数据的保有者。政务大数据平台的建设既能促使政府治理朝着更加科学、便捷、高效的方向发展,也会让数据更好地服务于企业创造更大的价值。

4.1. 政务数据的特点

目前我国大多数政务数据平台建设过程中面临着很多共性的问题。尽管阻碍政务大数据平台"聚、通、用"的主要原因是"数据孤岛",但事实上,造成"数据孤岛"的因素并非是单一的,它是多因素交织而成的产物,核心是存在"五不"问题:

  1. 不愿:数据是核心资产。数据所在部门往往认为数据来源于本部门工作的积累,属于"部门私有",因此从自身利益出发,宁愿将数据"束之高阁"而不共享,主观上不愿意主动提供数据。
  2. 不敢:很多政务数据具有一定敏感性,而且部分数据涉及个人隐私、商业秘密甚至国家安全,没有法律的强制约束或上级明确指令要求共享,提供或共享数据可能存在法律风险,客观上给部门提供数据与共享带来障碍。
  3. 不会:有数据不会用。政务大数据来源众多、体量庞大、结构各异、关系复杂。从如此繁杂的海量数据中挖掘高价值、关联性强的高质量数据,需要高效的技术支撑。然而政府部门科技人员占比严重失调,利用数据建模分析解决实际问题的能力有待提高。信息利用大多停留在表面,数据应用尚不深入、应用领域相对较窄、数据与场景融合不够,海量数据资源无法盘活,数据潜力得不到充分释放。
  4. 不能:由于历史遗留等原因,各个政务信息系统缺乏标准体系的支撑,采取的处理技术、应用平台各异,数据库接口也不互通,不能将数据拉通。这些"源数据"没有经过数据清洗、加工与处理,通过数据建模、大数据挖掘及分析的结果与实际的情况也会有很大程度的偏差,无法提供预警及分析服务,辅助领导决策。这些数据不能在数据应用场景中发挥价值。
  5. 不善:科技要向善,数据也同样要向善。然而,由于法律法规尚不健全、机构合规意识不足,数据"恶意应用"的问题时有发生。违法违规成本低,为谋求商业利益而置现有管理规定于不顾,过度采集数据、违规使用数据、非法交易数据等问题屡见不鲜。部分机构数据保护意识薄弱,数据泄露事件时有发生,大众成为"透明人",电信欺诈、骚扰电话、暴力催收等屡禁不止,严重侵害大众权益。

4.2. 政务数据确权

对数据确权包括以下5个方面。

  1. 所有权,所有权是指对数据享有完全的主权。政务数据的所有权属于国家,但这一说法过于笼统,需要指定代理者;既要防止政务数据国有变成个别部门私有,又要防止数据完全没有约束的滥用。
  2. 创始权,创始权是数据确权的基础,数据的创始要"一数一源",不能"一数多源",要明确数据创始权的归属,要避免政务数据的重复采集造成的数据不一致。创始权同时具有保证数据质量的职责,初始数据准确、及时、完整。
  3. 管控权,管控权指对数据架构、数据标准、数据周期、数据安全、数据质量等的管理,通常归属于专业的数据人员。
  4. 使用权,数据使用权关系到是否能够善用数据,数据给社会和人民生活带来的积极还是消极的作用,因此需要界定谁能使用、如何使用、使用效果监控等问题。
  5. 运营权,数据运营权需要对数据交易行为做出界定,还要考虑发挥数据的价值,规划出数据增值产品。

5. 医疗行业各场景数据治理问题

鉴于医疗的行业属性,医院是典型的多头(多个卫生管理机构)、多层(国家、省、市和属地)、多面(横向管理,例如院感、医保)、多线(多种学科监管)、多向(科研、教学、药事)、多界(例如人文、救助)和多维(个性化、标准化和属地化交织)的复杂管理格局。特别是在我国,作为医疗行业中流砥柱的公立医院,还具备典型的公立机构体系的特点,以及之前"以药养医"政策所带来的各医院分散管理和建设的历史遗留问题。

这些都会导致医院的管理体系、信息化和标准化具备极高的难度。尽管医疗信息化(Hospital Information Technologies,简称HIT)已经发展了近40年,但是与其他行业相比,例如电力、金融、通信等,发展严重滞后。大部分医院的信息化建设还处于满足基础提高生产效率和基础管理的应用阶段,信息化架构落后,投入少(人员和经费等),内部IT体系整合还远远达不到基本要求。

5.1. 医疗行业数据特点

医疗行业的特点决定了医疗信息化有如下特点:

  1. 标准多样化,统计口径难统一。医疗行业标准的速度远远跟不上行业发展的速度。
  2. 行业厂商庞杂:医疗服务专科化和职能多样化,使得医疗信息化厂商众多。
  3. 变化难记录:理论上,企业级软件都会对关键数据进行操作和核心数据变更进行记录。但是实际情况并不总是如此。
  4. 信息化利旧困难:医院更换信息系统,通常会带来巨大的断档损失。例如更换HIS、EMR等重型关键信息系统。既往的数据和信息只能保留最为基础的信息,更多的则继续沉睡。
  5. 互联互通困难:即使厂商提供接口和信息化平台,但是无法解决非标数据的存储、使用和更新问题。在有限的资金和时间内,要体现信息化对医院战略、规划、发展和运营的价值,应该利用数据治理的手段,解决当前医院的痛问题,满足业务实际需求,是有效改变医院IT从业者地位,提升IT价值的有效手段。

5.2. 数据治理的价值

数据治理是数据与信息的管理、记录、分析的全系列闭环工作。这使得数据治理能在如下几个方面呈现自己的价值:

  1. 系统性:从数据标准的全业务周期方式,对企业所有数据进行系统性治理,覆盖数据的标准、标准化和信息化三个层次,是系统性实现管理的最优方式。
  2. 连贯性:基于元数据的治理,能够覆盖数据处理的事前、事中和事后整个全流程。能够对处理过程中,而非处理后的数据应用产生价值。
  3. 溯源性:当我们采用数据治理的方法论的时候,已经在数据处理的过程中,保留了整个动作、前后结果。

6. 内某电器集团数据治理

该集团是一家是国内领先的科技集团,是消费电器、暖通空调、机器人与自动化系统、智能供应链(物流)产品及服务提供商。截止2016年度,该集团的数据资源状况是堪忧的,存在的问题包括:数据资源分散在应用系统中、数据标准不统一、数据重复采集且有冲突、对数据的理解不一致、数据质量参差不齐等。因此,2017年初,该集团乘企业数字化转型之机开启了数据治理项目,经过近一年的"痛苦"(数据治理项目过程)经历,成效显著。下面依据主要的项目节点复盘数据治理项目过程,具体如下。

6.1. 数据质量分析

  1. 数据标准不统一。编码规则无统一标准。集团各单位数据编码规则种类繁多,物料产品数据编码种类多达13种、供应商则多达16种,编码结构中的位数分配、段值含义不同,没有统一标准。没有统一标准的编码规则带来了两个问题:相同数据在集团内编码不一致;在同一事业部内,同一产品在不同环节编码也不一致。
    1. 分类标准杂乱。分类标准是支撑业务管理的重要手段,不同的业务部门对于同一数据的管理角度不同,进而衍生出不同的分类标准。依据不同数据的性质特征,其分类体系有所不同,以物料数据为例,事业部为满足编码、研发、采购、制造以及库存管理的需要,在这五种业务领域中对物料数据进行分类,全集团物料分类从业务领域统计高达57种;从事业部组织角度统计高达45种。过于杂乱的分类标准带来两个问题:分类兼顾领域过多,致使关键领域管控混乱与失焦;无法平衡集团通用化与事业部专业化的管理要求。
    2. 属性规则不一致。属性是数据在不同系统中识别与分析的重要标志,实际应用环节对于不能在分类标准中融入的管理维度,一般都会通过属性项目去补充承载,属性规则的质量高低直接决定了其应用分析的水平。集团各类数据现有属性项目规模非常庞大,以物料产品数据为例,汇总营销、研发、供应链三大领域的系统属性共计1147个。现有各系统内属性规则普遍存在的问题:属性规范不一致;属性值集不统一;属性流转不规范。统计维度不统一。
  1. 数据信息不完整。属性体系不完善。由于组织与管理的局限性,现有系统内很多数据的属性体系是不全面的。以物料数据为例,特征值判别物料唯一性的重要属性体系,但是物料属性范畴只包含编码、名称等常用的属性字段,及基础属性体系。特征值属性体系是用于精细识别物料身份、避免由于标准不一致而产生"一物多码"的管理漏洞,进而带来质量、价格的差异分别,其范围主要包含材质、长度等所属物料或产品的固有特征信息。
    1. 系统内关键数据信息缺失。跨系统、跨组织需要共享的属性内容往往是使用价值较高的关键属性,如用于判断供应商、客户唯一性身份的基础属性,包含组织机构代码、税务登记号以及相关工商登记信息。决定客户唯一性身份的关键信息随意缺失,会直接影响数据应用以及分析水平,降低相关信息的使用价值。

6.2. 数据质量问题导致的管理风险

  1. 业务源头埋藏风险。

在企业运营的过程中,有很多岗位职能是需要依赖于长期积累、沉淀的信息资源才能够有效履行。以该集团的组织架构来说,包括14家事业部、25个国内外生产基地,供应链体系内的采购员岗位数以千计,他们平日里主要的工作就是负责供应商的寻源、评审以及引入。采购成本的高与低直接影响企业的经营业绩水平,是利润与效益追逐最大化的根本保证,但同时供应商信息资源的贫乏、供应商评价基础的欠缺以及管理所需关键信息的缺失等问题,给现有采购工作带来了盲目与随意性,无标准、无监控的数据资源无疑是埋藏在业务源头的风险所在。

  1. 集约式发展遭遇壁垒。

行业在逐渐发展的过程中,从产业链的角度来看,上下游资源的供给与释放是在不断地走向集约共赢之路,集约式发展也逐渐成为企业经营的共识,这就需要以开发与共享的信息资源作为支撑。面对企业割据与分裂的数据信息,业务执行过程中大量的信息盲点、高筑的资源壁垒无疑将阻碍企业高效的运营与发展。

  1. 管理效率难提升。

在对实际的业务管理人员进行访谈调研时,发现他们工作的主要时间与精力并没有放在数据信息的分析上,而更多是要重新补充收集其他关键信息、再次校验已收集信息的可靠程度,往往为获得相对精准的分析结论要花费大量的时间与精力去再次核实与加工,给管理效率的提升带来很大障碍。

  1. 管理信息存在局限性。

统计分析的信息资源直接关系到管理层对于业务运行质量的把握与考量,一些前瞻性管理信息的分析甚至影响到业务发展趋势的判断。但是基于数据信息资源中对于管理维度信息的欠缺,尤其是涉及统计维度相关的重要属性,现状的空白与不确定性给管理分析带来了局限性,数据信息的失真与缺乏,给业务管理质量带来极大挑战。

  1. 决策支持层面有风险。

当企业规模发展到一定阶段,决策者靠主观判断带领企业发展的原始方法显然不再适用,用数据说话日益成为决策者的管理手段。企业"居高不下的运营成本""遭遇生产瓶颈的产品周期""迟缓的市场反应机制"等问题也都需要通过数据获得更为精准、全面的诊断与分析。

6.3. 数据治理的解决思路及方案设计

为了有效解决企业面临的数据问题,该集团通过定标准、理流程、搭平台、建组织等手段,确定了集团核心数据的管理标准、流程,建立了数据管理组织及责任体系,明确了不同层级组织及业务领域的数据管理职责,并通过系统平台进行标准和流程的固化管理,提升了集团数据质量,有力支持了集团管理转型。该集团核心数据的治理方案如下:

6.3.1. 物料数据治理

治理方案从数据管控模式入手,分两级管控。各层级职责内容如下:团层级:管理跨事业部使用和共享的通用物料数据,并保持全团一致和规范;负责制定物料编码、分类、属性和值集标准;负责审核集团统管物料的数据规范;负责监督考核下属经营单位数据质量的管控水平;负责制定物料数据管理制度,并监督其执行成效。事业部层级:管理事业部内独自使用的物料数据;依据集团统一标准,执行物料数据管理流程,并负责物料数据业务和规范的审核;负责提高事业部内物料的通用化水平;接受集团对数据质量和通用化的考核。明确数据管控模式后,由集团统一制定全集团的物料数据标准,主要是三个方面:

  1. 编码规则:明确采用有含义的编码结构方案,即对编码各段结构分别定义其具体业务类型的事项含义,以丰富编码管理维度、增强业务使用的便捷性与辨识度,并依据标准的7类物料分别制定相应编码规则
  2. 集物料分类:以物料通用化的标准化为目标,设计统一的物料研发分类,支持研发模块化管理需求;以制造、库存、采购等需求为基础,设计统一的物料编码分类,满足业务管理需求;通过属性设计形成采购分类与物料特征值描述,以满足供应链管理及其他管理分析需求。
  3. 物料属性:在梳理集团范围内公共属性的基础上,对物料属性进行分类管理,形成基本属性、特征值属性、统计属性及业务场景属性集四大类物料属性范畴。其中基本属性包含物料的基础信息,具有唯一性且不随交易对象的不同而变化;特征值属性是识别物料唯一性身份的固有特征信息;统计属性是为满足集团财务、营销统计分析需求而设计的管理属性;业务场景属性是数据在某业务场景下的特有数据信息。

6.3.2. 供应商数据治理。

供应商数据在管控模式上与物料类似,同样采用集团、事业部的两级管理模式,集团负责制定集团统一的数据标准,并监督事业部数据管理流程与标准规范的执行情况;事业部负责对供应商数据的日常维护与审核工作,并依据数据标准与流程体系进行数据管理工作。供应商数据标准也同样侧重三个方面:

  1. 编码规则:采用简单清晰的弱含义编码方案,8位编码长度仅包含分类信息,其他均采用数字流水,以保证编码数据的稳定性。
  2. 分类标准:从业务角度对不同供应商进行重新分类,形成标准的12类供应商。突出重要业务类别的划分思路,指引事业部依据分类明确归口管理部门,满足集团与事业部统计分析业务管控的需求。
  3. 属性设计:采用兼顾数据一致性与完整性的属性设计方案,并依据集团与下属经单位将属性视图进行划分,集中集团层级属性包含基本信息、经营信息、关联信息、区域信息以及管控信息;事业部层级属性则包含组织信息、地址信息、联系人信息、分类信息,以及状态信息。另外,供应商流程清单主要包含供应商新增、信息变更、失效退出以及黑名单管理等流程体系,并最终确定以SRM系统作为供应商主数据源头系统,承接其数据管理功能。

6.3.3. 客户数据治理。

基于营销组织体系的管理需求,客户数据的管控模式分为集团、事业部及营销分部三级管理体系。

集团层级:负责制定集集团统一的客户数据标准与规范,统筹审核内外销直接客户层级的数据生效工作;

事业部层级:遵循集团数据管理标准,负责审核内外销间接客户层级的数据生效工作;

营销分部及分公司层级:遵循集团数据管理标准并负责采集与维护客户数据信息。其中直接客户、间接客户是在客户数据标准中定义的一种客户分类。

在数据标准方面,分别针对业务往来关系、客户重要性、客户所属市场级别、渠道类型、营销模式等多种维度进行客户数据体系的搭建,以满足营销体系管理、经营分析的多元需求。

在客户属性内容的识别上,基于客户基础信息、集团管控信息以及事业部管控信息三个层次进行设计,其中集

团管控信息则侧重标准范围适用于全集团,且具有共享与分析价值的属性范畴。在编码设计方案中采用与供应商编码相同的设计原则,制定8位无含义结构的编码方案,仅包含内外销的类型区分,其他均为数字流水。

6.3.4. 数据质量监控。

某集团数据质量监管体系以质量管理为目标,在建立一套以提高数据质量的数据质量标准及质量评价指标体系基础上,配置相应的管理组织,以对数据质量及分析过程进行及时的检查、评估,通过一定的管理机制和技术手段,保证数据符合业务要求,提升数据质量和数据的应用水平。

数据质量管理评价主要有如下标准:

  1. 数据的唯一性,指数据要唯一,不存在重复记录;
  2. 数据的完整性,指数据的属性信息完整、无缺失;
  3. 数据的一致性,指跨系统之间的数据是否一致;
  4. 数据的关联性,指关联属性的引用是否正确;
  5. 数据的规范性,指通过大数据行为分析判断数据信息是否准确、规范;
  6. 数据的及时性,指是否满足业务应用的时间要求。

6.3.5. 数据治理实施效果分析

  1. 建立了统一的数据标准体系。本次数据治理基于现有业务处理模式、数据基础及管理需求等方面的收集与分析,形成满足集团统一管理分析、业务运营使用、以及系统架构重组等核心需求的数据标准体系。

以物料产品数据为例,在针对产品维度分析盈利水平的数据中,添加有关能效等级、定/变频、机身尺寸、产品系列、气候类型、外观颜色、副品牌等属性项目,用于搭建不同类型产品、不同影响因素的盈利分析体系,为企业对终端市场的了解、分析以及应对带来有价值的指导与参考。除了拥有完整的数据以外,基于数据标准,集团在关键数据的口径上也实现了标准化,规范一致的统计分析口径对分析结果是可靠性的重要保障。以产品与区域数据为例,集团基于各产品价值链的多维度盈利分析体系,直接决定着每一类产品、每一个区域的资源投入情况,同时更影响着企业研发新产品、拓展新区域的战略部署决策,口径一致且可靠的数据才能得出正确有效的分析结论。

  1. 形成了清晰的数据流向。

在搭建数据标准与完善基础信息的前提下,要形成有序、高效的数据治理体系,在系统间制定清晰的数据流转规则至关重要。依据各领域主数据管理标准,在系统架构层面,集团统筹确定了主数据创建的源头系统,同时规划了源头系统与下游系统间的数据分发与引用规则。

系统间的数据穿行仿佛是四通八达的交通网络,整合后的平台系统就是一条井然有序的公路,规则就是一个个交通岔口的红绿灯与指示线,主数据标准正是这条交通规则背后的交通法规。

6.3.6. 业务运营效率得到提升。

以供应商主数据为例,在数据集中清理以后,主数据的有效性、集中度提升显著,原有系统中分散存储的有效供应商数据多达26万条,但经过多轮的数据清理与识别,有效供应商数据仅为3.9万条,失效率高达85%。供应商数据实施治理后有效地帮助业务前端建立了透明高效的供应商资源地,既包含已经取得良好合作关系的优质供应商,也包含存在合作意向准备继续探索合作方向的潜在供应商,避免了原有采购模式带来的源头风险。同时,对于供应商体系得以精简与优化,从上下游产业链的角度来看,有助于上下游资源的整合与集约式发展模式的形成。开放与共享的供应商信息资源支撑业务与管理层在纷繁复杂的商业环境中寻找符合企业发展需要的优质合作伙伴,逐渐形成强强联合的利益共同体。

博文参考

  • 《企业数据治理哪些事》
相关推荐
WordPress学习笔记3 小时前
专业建外贸网站公司推荐
大数据·前端·人工智能
Julian.zhou4 小时前
Anthropic破解长程任务难题:长期运行智能体的高效控制机制
大数据·人工智能
白日做梦Q6 小时前
Navicat for MySQL 详细使用指南:命令行操作与界面操作双视角全解析
大数据·mysql·adb·数据库开发
AI_56787 小时前
AI知识库如何重塑服务体验
大数据·人工智能
你好~每一天8 小时前
从传统行业到AI入门:我的CAIE Level I学习体验与思考
大数据·数据结构·人工智能·学习·jupyter·idea
G皮T8 小时前
【Elasticsearch】索引别名 aliases
大数据·elasticsearch·搜索引擎·es·索引·索引别名·aliases
wyiyiyi8 小时前
【数据结构+算法】非递归遍历二叉树的理解
大数据·数据结构·笔记·算法·leetcode·数据分析
爱跑步的程序员~8 小时前
Elasticsearch倒排索引
java·大数据·elasticsearch·搜索引擎·全文检索
k***21608 小时前
MySQL 批量插入详解:快速提升大数据导入效率的实战方法
大数据·数据库·mysql