11(第十章,参考数据和主数据)

目录

概述

目标和原则

基本概念

主数据和参考数据的区别

参考数据

企业结构数据

交易结构数据

主数据

规划主数据管理

实体解析和标识符管理

主数据举例

参与方主数据

财务主数据

法律主数据

产品主数据

位置主数据

行业主数据------参考目录

主数据共享架构

注册表(Registry)

[交易中心(Transaction Hub)](#交易中心(Transaction Hub))

混合模式(Consolidated)

度量指标

其他

示例范围

示例术语与定义

主数据标准制定规范

制定原则

制定流程

主数据识别

判别步骤

主数据实体特征

分类编码

主数据属性信息举例

主数据代码集举例


概述

主数据是对共享的数据 通过建设数据的标准 从而提高数据的质量 。其中,提高数据的质量是落脚点

在书籍的引言中写到,在任何组织中,都存在一些需要跨业务领域、跨流程、跨系统使用的数据 ,如果这些数据实现了共享,...。体现了主数据的特性。

主数据是信息系统互联互通的重要基石,是信息化、数字化的重要基础,例如智慧城市经常做的基础库。

主数据的建设价值有经济价值、管理价值和社会价值。

目标和原则

参考数据和主数据管理规划的目标包括:

  1. 确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。
  2. 促使企业在各业务单元和各应用系统之间共享参考数据和主数据。
  3. 通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。

遵循以下知道原则

  1. 共享数据。为了能在组织中实现参考数据和主数据共享,必须把这些数据管理起来。
  2. 所有权。参考数据和主数据的所有权属于整个组织,而不是属于某个应用系统或部门。因为需要广泛共享,所以需要全局的组织管理。
  3. 质量。参考数据和主数据需要持续的数据质量监控和治理。
  4. 管理职责。业务数据管理专员要对控制和保证参考数据的质量负责。
  5. 控制变更。
  6. 权限。

基本概念

主数据和参考数据的区别

奇泽姆(Malcolm Chisholm)提出了一种六层的数据分类法,包括元数据、参考数据、企业结构数据、交易结构数据、交易活动数据、交易审计数据。在这种分类法中,主数据定义为参考数据、企业结构数据、交易结构数据的聚合

参考数据

例如代码表和描述表,仅用于描述组织中的其他数据或仅用于将数据库中的数据与组织外的信息联系起来。可能很多人没看过代码表,例如下面的:

上表截图的例如"ar"就是代码值,"1"是序号,"阿拉伯语"就是代码描述。

参考数据一般指的是通用的基础类数据,可以直接用的 ,而主数据一般是需要收集、清晰、解析后才能使用的

企业结构数据

例如会计科目,能够按业务职责描述业务活动。

交易结构数据

例如客户标识符,描述了交易过程中必须出现的一些要素(产品、客户、供应商等)。

主数据

主数据是有关业务实体(例如雇员、客户、产品)的数据。

主数据应该代表与关键业务实体有关的权威 的、最准确的数据。

业务规则通常规定了主数据格式和允许的取值范围。一般组织的主数据包括以下事物的数据:

  1. 参与方。个人和组织,以及他们扮演的角色,如客户、公民、病人、厂商、供应商、代理商、商业伙伴、竞争者、雇员或学生等。
  2. 产品和服务,包括内部和外部的产品及服务。
  3. 财务体系。如合同、总账、成本中心、利润中心。
  4. 位置信息。如地址和 GPS 坐标。

规划主数据管理

主数据的建立一般难点是如何识别主数据,解决的话一般就是1、先找实体,再筛选要共享的实体。2、确定属性,应该是重要的或者说很稳定的属性。

在一个域内规划主数据管理包括以下几个基本步骤:

  • 识别能提供主数据实体全面视图的候选数据源;
  • 为精确匹配和合并实体、实例制定规则;
  • 建立识别和恢复未恰当匹配或合并的数据的方法;
  • 建立将可信数据分发到整个企业的系统中的方法。

实体解析和标识符管理

这个地方有两个概念感觉不好记,可以看下:

主数据举例

参与方主数据
财务主数据
法律主数据
产品主数据
  • 产品生命周期(PLM)
  • 产品数据管理(PDM)
  • 企业资源规划(ERP)
  • 制造执行系统(MES)
  • 客户关系管理(CRM)
位置主数据
行业主数据------参考目录

主数据共享架构

三种方式,各有利弊:

注册表(Registry)

注册表是指向多种记录系统(System of Record)中主数据记录的索引。记录系统管理应用程序本地的主数据,可以根据主索引访问主数据。注册表相对容易实现,因为它很少需要对记录系统进行更改。但是,要对多个系统中的主数据进行组合时通常需要复杂的查询。此外,还需要实施多个业务规则,以解决跨系统时产生的语义差异。

交易中心(Transaction Hub)

在该种方法中,各应用程序与中心系统交互,实现对主数据的访问和更新。主数据存在于交易中心内,而不存在于任何其他的应用程序中。交易中心是主数据的记录系统。交易中心使更好的治理成为可能,并对外提供一致的主数据源。但是,从现有的记录系统中删除更新主数据功能的成本很高。业务规则仅被实施在单一系统中,即中心系统。

混合模式(Consolidated)

混合模式是注册表和交易中心的混合体。记录系统管理应用程。序本地的主数据。主数据在一个公共存储库中被合并,并经由数据共享中心实现共享,如此消除了从记录系统直接进行访问的需要。混合法在提供企业视图的同时,能尽量减少对记录系统的影响但是它需要在系统间进行数据复制,而且数据中心和记录系统之间会有延迟

度量指标

  1. 数据质量和遵从行;
  2. 数据变更活动;
  3. 数据获取和消费;
  4. 服务水平协议;
  5. 数据管理专员覆盖率;
  6. 拥有总成本;
  7. 数据共享量和使用情况。

其他

在我们建设主数据的时候,建议要与数据仓库建设区分开,而且在做数据处理的时候建议直接增删而不是update。

我们在项目实际中,也是不建议一开始就搞主数据,失败率很高,下面是我们之前搞一个主数据的管理标准片段,助力下理解。

示例范围

按照数据实际情况,梳理及制定了组织机构(organization)、用户信息(user)、角色信息(role)、岗位(post)、项目信息(project)、设备信息(device)、材料信息(material)、客商(merchants)、财务科目(subject)的主数据标准。

示例术语与定义

下列术语和定义适用于本文。

数据标准

企业或组织对数据的定义、组织、监督和保护进行标准化的过程。

主数据 MD(master data)

  1. 定义:在组织各系统中交互共享、表示实体对象的基准数据。
  2. 主数据特点:
  • (1)高价值:主数据是所有业务处理都离不开的实体数据。
  • (2)高共享:主数据是跨部门、跨系统高度共享的数据。
  • (3)相对稳定:相比其它数据而言主数据是相对稳定的,变化频率较低。

主数据管理 MDM(Master Data Management)

描述了一组规程、技术和解决方案,这些规程、技术和解决方案用于为所有利益相关方(如用户、应用程序、数据仓库、流程以及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性。

元数据 Metadata

关于数据的内容、质量、状况和其他特性的描述性数据,包括数据的类型、长度、标识、空间范围、坐标系统、数据质量、数据所有者及数据的提供方式等有关的信息。

值域 VD(Value Domain)

数据元的取值范围,允许值的集合。

代码集 CS(Code Set)

数据元的值域,离散型的数值的集合,例如代码集性别由代码0-男,代码1-女,代码9-未知。

主数据标准制定规范

制定原则

制定流程

主数据识别

要识别主数据,首先要区别数据中存在的众多不同数据形态,因此,需要将集团的数据形态分为基础数据类型、基础数据、主数据、事物数据、分析型数据、业务规则、业务流程这七个相异的类别,使得其他六大类别区别于主数据,从而轻松完成主数据识别。

基本数据类型:

由计算机系统提供的、用于定义其他数据的数据类型。

基准数据:

仅仅用于分类其他数据的一类数据,这类数据在业务应用部署时已经确定,相对稳定,很少改变。

主数据:

主数据是集团业务中相对静态不变的实体信息描述,在多个业务事务实例(包括同类业务的若干实例)中反复使用,是业务运行中所必须关键信息及其元数据。主数据包括:主数据对象、主数据对象的元数据(包括泛化关系)、主数据之间的关系描述。

事务数据:

关于事务的执行结果的数据。事务数据反映了为完成业务需求所执行的有价值的动作结果。事务数据一旦完成并记录,即完成不可改变的历史数据。

分析型数据:

在事务数据基础上,进行汇总计算得到汇总数据,或者依赖某种计算规则或者程序推导得到的数据。

业务规则:

与业务过程有关的规则,作为业务流程数据的元数据。

业务流程:

描述组织的业务流程逻辑,也即业务流程的定义。

判别步骤

先判别是否为流程数据。(流程数据就是用于描述业务流程的数据,这部分数据主要关注流程的流转情况,一般包括业务流程定义(模板)、业务规则和业务流程实例)。若不是流程数据,则判别是否为分析型数据,分析型数据即为在事务数据及主数据基础上,按照某个规则计算得到的数据)。

事务性数据实体特征为:

事务数据实体的实例一旦生成,它的各项属性值一般不再变化。如:整改任务、复评任务等。这些属性一旦生成,各项属性值就不再变化,只为以后的业务提供参考或者生成汇总数据。事务数据实体的命名一般是动词或描述某个动词记录等。事务数据实体可能会由具有以下的一些特征的属性构成:

业务事件描述;

对未来事件的计划或者多方达成的协议(例如协议或合同中双方的约定内容);

认可评定等有关活动中频繁发生的初评、复评、扩项、变更任务以及费用等信息;

上述活动中的日期、时间等相关信息或任务ID。任务ID如:工作流程ID、任务编号、申请书ID等。

若不是事务型数据,则可最终判别此数据为主数据。

主数据实体特征

主数据实体的不同的实例之间需要使用ID进行区分。即主数据实体的属性值相同并不足以判断它的两个实例是否是同一个实例。例如,评审员作为一个主数据实体,虽然可能出现姓名相同的评审员,但是并不足以判断这两个评审员实体是同一个实例。许多数据实体的实例中的某些属性的值可能发生变化,例如。评审员的年龄随着时间的推移增长,其电话和地址也可能发生变更。

分类编码

主数据分类是根据主数据特性进行区分归类,它是实施主数据编码的基础。主数据分类体系分为三个级别:大类、中类和小类,分类编码规则采用3层2位字符代码,5位数字代码。

大类为2位字符代码,比如:数据元 DE、代码集DM;

中类为2位数字代码,范围是01~99,

分类代码如下:

组织机构01;用户信息 02;角色信息:03;岗位:04;项目信息:05;设备信息:06;

材料信息:07;客商:08;财务科目:09。

小类是3位数字代码,范围是001~999,比如:机构名称 001、机构编码002等;

例如:DE01001代表组织机构中的"机构名称"。

DE02001 代表用户信息中的"姓名"。

DM01001 代表组织机构中的"机构类型"代码。

主数据属性信息举例

属性列说明:

  1. 信息项分类:根据数据元使用类型进行的划分,分为基础属性和管理属性。
  2. 数据元编号:数据元的唯一标识符,按照数据元编码规范编制。
  3. 数据项名称:数据元中文名词(落地到数据库中为字段注释)。
  4. 数据项标识符:数据元英文名词(落地数据库中的数据表字段)。
  5. 数据类型:数据元类型,按照数据元类型规范填写。
  6. 数据长度:数据元长度标识(落地到数据库中实际长度)。
  7. 代码集:数据元引用的代码集,此处填写为代码集编号。
  8. 标准来源:标注标准的来源及参考的文件。

主数据代码集举例

相关推荐
PersistJiao39 分钟前
在 Spark RDD 中,sortBy 和 top 算子的各自适用场景
大数据·spark·top·sortby
2301_811274311 小时前
大数据基于Spring Boot的化妆品推荐系统的设计与实现
大数据·spring boot·后端
Yz98761 小时前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
青云交1 小时前
大数据新视界 -- 大数据大厂之 Hive 数据导入:多源数据集成的策略与实战(上)(3/ 30)
大数据·数据清洗·电商数据·数据整合·hive 数据导入·多源数据·影视娱乐数据
武子康1 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
武子康1 小时前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
java·大数据·数据仓库·hive·hadoop·mysql
时差9531 小时前
Flink Standalone集群模式安装部署
大数据·分布式·flink·部署
锵锵锵锵~蒋1 小时前
实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么
大数据·数据仓库·flink·实时数据开发
二进制_博客1 小时前
Flink学习连载文章4-flink中的各种转换操作
大数据·学习·flink
大数据编程之光1 小时前
Flink入门介绍
大数据·flink