数据质量管理-时效性管理

前情提要

根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

时效性怎么进行数据监测和指标量化

时效性 定义

官方定义:数据在时间变化中的正确程度;

(时效性的定义可以从外部对比的时效性和内部对比的时效性两个方向来梳理)

外部对比的时效性: 外部对比的时效性是指从外部数据源获取的数据,数据的更新及时性;

内部对比的时效性: 内部对比的时效性是指数据在内部数仓流转、自主研发的数据资源的数据更新是否及时;

作用的环节

数据更新及时与否是针对数据资产或数据场景而言的,因此监测环节可以是数据资产层或者数据服务层;

数据质量管理依据

外部对比的时 效性: 依据「数据归集标准」中的数据探查维度标准,在探查过程中需要探查数据源的数据更新频率,基于数据源的更新频率制定数据时效性目标;

内部对比的时效性: 依据「数据处理标准」中的数据规则执行频率,在数据处理标准中,每个数据规则会制定相关的执行频率,基于执行频率进行对比;

数据监测方法

外部对比的时效性 可以以数据源为监测维度,其核心监测维度是数据归集任务成功与否(与外部对比的完整性一致,这里不再赘述,感兴趣可以看《数据质量管理-完整性》,且为了避免重复计算,时效性指标中可以不纳入数据归集任务指标的计算)、数据业务时间与数据更新时间的时间差两个维度;

数据业务时间与数据更新时间的时间差: 外部对比的时效性一般是基于数据源数据更新到****-**-**,而数仓中未及时更新导致的数据时效性指标不及格的情况,所以需要对比数据归集任务的执行时间和数据业务更新时间的对比,基于最近10期确定平均值,制定每个规则的更新周期上限,制定数据时效性监测策略(存在数据融合的情况下需要依据分类决策);

内部对比的时效性: 依据「数据处理标准」中的数据规则执行频率,监测任务执行成功与否;

量化标准

外部对比的完整性: 数据业务时间与数据更新时间的时间差可以按以下步骤搭建量化标准;

1.表1:制定每张表需要监测的业务时间字段,每个规则的更新周期上限,制定数据时效性监测策略,如表1所示;

2.表2:存储每张表的数据监测维度中最新10期平均时间差(从第三表中获得),并且基于表1计算出每个规则最新的时间差上限(最新10期平均时间差+数据更新允许推迟最晚周期);

3.表3:监测每张表的每个规则的最新业务时间和数据库最新更新时间(前提是数据库中有update的时间戳),并且计算出二者时间差,然后基于时间差和表2的时间差-上限做比对,当表3的时间差小于等于表2的时间差-上限,则赋值为正常更新;

4.表4:基于最新的监测时间点中每张表的每个规则正常更新规则数与规则总数的占比,计算外部时效性得分;例如*******A的4个规则在最新一期有3个规则更新成功了,那么本期的外部时效性得分为75分;

内部对比的完整性: 内部对比的完整行主要是通过数据任务执行情况,调取任务执行状态,更新数和新增数以及数据库最新更新时间(佐证任务执行状态),最后基于每张表的每个任务执行状态计算平均分,如表2所示;

最终计算表单的时效性总分(内部时效性与外部时效性平均值);

下一章:可访问性怎么进行数据监测和指标量化 ?

相关推荐
云捷配低代码17 小时前
低代码库存管理系统实战:实现库存预警、出入库自动化管理
运维·低代码·自动化·数字化·敏捷流程·数字化转型
红薯大哥2 天前
项目管理系统选型如何界定覆盖范围避免上线后需求爆炸
项目管理·数字化转型·组织治理
老徐电商数据笔记3 天前
电商实时数仓开发规范
starrocks·数据治理·实时数仓·selectdb·电商数据仓库
云捷配低代码3 天前
低代码报表设计实战:从0到1制作企业经营分析BI报表
低代码·自动化·低代码平台·数字化·数字化转型
科技小花3 天前
数据治理平台架构演进观察:AI原生设计如何重构企业数据管理范式
数据库·重构·架构·数据治理·ai-native·ai原生
云捷配低代码5 天前
低代码自动化工作流实战:实现跨部门业务协同的自动化流转
运维·人工智能·低代码·自动化·数字化·敏捷流程·数字化转型
科技小花6 天前
AI重塑与全球合规:2026年主流数据治理平台差异化解析
大数据·运维·人工智能·数据治理
Lab_AI7 天前
科研数据管理革命:SDH科学数据基因组破局企业研发瓶颈
数据治理·数据融合·数据智能·科研数据管理·研发数据管理
红薯大哥9 天前
项目管理系统迁移的字段映射与状态流差异如何处理更省返工
项目管理·数据治理·系统迁移
唐可盐9 天前
【数据治理实践】第 15 期:数据质量提升实战——从“问题发现”走向“根因根治”
大数据·人工智能·数据治理·数字化转型·数据资产·数据资产入表