数据质量管理-准确性管理

前情提要

根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

今天重点讲解定性指标准确性怎么进行数据监测和指标量化

官方定义: 数据准确表示其所描述的真实实体(实际对象)真实值的程度;

作用的环节: 可以在数据治理完成后的数据明细层和数据服务层(dwd/dws/ads);

数据质量管理依据: 需要结合数据资产建设手册的"标准参考"、数据使用标准的"数据使用口径"二者结合对真实世界的了解和业务逻辑的理解;

数据监测方法: 此类监测目标也可以圈定核心数据和重要数据进行重点监测。通过数据分级分类标准,识别出核心数据和重要数据,基于圈定的数据范围,数据质检人员结合上述数据质量管理依据制定数据准确性校验。

注:准确性的标准基于不同的场景、对数据不同的理解都会有所偏差。

①场景对数据的需求颗粒度会影响数据准确性的判断依据;

②数据口径理解的不同对数据准确性的偏差也会有所不同;

由于准确性的定义均需要参考外部依据,且评判的标准无法固定,因此搭建的监测流程需要兼顾三个维度:一是该数据项是否有监测流程,二是该监测语句是否有效;三是检查出的错误是否能及时被修正;

量化标准:

1.需要明确数据监测范围,到字段级别;

2.需要明确数据更新频率,作为执行周期和修正周期设置的参考依据;

3.设置评定指标的量化方法;

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 第一张表为准确性语句信息表,作为管理准确性质检语句相关流程; 第二张表为准确性质检语句运行结果存储表,存储准确性语句每一期运行的结果和修正的结果(备注:要求修正的时间为该语句下一期的执行时间) 第三张表为准确性指标赋分逻辑,该表统计了每一期该表的每个监测字段的准确性得分结果: *计算时间:取表2中的"要求修正的时间" 是否有监测流程:监测表一中该字段是否存在未下架的准确性质检语句,若有,则赋值60分,表明该表的该字段有准确性监测流程; 监测语句有效分:查看表2中在"要求修正的时间"所对应的当期是否有执行结果不为0的质检语句,有1个则+5分; 错误是否及时被修正:查看表2中当期修正截止时间执行结果(错误数)大于0则进行扣分; |

最终,基于字段的平均分计算,获得这张表在这个计算时间点的准确性得分;

注: 数据准确性指标的监测,既需要内部监测,形成循环改善的过程,也需要"广开言路",收集用户的数据问题,了解用户在数据使用过程中发现的问题或者存在的疑惑;更需要定期对内部协同部门和数据用户输出数据业务培训,培养数据敏感度,拉通数据话语体系;

相关推荐
老徐电商数据笔记3 天前
电商实时数仓开发规范
starrocks·数据治理·实时数仓·selectdb·电商数据仓库
科技小花4 天前
数据治理平台架构演进观察:AI原生设计如何重构企业数据管理范式
数据库·重构·架构·数据治理·ai-native·ai原生
科技小花6 天前
AI重塑与全球合规:2026年主流数据治理平台差异化解析
大数据·运维·人工智能·数据治理
Lab_AI7 天前
科研数据管理革命:SDH科学数据基因组破局企业研发瓶颈
数据治理·数据融合·数据智能·科研数据管理·研发数据管理
红薯大哥9 天前
项目管理系统迁移的字段映射与状态流差异如何处理更省返工
项目管理·数据治理·系统迁移
唐可盐9 天前
【数据治理实践】第 15 期:数据质量提升实战——从“问题发现”走向“根因根治”
大数据·人工智能·数据治理·数字化转型·数据资产·数据资产入表
F36_9_10 天前
中大型企业项目管理系统选 SaaS 还是私有部署更合适
数据治理·企业软件·云部署
千桐科技11 天前
数据仓库 vs 数据中台:从“数据库的豪华升级版”到“企业的数据操作系统”
数据库·数据仓库·数据治理·数据中台·数据资产·数据服务·qdata
红薯大哥11 天前
多团队协作的项目管理平台需要哪些通用能力
项目管理·数据治理·协同平台
唐可盐15 天前
【数据治理实践】第 10 期:数据时代的导航——数据目录
大数据·人工智能·数据治理·数字化转型·数据资产·数据资产入表