大数据数据血缘是什么,跟数据质量有什么关系?

从下面这张表我们可以引出一个数据血缘 的概念。

数据血缘:数据的来龙去脉,主要包含数据的来源、数据的加工方式、映射关系以及数据出口。

通俗来说数据血缘就是数据的来龙去脉,它主要做两件事情,第一件事情就是追根溯源,快速地查询出来我这个字段是从哪张表上来的,中间经过了哪些环节。第二个是反映了数据的变化过程。

上面这个图片我们可以看到从Table A到Table G,中间集成了很多其他的表。

数据血缘属于元数据的一部分,清晰的数据血缘是数据平台维持稳定的基础,更有利于数据变更影响分析以及数据问题排查。

数据血缘的范围:数据血缘单纯的数据角度来看包含的维度有数据库、表、字段、系统、应用程序,即数据存储在什么数据库的什么表,对应的字段是什么以及字段的属性,数据所属的系统以及与数据有关的应用程序。

数据血缘从业务角度来看包含的维度主要是数据所属业务线,涉及到业务便要梳理清楚数据的产生逻辑、数据的使用逻辑以及业务线之间的关联关系。

数据血缘可以可以通过程序解析和人工采集的方式获取。程序解析主要是面向存储过程、sql、视图以及已有的ETL过程。以一个数据加工的完整流程为例,每个数据加工的流程都通过一个唯一的标识进行标记,流程中的每一个环节都记录其前后依赖关系,程序将每一个环节的逻辑解析以后 根据依赖关系和流程便可以生成全流程的数据血缘。

人工采集可以是程序解析的一种辅助,也可以单独以这种方式发挥作用。与程序解析不同的是,人工采集的结果可以更准确与详实,即使是在程序解析可以实现极高的准确率的情况下也需要以人工的方式进行一次审核是比较合理的做法。

后面会带大家继续了解大数据测试,欢迎大家继续关注。

(本系列文章根据《优品软件培育计划》公益直播内容整理,观看直播回放可以私信我,获取观看链接。)

相关推荐
Elastic 中国社区官方博客17 小时前
根据用户行为数据中的判断列表在 Elasticsearch 中训练 LTR 模型
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
点控云18 小时前
点控云智能短信:重构企业与用户的连接,让品牌沟通更高效
大数据·人工智能·科技·重构·外呼系统·呼叫中心
TG_yunshuguoji18 小时前
阿里云国际代理商:如何实现配置跨区域复制?
安全·阿里云·云计算
风清再凯20 小时前
04_es原理&filebeat使用
大数据·elasticsearch·搜索引擎
小小王app小程序开发20 小时前
盲盒小程序开发新视角:从用户体验到运营落地的分析拆解
大数据·ux
kali-Myon1 天前
NewStarCTF2025-Week2-Pwn
算法·安全·gdb·pwn·ctf·栈溢出
weixin_525936331 天前
部分Spark SQL编程要点
大数据·python·sql·spark
胡耀超1 天前
数据安全指南-合规治理 2025 等保2.0测评实施 全球数据保护法规对比 数据分类分级管理 ISO27001与SOC2认证 跨境数据传输合规
安全·数据安全·等保·跨境数据传输合规·数据分类分级管理·等保2.0测评实施·iso27001与soc2认证
wan5555cn1 天前
当代社会情绪分类及其改善方向深度解析
大数据·人工智能·笔记·深度学习·算法·生活
我要学习别拦我~1 天前
柱状图的高级玩法:分组、堆叠、百分比对比
经验分享·信息可视化·数据可视化