kettle从入门到精通 第七五课 ETL之kettle血缘,数据血缘

在了解kettle血缘之前,咱们先来了解下什么是数据血缘?

1、数据血缘定义(来自gpt)

数据血缘(Data Lineage)是指在数据管理和数据分析中追踪数据的源头、流向和处理过程的能力。具体来说,数据血缘描述了数据如何被创建、变换和移动,以及这些过程中数据的路径和影响。它有助于理解数据的可靠性、完整性和可信度,是数据治理和合规性的重要组成部分。

在数据血缘中,常见的元素包括:

  1. 数据起源和输入:数据的来源,即数据是从何处获取的,可以是数据库、文件、API等。
  2. 数据转换和处理:数据如何被修改、转换、整合或聚合,包括数据清洗、计算和推断过程。
  3. 数据输出和消费:经过处理后的数据被用于何种用途,可能是生成报表、支持决策、供给其他系统等。

2、阿里数据血缘定义

数据血缘可以用于查看表和表、字段和字段之间的血缘关系,从而辅助业务进行数据的溯源和管理,在作业异常时也可以帮助业务分析上下游作业影响。

3、数据血缘管理

1)数据血缘基于数据流动,基于etl,假如没有中场景,也就不需要数据血缘。

2)数据血缘分为表级别血缘和字段级别血缘,一般情况下做到表级别血缘就可以了。这里说的表包含表和视图。

4、什么是kettle血缘

kettle是etl工具,所以kettle血缘的意思就是通过kettle的转换文件将血缘关系解析出来,通过页面呈现处理,方便排查问题。

4、血缘存储工具

推荐neo4j图数据库,下图基于neo4j创建两个节点,然后建立关系的一个截图。后续会整理介绍下neo4j的相关知识。

相关推荐
Aloudata1 小时前
数据工程新范式:NoETL 语义编织如何激活海量埋点数据价值?
数据挖掘·数据分析·etl·指标平台
Aloudata5 小时前
数据工程新范式:NoETL 统一语义层破解跨境电商 ROI 统筹与数据孤岛难题
数据分析·etl·指标平台·数据编织
SelectDB技术团队5 小时前
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
数据库·数据仓库·人工智能·ai·apache
Aloudata5 小时前
数据工程决策:自研 vs 采购 NoETL 自动化指标平台的深度分析
数据分析·数据治理·etl·指标平台
Aloudata5 小时前
EAST 口径文档自动化生成:破解 SQL 过滤条件解析难题,实现 20 倍效率提升
sql·自动化·数据治理·元数据·数据血缘
zgl_200537795 小时前
源代码:ZGLanguage 解析SQL数据血缘 之 显示 MERGE SQL 结构图
数据库·数据仓库·hive·数据治理·etl·sql解析·数据血缘
Gain_chance5 小时前
24-学习笔记尚硅谷数仓搭建-DIM层的维度表建表思路及商品表维度表的具体建表解析
数据仓库·hive·笔记·学习·datagrip
编程小风筝6 小时前
MySQL数据库如何实现实现数据仓库存储?
数据库·数据仓库·mysql
talle20217 小时前
Hive | 分区与分桶
大数据·数据仓库·hive
Gain_chance1 天前
23-学习笔记尚硅谷数仓搭建-ODS层业务全量表、增量表结构设计及数据装载脚本
数据仓库·hive·笔记·学习