《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(三)

《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。

图书介绍:数据资产管理核心技术与应用

今天主要是给大家分享一下第四章的内容:

第四章的标题为数据质量的技术实现

内容思维导图如下:

本文是接着

《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(二)

继续往下介绍

4、 常见的开源数据质量管理平台

4.1、 Apache Griffin

Apache Griffin 是一个开源的大数据质量管理系统,底层是基于Hadoop和Spark实现的,支持批处理和流处理模式两种数据质量检测方式,官方网址为:https://griffin.apache.org/,如下图所示,是Apache Griffin 官方地址https://griffin.apache.org/docs/quickstart-cn.html中提供的架构图。

Apache Griffin 的源代码github地址为https://github.com/apache/griffin 《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

从架构图中可以看到

  • Apache Griffin 在做数据质量检测时,是基于Spark 实现的,以Spark任务的形式对定义的待采集数据质量的数据源进数据采集。
  • 在架构图中,Define主要用于数据质量的维度定义,也就是我们说的数据质量规则的定义。
  • Measure负责数据质量任务的执行以及生成数据质量的结果数据。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著
  • Analyze主要负责结果数据的存储以及呈现。

如下图所示,Apache Griffin 的架构图刚好是可以对应到我们前面的数据质量采集流程的。

另外Apache Griffin 也是支持容器化部署的,相关部署介绍请参考:https://github.com/apache/griffin/blob/master/griffin-doc/docker/griffin-docker-guide.md

Apache Griffin 的主要技术栈和开发语言包括

  • 后端:Java和Scala,其API服务主要是由Java 语言开发,基于Http协议和GRPC协议做数据通信。其任务的执行主要是基于Scala语言开发,用于Spark任务的提交、运行等。
  • 前端:TypeScript、Html、Css

其核心技术架构如下图所示。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

从图中可以看到其核心技术是通过SpringBoot+Spark来实现的。

4.2、 Qualitis

Qualitis是一个支持多种异构数据源的数据质量监测平台,其设计初衷是用于解决业务系统运行、数据中心建设及数据治理过程中的遇到的各种数据质量问题。

如下图所示,是Qualitis官方地址https://github.com/WeBankFinTech/Qualitis/blob/master/docs/zh_CN/ch1/架构设计文档.md#21-总体架构设计中提供的架构图。

从架构图中可以看到也是包含了质量规则配置、质量任务管理和质量数据采集、质量数据存储和分析等这些核心模块。

在Qualitis官方网址中也提供了总体模块设计图,其模块设计图也是刚好可以对应到我们前面的数据质量采集流程,如下图所示。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

可以看到数据质量采集的流程其实不管在哪个开源的数据质量平台中,都几乎是一样的,都需要包括

  • 质量规则的配置和管理:主要是配置规则和维护规则。
  • 定时job定时去执行质量规则抓取原始的数据质量数据。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著
  • 质量的数据处理和分析:对抓取到的原始质量数据进行处理,然后通过质量数据的分析来优化质量规则的配置,形成一个闭环的链路,如下图所示
相关推荐
lovep12 天前
Data Filtering Network 论文阅读和理解
论文阅读·数据质量·大模型算法
Aloudata1 个月前
NoETL 自动化指标平台如何保障数据质量和口径一致性?
大数据·数据分析·数据质量·noetl
智慧化智能化数字化方案1 个月前
深入解读数据资产化实践指南(2024年)
大数据·人工智能·数据资产管理·数据资产入表·数据资产化实践指南
Shaidou_Data3 个月前
安全无界:跨行业视角下的数据治理与网络安全实践
网络·安全·web安全·数据治理·数据质量·数据资源
张永清3 个月前
大数据资产管理架构设计篇-来自《数据资产管理核心技术与应用》一书的权威讲解
数据资产管理·架构设计
孙朝和5 个月前
入门指南 | Datavines 安装部署篇
大数据·数据治理·数据质量
daopuyun5 个月前
大数据数据血缘是什么,跟数据质量有什么关系?
大数据·安全·信息可视化·数据质量
张永清5 个月前
《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(二)
大数据·数据资产管理·数据质量
张永清5 个月前
《数据资产管理核心技术与应用》读书笔记-第五章:数据服务(二)
大数据·数据资产管理·数据服务