ETLCloud的应用策略——实时数据处理是关键

一、ETLCloud是什么?

ETLCloud又称数据集成(DataOps),是RestCloud旗下的一款数据仓库管理工具,通过自动化数据转换和集成来实现企业内部和外部数据的无缝对接,从而帮助企业快速获取准确的数据信息,进而作出正确的业务决策。

ETLCloud的功能分为离线数据集成、实时数据集成、数据源管理、监控中心、数据服务开发、用户权限管理等多模块,具有设计高效、开发成本低、数据支持性强、实时数据毫秒级同步、运行监控齐全等特点。

其中,实时数据处理是ETLCloud的关键应用策略之一,可以实现如下功能:

1.实时毫秒级同步:通过数据库日志捕获技术可以实现不同异构数据源之间的毫秒级实时同步。

2.构建实时数仓:通过实时同步技术可以帮助企业快速构建实时数仓。

3.实时报表:通过实时数据同步可以让BI的数据更快的展现、实时展示业务运作情况。

4.多种数据源支持:支持MySql、Oracle、Sql Server、PostgreSQL、MQ等的实时数据同步。

二、实践操作

直接展示监听Mysql数据库实时同步到Oracle数据库,中途进行数据映射等处理。

在数据库监听器类别中,ETLCloud可以实现四种监听方式,分别是直接传输、通过ETL流程、传输到Kafka、不处理。

直接传输方式,在配置方面是最简单的,适用于单纯监听同步源数据库表数据到目标库的情景,性能比较高效;

通过ETL方式,通过绑定设计离线流程,以达到对数据进行清洗转换等操作后,再同步到库表中,适用于监听源表数据后还需要对数据进行相关操作的情景,功能性比较强;

传输到Kafka方式,可以选择将数据传输到Kafka中,提供了多种选择;

不处理,可以捕获监听数据,但是不对数据进行后续操作,适用于测试监听器的配置效果便于调整监听器配置以及定位存在问题;

使用实时数据集成模块之前,我们需要在数据源中配置对应的数据源。

(配置好的数据源)

展示一下提前创建好的库表。

(源表和目标表)

进入实时数据集成模块,新建一个监听器。数据传输模式先选择不处理测试监听效果;采集模式全量+增量数据;其他的按照提示选取即可。

(监听器配置)

(接收端配置)

启动监听器,可以看到监听器可以正常监听信息,说明源表可以进行监听,可以在此基础上更改其他数据传输模式;

(启动监听器)

直接到库方式

我们这里新建一个监听器,数据传输模式选择直接到目标库的方式。

(接收端配置)

(表映射)

启动监听器之后,我们对源表进行修改,模拟数据变化时的监听效果。

(启动监听器)

(目标表数据)

这样,就成功实现了源表和目标表的实时同步需求。

传输给ETL的流程

首先需要设计输出数据的ETL离线流程,只要配置一个库表输出组件即可。

(流程设计)

在基本属性中,我们选取好目标数据库表,这个就是我们提前在数据源管理模块中配置好的数据源。

(基本属性配置)

下一步,输出字段配置,选取数据表后,平台会自动载入字段信息,我们这里直接对数据进行操作即可,对NAME字段绑定一个姓名脱敏的转换规则。平台自带多种数据规则,支持自主定义开发规则,也有大量的数据处理组件可以直接使用,按照自己的需求设计即可。

(输出字段配置)

(平台自带规则)

输出选项,可以选择配置数据输出的各种选项;高级配置可以对数据库的事务等以及流程的结果断言进行配置,我们这里直接使用默认的配置。

(输出选项配置)

(高级配置)

保存后,我们前往实时数据集成模块新建一个监听器,数据传输模式选择传输给的ETL流程。这里指定的就是刚刚设计好的ETL流程。

(监听器配置)

(接收端配置)

启动监听器,然后去目标数据库查看同步效果。

(启动监听器)

(目标表效果)

传输给Kafka

同理选取源数据库表以及目标数据源。

(监听器配置)

(接收端配置,选择生产者数据源)

保存后启动监听器,手动修改源数据表,查看数据统计以及kafka接收到的数据。

(启动监听器)

(Kafka数据)

可以看到,通过ETLCloud平台的这些功能,对实时数据进行处理是非常简单而且高效的。

三、总结

通过ETLCloud的实时数据处理功能,企业可以快速地获取最新的数据信息,及时了解市场变化、产品销售情况等重要信息。此外,ETLCloud还提供了多种数据处理策略和工具,可以根据不同的业务需求和数据特征,定制不同的数据处理方案,从而更好地满足企业的数据管理需求。

相关推荐
zhangjin12223 天前
kettle从入门到精通 第八十八课 ETL之kettle kettle连接sqlserver彻底搞明白
数据仓库·sqlserver·etl·kettle教程·kettlesqlserver·kettle 实战
zhangjin12223 天前
kettle从入门到精通 第八十九课 ETL之kettle kettle jms activemq使用教程
数据仓库·etl·activemq·kettle jms·kettle active
杰哥在此5 天前
Python知识点:如何使用Airflow进行ETL任务调度
开发语言·python·面试·编程·etl
fibonacci(n)7 天前
字段映射和数据转换为什么是数据集成的关键?
大数据·数据库·etl·etl工程师
RestCloud8 天前
ETLCloud携手ClickHouse:高效的数据查询效率
数据库·clickhouse·etl·数据处理·数据集成
zhangjin12229 天前
kettle从入门到精通 第八十七课 ETL之kettle kettle文件上传
数据仓库·etl·kettle 文件上传·kettle实战·kettle 教程
isNotNullX11 天前
分布式计算技术是什么?在数据集成值得作用?
大数据·数据仓库·hadoop·分布式·database·etl
Data 31712 天前
Hadoop三大组件之HDFS(一)
大数据·数据库·数据仓库·hadoop·hdfs·etl
zhangjin122212 天前
kettle从入门到精通 第八十六课 ETL之kettle kettle调用https接口忽略SSL校验
https·ssl·etl·kettle调用https接口·kettle忽略ssl
isNotNullX14 天前
ETL架构类型有哪些?怎么选择?
数据仓库·架构·etl