全域数据集成平台ETL

全域数据集成平台ETL

Restcloud 工作原理

RestCloud数据集成平台采用SpringCloud微服务架构技术开发,底层基于纯Java语言采用前后端分离架构,前端采用React技术进行开发。 RestCloud数据集成平台是基于数据流+工作流引擎的架构进行研发的,底层设计了一个专门为数据处理任务流而研发的工作流引擎用以支撑任意复杂的数据流处理包括:串行、同步并行、异步并行、同步子流程、异步子流程、事务控制、循环任务执行、多流合并、数据折分、数据流复制等,而不是基于DAG这种简单的有向无环图的数据流程处理逻辑,得益于我们在工作流上面积累的优势我们不但可以做DAG这种简单的依赖任务处理还可以做复杂的多层任务调度能力,企业可以把数据处理任务分为原子层、逻辑组合层、调度层等方式来组合企业的复杂任务调度需求,可以把一个复杂的数据集成流程拆分成多个可复用的子任务来进行调度。

在RestCloud数据集成平台中数据作为流在多个节点中进行流动、数据可以穿透多个节点以及子任务,这样数据流可以被多个节点以及任务中被访问到,以实现数据复用和分发。 为了保障系统的任务调度的稳定性我们做了大量的工作以及尝试,目前在产品中已经支持了多种调度模式包括:队列模式、主备模式、调度机模式等等目的都是为了保障任务能够被准时执行,同时在任务失败时提供了自动重跑、断点重跑、重跑指定节点、重跑所有下游节点的能力。

ETL数据同步CDC实时数据集成操作手册

1.创建数据源

2.选择新建数据源

3.创建离线数据集成

4.新建应用

5.新建流程进行流程设计

6.新建流程步骤

7.同步到Doris的离线流程设计

8.实时输入流配置

9.实时输入流字段来源

10.字段映射配置

11.字段映射,一一对应

12.数据过滤器配置

13.数据过滤器的过滤条件

14.Doris快速输出配置

15.Doris快速输出字段需要重新读取

16.配置实时数据集成

17.新建监听器

18.监听器配置

19.接收端配置

20.开启全量+增量/增量模式

21.一个监听器监听多张表配置

现场的ETL工具是否使用监听多表视情况而定

由于目前社区版是有限制的,流程数量+监听器数量<=30,如果单独使用一张表一个监听器一个流程,就是资源浪费

看现场具体情况,如果一些不是经常操作(新增,修改,删除)的表可以将这些表放到同一个流程里面,只需要一个监听器一个流程就可以达到效果

当一个流程内表的操作比较频繁,可能会造成数据堵塞,状态一直处于运行中,丢失数据,可以在流程上方的流程属性中增加并发数,注意并发数不能过多(消耗CPU)

创建多表离线流程
配置开始处的分支流程线
新建多表监听器
相关推荐
lifallen8 小时前
从Apache Doris 学习 HyperLogLog
java·大数据·数据仓库·算法·apache
doll ~CJ10 小时前
数据仓库与数据挖掘基础知识
数据仓库·数据挖掘
数据要素X1 天前
寻梦数据空间 | 架构篇:从概念到落地的技术实践与突破性创新
大数据·运维·数据仓库·微服务·数据治理·数据中台·可信数据空间
呆呆小金人1 天前
SQL入门: HAVING用法全解析
大数据·数据库·数据仓库·sql·数据库开发·etl·etl工程师
一起喝芬达20101 天前
当数据仓库遇见AI:金融风控的「认知大脑」正在觉醒
数据仓库·人工智能
jianmin09202 天前
Python高效数据分析从入门到实战的七个步骤
数据仓库
卡拉叽里呱啦4 天前
Apache Iceberg介绍、原理与性能优化
大数据·数据仓库
AI悦创|编程1v17 天前
00-1-正则表达式学习心得:从入门到上瘾,再到克制
数据仓库·正则表达式·数据挖掘·ai悦创编程一对一教学·python一对一辅导·python一对一教学
DashingGuy7 天前
数仓各层级设计总结
数据仓库
DashingGuy7 天前
从0-1建设数据仓库
数据仓库