全域数据集成平台ETL

全域数据集成平台ETL

Restcloud 工作原理

RestCloud数据集成平台采用SpringCloud微服务架构技术开发,底层基于纯Java语言采用前后端分离架构,前端采用React技术进行开发。 RestCloud数据集成平台是基于数据流+工作流引擎的架构进行研发的,底层设计了一个专门为数据处理任务流而研发的工作流引擎用以支撑任意复杂的数据流处理包括:串行、同步并行、异步并行、同步子流程、异步子流程、事务控制、循环任务执行、多流合并、数据折分、数据流复制等,而不是基于DAG这种简单的有向无环图的数据流程处理逻辑,得益于我们在工作流上面积累的优势我们不但可以做DAG这种简单的依赖任务处理还可以做复杂的多层任务调度能力,企业可以把数据处理任务分为原子层、逻辑组合层、调度层等方式来组合企业的复杂任务调度需求,可以把一个复杂的数据集成流程拆分成多个可复用的子任务来进行调度。

在RestCloud数据集成平台中数据作为流在多个节点中进行流动、数据可以穿透多个节点以及子任务,这样数据流可以被多个节点以及任务中被访问到,以实现数据复用和分发。 为了保障系统的任务调度的稳定性我们做了大量的工作以及尝试,目前在产品中已经支持了多种调度模式包括:队列模式、主备模式、调度机模式等等目的都是为了保障任务能够被准时执行,同时在任务失败时提供了自动重跑、断点重跑、重跑指定节点、重跑所有下游节点的能力。

ETL数据同步CDC实时数据集成操作手册

1.创建数据源

2.选择新建数据源

3.创建离线数据集成

4.新建应用

5.新建流程进行流程设计

6.新建流程步骤

7.同步到Doris的离线流程设计

8.实时输入流配置

9.实时输入流字段来源

10.字段映射配置

11.字段映射,一一对应

12.数据过滤器配置

13.数据过滤器的过滤条件

14.Doris快速输出配置

15.Doris快速输出字段需要重新读取

16.配置实时数据集成

17.新建监听器

18.监听器配置

19.接收端配置

20.开启全量+增量/增量模式

21.一个监听器监听多张表配置

现场的ETL工具是否使用监听多表视情况而定

由于目前社区版是有限制的,流程数量+监听器数量<=30,如果单独使用一张表一个监听器一个流程,就是资源浪费

看现场具体情况,如果一些不是经常操作(新增,修改,删除)的表可以将这些表放到同一个流程里面,只需要一个监听器一个流程就可以达到效果

当一个流程内表的操作比较频繁,可能会造成数据堵塞,状态一直处于运行中,丢失数据,可以在流程上方的流程属性中增加并发数,注意并发数不能过多(消耗CPU)

创建多表离线流程
配置开始处的分支流程线
新建多表监听器
相关推荐
陈敬雷-充电了么-CEO兼CTO2 天前
推荐算法系统系列>推荐数据仓库集市的ETL数据处理
大数据·数据库·数据仓库·数据挖掘·数据分析·etl·推荐算法
isNotNullX2 天前
什么是数据分析?常见方法全解析
大数据·数据库·数据仓库·人工智能·数据分析
百度Geek说3 天前
搜索数据建设系列之数据架构重构
数据仓库·重构·架构·spark·dubbo
A5资源网13 天前
为WordPress 网站创建一个纯文本网站地图(Sitemap)
前端·数据仓库·html·php
Cachel wood13 天前
Spark教程1:Spark基础介绍
大数据·数据库·数据仓库·分布式·计算机网络·spark
張萠飛13 天前
hive集群优化和治理常见的问题答案
数据仓库·hive·hadoop
.不吃糖.13 天前
MySQL 与 Oracle 分区表详解:相同点与不同点
数据库·mysql·oracle·etl·分区表
isNotNullX14 天前
ETL连接器好用吗?如何实现ETL连接?
大数据·数据库·数据仓库·信息可视化·etl
袋鼠云数栈14 天前
3节点开启大数据时代:EasyMR助力中小企业轻装上阵、国产转型
大数据·数据库·数据仓库·sql·数据开发·数据中台·袋鼠云
巴基海贼王14 天前
针对数据仓库方向的大数据算法工程师面试经验总结
大数据·数据仓库·算法