全域数据集成平台ETL

全域数据集成平台ETL

Restcloud 工作原理

RestCloud数据集成平台采用SpringCloud微服务架构技术开发,底层基于纯Java语言采用前后端分离架构,前端采用React技术进行开发。 RestCloud数据集成平台是基于数据流+工作流引擎的架构进行研发的,底层设计了一个专门为数据处理任务流而研发的工作流引擎用以支撑任意复杂的数据流处理包括:串行、同步并行、异步并行、同步子流程、异步子流程、事务控制、循环任务执行、多流合并、数据折分、数据流复制等,而不是基于DAG这种简单的有向无环图的数据流程处理逻辑,得益于我们在工作流上面积累的优势我们不但可以做DAG这种简单的依赖任务处理还可以做复杂的多层任务调度能力,企业可以把数据处理任务分为原子层、逻辑组合层、调度层等方式来组合企业的复杂任务调度需求,可以把一个复杂的数据集成流程拆分成多个可复用的子任务来进行调度。

在RestCloud数据集成平台中数据作为流在多个节点中进行流动、数据可以穿透多个节点以及子任务,这样数据流可以被多个节点以及任务中被访问到,以实现数据复用和分发。 为了保障系统的任务调度的稳定性我们做了大量的工作以及尝试,目前在产品中已经支持了多种调度模式包括:队列模式、主备模式、调度机模式等等目的都是为了保障任务能够被准时执行,同时在任务失败时提供了自动重跑、断点重跑、重跑指定节点、重跑所有下游节点的能力。

ETL数据同步CDC实时数据集成操作手册

1.创建数据源

2.选择新建数据源

3.创建离线数据集成

4.新建应用

5.新建流程进行流程设计

6.新建流程步骤

7.同步到Doris的离线流程设计

8.实时输入流配置

9.实时输入流字段来源

10.字段映射配置

11.字段映射,一一对应

12.数据过滤器配置

13.数据过滤器的过滤条件

14.Doris快速输出配置

15.Doris快速输出字段需要重新读取

16.配置实时数据集成

17.新建监听器

18.监听器配置

19.接收端配置

20.开启全量+增量/增量模式

21.一个监听器监听多张表配置

现场的ETL工具是否使用监听多表视情况而定

由于目前社区版是有限制的,流程数量+监听器数量<=30,如果单独使用一张表一个监听器一个流程,就是资源浪费

看现场具体情况,如果一些不是经常操作(新增,修改,删除)的表可以将这些表放到同一个流程里面,只需要一个监听器一个流程就可以达到效果

当一个流程内表的操作比较频繁,可能会造成数据堵塞,状态一直处于运行中,丢失数据,可以在流程上方的流程属性中增加并发数,注意并发数不能过多(消耗CPU)

创建多表离线流程
配置开始处的分支流程线
新建多表监听器
相关推荐
weixin_307779135 小时前
Linux下GCC和C++实现统计Clickhouse数据仓库指定表中各字段的空值、空字符串或零值比例
linux·运维·c++·数据仓库·clickhouse
RestCloud10 小时前
如何通过ETLCloud实现跨系统数据同步?
数据库·数据仓库·mysql·etl·数据处理·数据同步·集成平台
行云流水行云流水11 小时前
数据库、数据仓库、数据中台、数据湖相关概念
数据库·数据仓库
冬至喵喵14 小时前
【hive】函数集锦:窗口函数、列转行、日期函数
大数据·数据仓库·hive·hadoop
线条117 小时前
大数据 ETL 工具 Sqoop 深度解析与实战指南
大数据·sqoop·etl
workflower1 天前
以光量子为例,详解量子获取方式
数据仓库·人工智能·软件工程·需求分析·量子计算·软件需求
weixin_472339461 天前
Doris查询Hive数据:实现高效跨数据源分析的实践指南
数据仓库·hive·hadoop
fydw_7152 天前
使用 Unstructured 开源库快速入门指南
etl
SelectDB技术团队2 天前
从 ClickHouse、Druid、Kylin 到 Doris:网易云音乐 PB 级实时分析平台降本增效
大数据·数据仓库·clickhouse·kylin·实时分析
Leo.yuan2 天前
API是什么意思?如何实现开放API?
大数据·运维·数据仓库·人工智能·信息可视化