kettle从入门到精通 第六十七课 ETL之kettle 再谈kettle阻塞,阻塞多个分支的多个步骤

场景:ETL沟通交流群内有小伙伴反馈,如何多个分支处理完毕之后记录下同步结果呢?或者是调用后续步骤、存储过程、三方接口等。

解决:使用步骤Blocking step进行阻塞处理即可。

1、 如下流程图中利用Blocking step步骤同时阻塞【模拟表输出1】和【模拟表输出2】两个步骤,只有当两个步骤都执行完毕之后数据才会通过Blocking step.

  1. 表输出步骤加载数据,sql为select * from t1,t1表中有三条数据。

2)当前数据步骤为写日志步骤,打印数据读取记录。

3)延迟2秒和延迟3秒步骤可以暂停步骤立刻执行,添加为了演示执行顺序效果。

4)模拟表输出1和模拟表输出2实际上是写日志步骤,为了模拟表输出步骤,方便演示。

5)将模拟表输出1和模拟表输出2同时连接Blocking step步骤,之后打印日志记录最后一行数据。

注意:这里的最后一行数据不是表输入步骤中的最后一行数据,而是通过模拟表输出1和模拟表输出2两个步骤中的最后一条数据。

6)当前数据步骤使用的数据发送是Round-Robin轮询调度。

7)下面为执行的视频,需公众号查看。

2、上边的案例是采用Round-Robin轮询调度,下面我们调整数据发送为数据复制方式,该方式可以将当前数据的数据复制两份,每份的数据都是一样的。

这种情况适用于从A表读取数据,同时写入B表和C表,这种情况下Blocking step步骤依然有效。

相关推荐
isNotNullX21 天前
一文详解开源ETL工具Kettle!
大数据·数据仓库·etl·kettle
天地风雷水火山泽22 天前
二百七十二、Kettle——ClickHouse中增量导入数据重复性统计表数据(1天1次)
clickhouse·kettle
天地风雷水火山泽22 天前
二百七十五、Kettle——ClickHouse增量导入数据补全以及数据修复记录表数据(实时)
clickhouse·kettle
天地风雷水火山泽22 天前
二百七十三、Kettle——ClickHouse中增量导入数据准确性统计表数据(1天1次)
clickhouse·kettle
天地风雷水火山泽22 天前
二百七十四、Kettle——ClickHouse中对错误数据表中进行数据修复(实时)
clickhouse·kettle
天地风雷水火山泽24 天前
二百七十一、Kettle——ClickHouse增量导入数据清洗记录表
kettle
One_Piece11125 天前
kettle8.3 Oracle连接运行一段时间后:Socket read timed out
数据库·oracle·etl·kettle
天地风雷水火山泽1 个月前
二百七十、Kettle——ClickHouse中增量导入清洗数据错误表
clickhouse·kettle
天地风雷水火山泽1 个月前
二百六十八、Kettle——同步ClickHouse清洗数据到Hive的DWD层静态分区表中(每天一次)
hive·clickhouse·kettle
雨笋情缘3 个月前
Apache HOP (Hop Orchestration Platform) VS Data Integration (通常被称为 Kettle)
kettle·apache hop