kettle从入门到精通 第六十六课 ETL之kettle kettle阻塞教程,轻松获取最后一行数据,so easy

场景:ETL沟通交流群内有小伙伴反馈,如何在同步一批数据完成之后记录下同步结果呢?或者是调用后续步骤、存储过程、三方接口等。

解决:使用步骤Blocking step进行阻塞处理即可。

1、下面的demo演示从表t1同步数据至表t2(t1表中有三条数据,t2为空表,两个表表结构相同),然后数据同步完毕之后进行其他操作,这里的只是打个日志记录下最后一行数据,如下图所示:

1)从图片日志可以很清晰的看到,当前数据打印了三次,表输入和表输出也都执行了3次。

2)从图片日志可以很清晰的看到,Blocking step 读取了三条数据,只写了一条数据。

3)从图片日志可以很清晰的看到,Blocking step 后面的日志步骤只打印了最后一行数据。

2、Blocking step配置,双击步骤打开配置项。

Pass all rows?:若不勾选,表输出步骤成功写入3条数据之后只有最后一条数据才会通过Blocking step步骤传递给之后的步骤。如下图所示:

3、Pass all rows?:若勾选,表输出步骤成功写入3条数据之后所有数据都会通过Blocking step步骤传递给之后的步骤。如下图所示:

1)从图片日志可以很清晰的看到,Blocking step 读取了三条数据,写了三条数据。

2)从图片日志可以很清晰的看到,虽然Blocking step 写了三条数据,但是执行顺序依然是在Blocking step的前置步骤表输出完毕之后。

4、缓存大小配置,行数设置的越大,该步骤执行的效率也就越高,否则会频繁操作临时文件。

上图步骤中将缓存大小设置为1,从日志来看Blocking step步骤就打印了"打开临时文件",很显然缓存大小设置的行数太小会降低性能。这里使用的时候根据自己的机器实际内存情况来定。

相关推荐
慕容尘轩6 个月前
kettle从入门到精通 第七十一课 ETL之kettle 再谈http post,轻松掌握body中传递json参数
etl学习·kettle深入浅出·kettle http post·kettle http post body
慕容尘轩6 个月前
kettle从入门到精通 第七十课 ETL之kettle kettle数据校验,脏数据清洗轻松拿捏
etl学习·kettle深入浅出·kettle数据校验·kettle数据清洗·kettle异常处理·kettle脏数据处理
慕容尘轩6 个月前
kettle从入门到精通 第六十九课 ETL之kettle kettle cdc mysql,轻松实现实时增量同步
etl学习·kettle深入浅出·kettle实时同步·kettle cdc·kettle cdc mysql
慕容尘轩6 个月前
kettle从入门到精通 第六十七课 ETL之kettle 再谈kettle阻塞,阻塞多个分支的多个步骤
kettle·etl学习·kettle深入浅出·kettle阻塞