ETL参数化技巧:如何避免写一堆重复任务?

在配置ETL流程时,当我们遇到一些有增长规律的重复性任务,我们需要为每一张表配置一个组件,重复拉取配置相同的组件步骤使得任务变得繁杂,我们可以使用自增量组件+动态库表输入/输出组件结合的方式实现一个动态输入/输出组件就可以输入或输出多张表。

一、动态读取表

这里有一个场景,有多张相同表结构的表,他们的表名呈规律变化,比如是字符串+数字的形式,table1到table100,要把他们全部合并同步到一张大表里面,大表的表结构在源表的基础上增加一个字段,字段值记录该行数据的来源也就是从哪张源表同步到这张大表。

正常的情况是源表有多少张表就拉取多少个库表输入组件,指定源表是哪一张,并把它同步到目标表去。但这种方式就需要拉取100个库表输入,而这100个库表输入的配置也仅仅是表名不一样而已。这种情况我们就可以使用动态库表输入组件去简化配置:

设计一个这样的流程:

自增量组件配置:

变量组件配置:

动态库表输入组件配置:

数据源这里填写平台配置的数据源链接的数据源Id.

库表输出:

运行流程:

流程正常运行。

检查目标表:

数据正常整合过来。

二、动态输出表

数据库服务器压力大的情况下经常有分库分表的场景,有一张大表,需要根据某个维度比如年份去进行表拆分,通常的方式也是根据年份去拉取数据,然后拉取库表输出去输出一个子表,而这种情况下维度越大子表就越多,比如1990到2020要拆31个表,这种情况我们就可以使用动态库表输出去简化流程。

要将一张表按年份去拆分成多个表我们可以设置这样一个流程:

自增量组件配置:

接下来先配置库表输入:

变量组件配置:

运行流程:

自动建表成功:

检查每张目标表的数据没有问题

三、最后

本文介绍了两种ETL参数化技巧,核心在于利用自增量组件生成序列,通过变量组件动态拼接表名,最终由动态库表输入/输出组件执行批量操作:

动态读表:将多张规律命名的源表合并到一张目标表,避免为每张源表重复配置输入组件。

动态写表:将一张大表按维度拆分成多张子表,避免为每张目标表重复配置输出组件。

这种方法显著减少了ETL任务的组件数量,提升了配置效率与可维护性,特别适用于处理规律性强的批量化表操作。

相关推荐
API开发2 天前
apiSQL网关 for Docker 离线安装和升级教程
运维·docker·容器·api·api网关·apisql·替代graphql
新诺韦尔API3 天前
手机三要素验证接口详细技术对接指南
大数据·智能手机·api
没有bug.的程序员3 天前
Spring Boot 与 Swagger:API 文档自动化生成、版本管理与云原生协作深度实战指南
spring boot·云原生·自动化·api·swagger·版本管理·自动化生产
Li emily5 天前
如何通过外汇API平台快速实现实时数据接入?
开发语言·python·api·fastapi·美股
Onelafite7 天前
京东商品属性的详细api数据解析:颜色、尺寸与材质
linux·数据库·api·材质·开放api
nangonghen7 天前
centos 7.9安装postman v9.31.0
centos·api·postman
新诺韦尔API7 天前
手机三要素验证接口接入常见问题一览
大数据·智能手机·api
霑潇雨8 天前
Flink的转换算子——map
大数据·开发语言·flink·api
爱喝水的鱼丶11 天前
SAP-ABAP:从SAP中暴露REST API:完整实操SICF接口开发指南
运维·开发语言·api·sap·abap·rest·接口开发
曲幽11 天前
FastAPI异常处理全解析:别让你的API在用户面前“裸奔”
python·websocket·api·fastapi·web·exception·error·httexception