Apache SeaTunnel 数据集成插件开发最新经验总结!

在Apache SeaTunnel的最新插件开发中,connector-v2 maxcompute 连接器实现了基于CatalogTable + SaveMode的新版本。

本文主要给大家分享了源端的关键改动包括弃用了过时的方法,改为通过CatalogTable实现数据传递。汇端则增加了对multi-table sink和saveMode接口的实现,并需手动管理auto service注解等经验方法!

此外,开发了特定的catalog以处理公共参数和客户端操作。

connector-v2 maxcompute 连接器

connector-v2 maxcompute 连接器实现了基于CatalogTable + SaveMode的新版本。

a) 源端的核心改动

  • 新版本中SeaTunnelSource继承自SatunnelPluginLifeCycle接口,其中包含了一个prepare方法。该方法原本用于初始化源端中的config参数,以及一些预处理工作,如删除数据、执行SQL等。
  • SeaTunnelSource中的getProducedType方法用于存储SeatunnelRowType,即列映射转换信息的覆写。

改动如下:

  • 不再使用两个已过时的方法。
  • 在构造函数中创建CatalogTable,并在新方法List<CatalogTable> getProducedCatalogTables()中实现catalog的数据传递。在新版本中,catalogTable将从源端传递到汇端,作为后续saveMode里批量同步建表的SQL拼接来源。
  • SeatunnelRowType可以从catalogTable中获取,以适配现有连接器,也可以自己封装公共参数进行传递。

关于Catalog:

  • 我们通过getTable获取CatalogTable。如果配置了自定义列(column),以适配DataX,我们需要基于column生成CatalogTable

b) SInk端的核心改动

  • MaxcomputeSinkFactory中,额外实现了createSink方法,从上下文中获取catalogReadonlyConfig
  • Sink需要去除auto service注解,并实现multi-table sinksaveMode接口。
  • 基于DefaultSaveModeHandler,通过schemaSaveModeDataSaveMode配置,利用catalog中的方法实现数据清理、建表或个性化操作。
  • catalog实现了truncate table接口,用于数据删除和分区重建。

去除auto_service注解的原因:

  • 如果某个连接器汇端(例如maxcompute)已经实现了新模式接口,不再通过过时的prepare方法注入config,而是通过构造函数从上下文传入的catalogtable获取内部seatunnelRowType的适配。这个连接器在排序上比较靠前,AbstractPluginDiscovery在服务加载时总是首先发现它。但是,如果其他插件(例如clickhouse)仍在使用旧模式(prepare),则MultipleTableJobConfigParser解析汇端会将其视为过时插件,并回退到JobConfigParser进行适配。在parseSink方法中,AbstractPluginDiscovery仍会扫描所有通过autoService注解注入的SeaTunnelSink插件。此时,它遇到的第一个插件maxcompute的构造函数不能适配旧模式的实例初始化,导致失败。
  • 这导致了Maxcompute到Clickhouse数据同步时,报出MaxcomputeSink无法初始化的问题。
  • MaxcomputeSinkWriter需要额外实现SupportMutiTableSinkWriter,否则无法进行适当的转换。

如果要指定部分列回流:

  • 必须比较catalogTable中的列数量与指定的自定义列数量,两者相等才可以进行回流。
  • truncate -> data_save_mode / schema_save_mode
  • 支持列数据的隐式转换(seatunnel row数据是一个Object[]数组,需要结合CatalogTable TableSchema + Opds TableSchema

c) 开发特定的catalog

  • 需要实现公共Catalog接口,其中的openclose可以处理一些公共参数和客户端操作。
  • catalog需要通过catalog factory进行实例化,并通过auto service进行装配加载。

本文由 白鲸开源科技 提供发布支持!

相关推荐
@insist1232 小时前
信息安全工程师考点精讲:身份认证核心原理与分类体系(上篇)
大数据·网络·分类·信息安全工程师·软件水平考试
天辛大师2 小时前
AI助力旅游扩大化,五一旅游公园通游年票普惠研究
大数据·启发式算法·旅游
WordPress学习笔记3 小时前
镌刻中式美学的高端WordPress主题
大数据·人工智能·wordpress
数智化精益手记局4 小时前
拆解物料管理erp系统的核心功能,看物料管理erp系统如何解决库存积压与缺料难题
大数据·网络·人工智能·安全·信息可视化·精益工程
Elastic 中国社区官方博客5 小时前
使用 Observability Migration Platform 将 Datadog 和 Grafana 的仪表板与告警迁移到 Kibana
大数据·elasticsearch·搜索引擎·信息可视化·全文检索·grafana·datalog
jkyy20146 小时前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹6 小时前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_949925186 小时前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
xiaoduo AI7 小时前
客服机器人问题解决率怎么统计?Agent系统自动判断是否解决,比人工回访准?
大数据·人工智能·机器人
小五兄弟8 小时前
YouTube 肖像检测扩展背后:短剧出海版权保护的技术实现与实战策略
大数据·人工智能