Apache SeaTunnel 正式发布2.3.5版本,功能增强及多个Bug修复

经过两个月的筹备,我们在2.3.4版本基础上进行了新一轮的迭代,本次更新不仅修复了多个关键问题,还引入了若干重要功能增强和性能优化。

在此,我们先提前感谢社区成员的贡献和支持,如果你想升级最新的版本,快跟我们一起来看看这次更新的亮点吧!

Release Note:https://github.com/apache/seatunnel/releases/tag/2.3.5

下载地址:https://seatunnel.apache.org/download/

主要新功能

支持作业事件通知功能,在此基础上支持实时CDC数据数据延迟事件通知(https://github.com/apache/seatunnel/pull/6634) 用户可以自定义通知消息发送的目标端,这样一旦实时同步数据发延迟,用户就会收到消息。

文件类型的连接器,支持定义读取和写入时使用的字符编码,这在源端和目标端使用不同的字符编码时非常有用。

优化了Postgres CDC创建publication的逻辑,在这个优化之前,添加Postgres CDC的表时创建的publication的范围是ALL_TABLES,这会导致即使只同步少数的几张表也会创建一个针对所有表的发布,会造成PG WAL的无效增长。社区优化了publication的创建逻辑,只针对需要同步的表创建publication,这极大的减小了WAL增长的范围,提交了稳定性。

Zeta引擎支持设置任务的失败重试次数。之前Zeta引擎任务失败会自动重试3次,但有些场景下我们可能希望一但有错任务立即终止,由外部调度系统来进行重试。从2.3.5版本开始,用户可以通过在env中设置job.retry.times = 0来关闭自动重试。

关键Bugfix

Zeta引擎支持classloader cache功能,如果连接器已经加载到jvm中,Zeta引擎会缓存该classloader,下次再提交该种连接器对应的任务会使用缓存的classloader不再创建新的classloader,这种方式解决了提交大量任务时Zeta JVM metaspace内存增长的问题,解决了metaspace内存溢出的bug。

修复了SQL Transform精度丢失的问题,比如timestamp类型的字段可以保留之前的精度信息。

Bug fix

Core

  • fix\] 修复获取 SeaTunnel 空指针异常问题 (#6681)

  • Chore\] 修正文件拼写错误 (#6606)

  • Hotfix\] 修复 Spark 示例问题 (#6486)

Transformer

  • Fix\]\[SQLTransform\] 修复 SQL 转换中的精度丢失问题 (#6553)

Connectors

  • Fix\]\[Kafka-Sink\] 修复 Kafka Sink端选项规则 (#6657)

  • Bug\] 修复 OrcWriteStrategy/ParquetWriteStrategy 在 Kerberos 登录时的问题 (#6472)

  • E2E\] 修复 Amazon DynamoDB 集成测试的不稳定问题 (#6640)

  • Fix\]\[Connector-V2\] 修正 Doris/StarRocks 创建表 SQL 解析错误 (#6580)

  • Fix\]\[Connector-V2\] 修复连接器支持 SPI 但缺少无参构造器的问题 (#6551)

  • Fix\]\[FakeSource\] 修复模板随机生成不包含最新值的问题 (#6438)

  • BugFix\]\[Connector-file-sftp\] 修复 SFTPInputStream.close 未正确触发文件流关闭的问题 (#6323) (#6329)

  • fix\]\[connector-rocketmq\] 修复当 checkpoint.interval 设置过小导致的空指针异常问题 (#6624)

  • Fix\]\[StarRocks\] 修复上游 catalogtable 表路径仅有表名部分时的空指针异常 (#6540)

  • Bug\] \[formats\] 修复内容包含文件分隔符时无法解析行的问题 (#6589)

  • Hotfix\] 修复 HTTP 源无法正确读取 'yyyy-MM-dd HH:mm:ss' 格式并优化日期时间工具 (#6601)

  • Fix\]\[Zeta\] 改进本地模式下的 Hazelcast 连接 (#6521)

  • Bug\] \[zeta\] 修复提交作业时的空指针异常 (#6492)

  • BUG\]\[Zeta\] 工作名称显示错误 #6470

E2E

  • E2E\] 启用 StarRocksCDCSinkIT (#6626)

  • Doc\]\[Improve\] 增加 seatunnel-engine 中文支持 (#6656)

  • Improve\] 为 IDEA 添加图标 (#6394)

  • Improve\]\[RestAPI\] 调用 getJobInfoById API 时始终返回 jobId (#6422)

  • Improve\] 提升 MultiTableSinkWriter 准备提交性能 (#6495)

  • Improve\]\[API\] 统一数据和类型系统 API (#5872)

  • Improve\]\[Connector-V2\] 支持 Redis 的多表汇出功能 (#6314)

  • Improve\]\[Connector-V2\] 支持 HTTP Sink端的多表功能 (#6316)

  • Improve\]\[Connector-V2\] 支持 Hadoop HA 和 Kerberos 的 Paimon Sink端 (#6585)

  • Improve\]\[CDC\] 优化快照分割读取时的内存分配 (#6281)

  • Improve\]\[Jdbc\] 使用 varchar2 数据类型在 Oracle 中存储字符串 (#6392)

  • Improve\]\[JDBC\] 优化获取 JDBC 字段类型的代码风格 (#6583)

  • Improve\]\[Connector-V2\] 支持使用架构配置读取 ORC 并进行类型转换 (#6531)

  • Improve\]\[Jdbc\] 自动创建表时增加类型转换器 (#6617)

  • Improve\]\[CDC\] 优化记录中不包含架构字段时的读取性能 (#6571)

  • Improve\] 在 SelectDB 云Sink端禁用 2PC (#6266)

CI

  • CI\] 修复 CI 配置文件中仓库名称的错误 (#4795)

  • Improve\]\[Zeta\] 增加类加载器缓存模式以修复元空间泄漏 (#6355)

  • Improve\]\[Test\] 代码合并到开发分支时运行所有测试 (#6609)

  • Improve\]\[Zeta\]\[storage\] 更新 HDFS 配置,支持更多参数 (#6547)

Transformer

  • Improve\]\[Transform\] Sql transform 支持内部结构查询 (#6484)

  • Improve\]\[Transform\] 移除找不到字段的异常 (#6691)

  • Feature\]\[Tool\] 增加连接器检查脚本,解决问题 #6199 (#6635)

  • Feature\]\[Core\] 支持作业事件监听 (#6419)

  • Feature\]\[Connector-V2\] 支持 Paimon 的多表汇出功能 #5652 (#6449)

  • Feature\]\[Connector\] 更新 PgSQL-CDC 发布以添加表 (#6309)

  • Feature\]\[Feature\] 支持 Doris DateTimeV2 类型的 (#6358)

  • Feature\]\[Feature\] 支持 Iceberg Sink连接器 #6198 (#6265)

  • Zeta\] 支持在作业配置中设置作业重试次数 (#6690)

  • Docs\] 修复 kafka 格式的拼写错误 (#6633)

  • Fix\]\[Doc\] 修正一些拼写错误 (#6628)

  • Hotfix\]\[Doc\]\[Chinese\] 修复关于配置日志相关参数的无效链接 (#6442)

贡献者名单

感谢所有为2.3.5版本做出贡献的社区成员,包括代码贡献者、文档撰写者和测试人员。Apache SeaTunnel的成功离不开每一个人的努力!

Jetiaime LeonYoah TyrantLucifer
ponxu EricJoy2048 sunxiaojian
xiaochen-zhou CosmosNi lightzhao
baicie Hisoka-X gitfortian
hailin0 ruanwenjun shangeyao
corgy-w liunaijie dailai
taohaozhi1129 LeonYoah nianhua99
xxzuo YalikWang

本文由 白鲸开源科技 提供发布支持!

相关推荐
gaosushexiangji19 分钟前
利用sCMOS科学相机测量激光散射强度
大数据·人工智能·数码相机·计算机视觉
无级程序员3 小时前
大数据平台之ranger与ldap集成,同步用户和组
大数据·hadoop
lifallen4 小时前
Paimon 原子提交实现
java·大数据·数据结构·数据库·后端·算法
TDengine (老段)4 小时前
TDengine 数据库建模最佳实践
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
张先shen4 小时前
Elasticsearch RESTful API入门:全文搜索实战(Java版)
java·大数据·elasticsearch·搜索引擎·全文检索·restful
Elastic 中国社区官方博客4 小时前
Elasticsearch 字符串包含子字符串:高级查询技巧
大数据·数据库·elasticsearch·搜索引擎·全文检索·lucene
张先shen5 小时前
Elasticsearch RESTful API入门:全文搜索实战
java·大数据·elasticsearch·搜索引擎·全文检索·restful
天翼云开发者社区6 小时前
Doris-HDFS LOAD常见问题汇总(二)
大数据·doris
简婷187019987756 小时前
源网荷储 + 零碳园区:一场关于能源与未来的双向奔赴
大数据·人工智能·能源
2201_756776776 小时前
网络安全初级
大数据·elasticsearch·搜索引擎