任务运维、循环任务死锁.....DolphinScheduler任务配置经验分享

在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些任务配置实际经验,分享如下。

一、资源中心任务组上限问题

【资源容量】: 允许任务实例并发的最大数量。

1.1、 现象

当我们部署方式是standalone时,资源容量默认值是 10,如下截图:

如果我们调整这个上限,很容易就出现Task和scheduler failed,这就表示同时运行的任务超过上限了。

1.2、解决方案

所以,如果不改变部署方式,我们尽量去拆分任务运行的时间,不要让同一时间点运行任务过多。

二、任务运维问题

2.1、现象

从如下截图可以看出,每个任务组的资源容量是10。

如果我们把所有的任务都放到几个任务组,那么当任务数量上来之后,比如到达如下图现在800+个,当任务堵塞的时候,以下几百个任务需要停止或者运维,这将是灾难。

2.1、解决方案

所幸各个任务组的容量是分开的,各个任务组之间的互补干扰。 所以,尽量去多拆分任务组,这样就会减少因为任务组上限的问题,造成的性能问题和死锁,以及减少后面运维的工作量。

三、循环任务死锁

3.1、现象

任务组容量默认值是10,且使用了功能 逻辑节点-DYNAMIC。

特点: 这个节点可以循环生成子任务,比如设置了20个循环参数,就会循环生成20个子任务,在子任务没有完全生成运行完成之前,这个循环任务会一直保持"运行中"状态,并占用任务组容量。

这就会导致超过10个循环任务同时执行时,循环任务因为任务组容量的问题,无法生成子任务,然后循环任务无法生成子任务,循环任务本身又不会结束,死锁了。

3.2、解决办法

前置条件: 循环任务虽然配置同时运行,但是循环任务还有前置任务,不会完全同时。

提升子任务的任务组内优先级。

  • 循环任务组内优先级设置为一个较小的数字如 2。

  • 子任务组内有限设置为一个较大的数字如 7。

这样,只要生成子任务就会比循环任务优先级高,这样子任务就会一直生成,并执行完成,循环任务也就完成了。不会死锁。

四、依赖任务死锁

4.1、现象

任务组容量默认值是10,且使用了功能 逻辑节点-DEPENDENT。

特点: 这个节点可以设置前置依赖任务,比如下面这个任务设置了前置依赖任务,在前置依赖任务未完成的情况下,这个任务会一直占用1个容量。

如果任务和前置任务的定时时间,设置反了,后置任务比前置任务先运行,那么当任务数量超过任务组容量时,就会导致依赖任务,一直等待前置任务,但是前置任务无法运行,死锁。

4.2、解决办法

避免配置后置任务的定时器比前置任务时间早。

转载自鹏说大数据

原文链接:blog.csdn.net/pengpenhhh/...

本文由 白鲸开源科技 提供发布支持!

相关推荐
数据猿15 分钟前
【金猿CIO展】如康集团CIO 赵鋆洲:数智重塑“顶牛”——如康集团如何用大数据烹饪万亿肉食产业的未来
大数据
zxsz_com_cn2 小时前
设备预测性维护的意义 工业设备预测性维护是什么
大数据
samLi06203 小时前
【数据集】中国杰出青年名单数据集(1994-2024年)
大数据
成长之路5143 小时前
【数据集】分地市旅游收入数据集(2000-2024年)
大数据·旅游
大厂技术总监下海4 小时前
用户行为分析怎么做?ClickHouse + 嵌套数据结构,轻松处理复杂事件
大数据·数据结构·数据库
大厂技术总监下海4 小时前
大数据生态的“主动脉”:RocketMQ 如何无缝桥接 Flink、Spark 与业务系统?
大数据·开源·rocketmq
2501_933670794 小时前
2026年中专大数据专业可考取的证书
大数据
oMcLin4 小时前
如何在Ubuntu 22.04 LTS上优化PostgreSQL 14集群,提升大数据查询的响应速度与稳定性?
大数据·ubuntu·postgresql
信创天地5 小时前
核心系统去 “O” 攻坚:信创数据库迁移的双轨运行与数据一致性保障方案
java·大数据·数据库·金融·架构·政务
zhyf1195 小时前
Max395(ubuntu24.04)AMD显卡GLM-4.7-UD-IQ1-M量化模型部署手册
大数据·elasticsearch·搜索引擎