奇富科技引领大数据调度革命：高效、稳定、实时诊断

日前，在世界最大的开源基金会 Apache旗下最为活跃的项目之一DolphinScheduler组织的分享活动上，奇富科技的数据平台专家刘坤元应邀为国内外技术工作者献上一场题为《Apache DolphinScheduler在奇富科技的优化实践》的精彩分享，为大数据任务调度系统的未来探索出一条新的道路。

刘坤元以一个数仓（数据仓库的简称，指用于存储、分析、报告的数据系统）同学熟知的起夜率指标开启了本次分享。

在建设大数据平台时，企业通常会面临数据生产的稳定性问题，数仓同学在值班期间需要处理各种告警和任务。工作通常从凌晨0:30开始，收到首条告警后起床，不断接到更多电话告警，不得不跑到客厅办公。由于对上下游任务逻辑不太清楚，2:00左右召集其他同学一起处理问题。凌晨3:00时，惊动老板起夜，电话沟通处理方案。5:00，所有任务处理完成后，等待计算数据。7:00睡眼朦胧地起床上班。9:00刚到公司楼下，就被业务人员在工作群里"+1""+1""+10086"地催问数据产出时间，手忙脚乱中开始一天的工作。

"可以说，天下数仓同学苦起夜值班久矣！好消息是，在奇富科技内部，由于引入了Apache DolphinScheduler，起夜率这个核心指标有了83%的下降。"刘坤元说。

谈到Apache DolphinScheduler的引入，刘坤元回顾了奇富科技数据平台工作原本面临的挑战。

由于奇富科技是一家金融科技公司，业务需要保证高可用，所以，奇富科技的调度平台是异地双机房架构，核心工作流会异地双机房运行。这会带来三点困难。

首先，调度任务量大。目前每天调度的工作流实例在3万多，任务实例在14万多。每天调度的任务量非常庞大。每天保障这么多任务实例稳定、无延迟运行，是一个非常大的挑战。

其次，运维复杂。因为每天调度的任务实例非常多，经历了几次调度机器扩容阶段。目前2个调度集群有6台Master、34台Worker机器。而且调度机器处于异地2个城市，增加了很多管理运维复杂性。

第三，SLA要求高。因为要支持的业务带有金融属性，如果调度服务稳定性出问题，导致任务重复调度、漏调度或者异常，损失会非常大。

针对以上三个问题，奇富科技在2022年中着手引入了Apache DolphinScheduler，围绕调度服务稳定，做了两个方向的优化。第一，调度服务稳定性优化。第二、调度服务监控。细节请见《Apache DolphinScheduler 在奇富科技的首个调度异地部署实践》https://mp.weixin.qq.com/s/hAp7IQPWbhaaVuRsW7LtGg

改造之后的效果，刘坤元也给出了几个具体表现：

以前1周到半个月才能完成的数据需求任务，现在3个小时就可以交付；

每天把不同数据源新增200-300T的数据，转化为10000张以上的各类报表，三五个同学就游刃有余；

新增诊断功能后，无需人工干预，系统自动生成诊断报告；

......

在分享活动中，奇富科技性能更稳定、规模更大、功能也更加丰富的数据系统，也引起了金融机构的关注与兴趣。DolphinScheduler提出建议，可以将这一系统产品化并推向市场。

一方面，产品化令金融机构能直接受益于奇富科技的经验，提高数据生产的稳定性，实现更高效的数据处理。金融机构通常面临的如调度任务量大、运维复杂等问题将迎刃而解。

另一方面，奇富科技的经验也将为其他行业提供有价值的启示。数据调度是许多行业都需要面对的问题，因此奇富科技的解决方案不仅局限于金融领域。这有望在各个行业中推动更多创新和效率提升。

活动最后，DolphinScheduler对奇富科技的创新精神和分享精神给予了极高的赞赏：奇富科技的经验分享不仅促进了技术进步，还鼓励了更多公司积极参与开源社区，从中获益，推动了整个金融科技领域向前发展。