奇富科技引领大数据调度革命:高效、稳定、实时诊断

日前,在世界最大的开源基金会 Apache旗下最为活跃的项目之一DolphinScheduler组织的分享活动上,奇富科技的数据平台专家刘坤元应邀为国内外技术工作者献上一场题为《Apache DolphinScheduler在奇富科技的优化实践》的精彩分享,为大数据任务调度系统的未来探索出一条新的道路。

刘坤元以一个数仓(数据仓库的简称,指用于存储、分析、报告的数据系统)同学熟知的起夜率指标开启了本次分享。

在建设大数据平台时,企业通常会面临数据生产的稳定性问题,数仓同学在值班期间需要处理各种告警和任务。工作通常从凌晨0:30开始,收到首条告警后起床,不断接到更多电话告警,不得不跑到客厅办公。由于对上下游任务逻辑不太清楚,2:00左右召集其他同学一起处理问题。凌晨3:00时,惊动老板起夜,电话沟通处理方案。5:00,所有任务处理完成后,等待计算数据。7:00睡眼朦胧地起床上班。9:00刚到公司楼下,就被业务人员在工作群里"+1""+1""+10086"地催问数据产出时间,手忙脚乱中开始一天的工作。

"可以说,天下数仓同学苦起夜值班久矣!好消息是,在奇富科技内部,由于引入了Apache DolphinScheduler,起夜率这个核心指标有了83%的下降。"刘坤元说。

谈到Apache DolphinScheduler的引入,刘坤元回顾了奇富科技数据平台工作原本面临的挑战。

由于奇富科技是一家金融科技公司,业务需要保证高可用,所以,奇富科技的调度平台是异地双机房架构,核心工作流会异地双机房运行。这会带来三点困难。

首先,调度任务量大。目前每天调度的工作流实例在3万多,任务实例在14万多。每天调度的任务量非常庞大。每天保障这么多任务实例稳定、无延迟运行,是一个非常大的挑战。

其次,运维复杂。因为每天调度的任务实例非常多,经历了几次调度机器扩容阶段。目前2个调度集群有6台Master、34台Worker机器。而且调度机器处于异地2个城市,增加了很多管理运维复杂性。

第三,SLA要求高。因为要支持的业务带有金融属性,如果调度服务稳定性出问题,导致任务重复调度、漏调度或者异常,损失会非常大。

针对以上三个问题,奇富科技在2022年中着手引入了Apache DolphinScheduler,围绕调度服务稳定,做了两个方向的优化。第一,调度服务稳定性优化。第二、调度服务监控。细节请见《Apache DolphinScheduler 在奇富科技的首个调度异地部署实践》https://mp.weixin.qq.com/s/hAp7IQPWbhaaVuRsW7LtGg

改造之后的效果,刘坤元也给出了几个具体表现:

以前1周到半个月才能完成的数据需求任务,现在3个小时就可以交付;

每天把不同数据源新增200-300T的数据,转化为10000张以上的各类报表,三五个同学就游刃有余;

新增诊断功能后,无需人工干预,系统自动生成诊断报告;

......

在分享活动中,奇富科技性能更稳定、规模更大、功能也更加丰富的数据系统,也引起了金融机构的关注与兴趣。DolphinScheduler提出建议,可以将这一系统产品化并推向市场。

一方面,产品化令金融机构能直接受益于奇富科技的经验,提高数据生产的稳定性,实现更高效的数据处理。金融机构通常面临的如调度任务量大、运维复杂等问题将迎刃而解。

另一方面,奇富科技的经验也将为其他行业提供有价值的启示。数据调度是许多行业都需要面对的问题,因此奇富科技的解决方案不仅局限于金融领域。这有望在各个行业中推动更多创新和效率提升。

活动最后,DolphinScheduler对奇富科技的创新精神和分享精神给予了极高的赞赏:奇富科技的经验分享不仅促进了技术进步,还鼓励了更多公司积极参与开源社区,从中获益,推动了整个金融科技领域向前发展。

相关推荐
My LQS6 分钟前
使用 Redis Stack 向量索引构建大模型问答缓存系统
redis·缓存·ai
小邓睡不饱耶10 分钟前
2026 CSDN榜单封神!3大热门技术+5个大厂案例,新手也能直接抄作业
python·ai
Java后端的Ai之路22 分钟前
【AI大模型开发】-AI 大模型原理深度解析与 API 实战(建议收藏!!!)
人工智能·ai·科普·ai大模型·llm大模型
一切尽在,你来31 分钟前
1.3 环境搭建
人工智能·ai·langchain·ai编程
AI绘画哇哒哒9 小时前
【干货收藏】深度解析AI Agent框架:设计原理+主流选型+项目实操,一站式学习指南
人工智能·学习·ai·程序员·大模型·产品经理·转行
程序设计实验室9 小时前
AMD显卡也能畅玩AI画图!ROCm+ComfyUI部署全指南
ai·ai画图
bruce_哈哈哈12 小时前
Claude Code--Feishu-Skill-demo
ai
User_芊芊君子13 小时前
HCCL高性能通信库编程指南:构建多卡并行训练系统
人工智能·游戏·ai·agent·测评
慢半拍iii13 小时前
对比源码解读:ops-nn中卷积算子的硬件加速实现原理
人工智能·深度学习·ai·cann
慢半拍iii14 小时前
CANN算子开发实战:手把手教你基于ops-nn仓库编写Broadcast广播算子
人工智能·计算机网络·ai