Flink Standalone 方案中解决挂机问题

Standalone中 可以配置 HighAvailability(HA)部署和配置

首先了解

Flink 实际运行时包括两类进程:

JobManager(又称为 JobMaster):协调 Task 的分布式执行,包括调度 Task、协调创 Checkpoint 以及当 Job failover 时协调各个 Task 从 Checkpoint 恢复等。

TaskManager(又称为 Worker):执行 Dataflow 中的 Tasks,包括内存 Buffer 的分配、Data Stream 的传递等。

这是很多公司开发在部署使用中,没有理解透内部导致,一旦挂机,特别是standlone下,出现无法同步,配置全量同步,数据不一致性产生,启动节点不正确倒是需要用备份方式切换清洗。

解决方案

JobManager 是整个系统中最可能导致系统不可用的角色。如果一个 TaskManager 挂了,在资源足够的情况下,只需要把相关 Task 调度到其他空闲 TaskSlot 上,然后 Job 从 Checkpoint 中恢复即可。而如果当前集群中只配置了一个 JobManager,则一旦 JobManager 挂了,就必须等待这个 JobManager 重新恢复,如果恢复时间过长,就可能导致整个 Job 失败。

因此如果在生产业务使用 Standalone 模式,则需要部署配置 HighAvailability,这样同时可以有多个 JobManager 待命,从而使得 JobManager 能够持续服务。

注意:Flink standalone HA 模式,需要确保基于 Flink Release-1.6.1 及以上版本,因为这里社区有个 bug 会导致这个模式下主 JobManager 不能正常工作。

解决方案2:

相关推荐
快递鸟社区几秒前
快递鸟全球航空航班动态查询
大数据·人工智能
数据皮皮侠AI7 分钟前
顶刊同款!中国地级市风灾风险与损失数据集(2000-2022)|灾害 / 环境 / 经济研究必备
大数据·人工智能·笔记·能源·1024程序员节
xiaoduo AI15 分钟前
客服机器人自定义报表支持定时发送吗?智能 Agent + 邮件推送,能否自动生成运营日报?
大数据·人工智能·机器人
xcbrand16 分钟前
政府事业机构品牌全案公司有哪些
大数据·人工智能·python
无忧智库27 分钟前
破局与狂范:大模型上线备案与全栈架构合规深度解构指南(PPT)
大数据·架构
海兰31 分钟前
Elasticsearch 容量规划与性能优化完全指南
大数据·elasticsearch·性能优化
JoyCong19981 小时前
ToDesk企业版助力伯锐锶:远程连接打破时空壁垒,国产高端电镜跑出“加速度”
大数据·人工智能·经验分享·物联网
Zldaisy3d1 小时前
联泰科技全链路鞋业智造解决方案出海印尼
大数据·人工智能
跨境技工小黎1 小时前
2026TikTok网络配置指南:如何选择可靠的IP网络?
大数据·网络
GuangHeAI_ATing1 小时前
军工企业数据存储如何保障?横向实测三款航天级SSD的可靠性与性能(含湖南天硕G55系列技术拆解)
大数据·数据库·人工智能