cdh6.3.2 Flink On Yarn taskmanager任务分配倾斜问题的解决办法

业务场景:

Flink On Yarn任务启动

组件版本:

CDH:6.3.2

Flink:1.13.2

Hadoop:3.0.0

问题描述:

在使用FLink on Yarn调度过程中,发现taskmanager总是分配在集中的几个节点上,集群有11个节点,但每个任务启动,只用到两三个节点,导致这几台服务器负载过高,其他节点又比较空闲。

先介绍yarn的两个参数:

1、yarn.scheduler.fair.assignmultiple

2、yarn.scheduler.fair.max.assign

第一个参数代表是否在一个节点分配多个container,第二个参数代表在一个节点上一次性最多分配几个container。

CDH6.3.0中第一个参数默认为true,则意味着会在一个节点上分配多个container,则会有多个taskmanager。

第二个参数默认为-1,则意味着不限制,则会一次性分配较多container。

问题解决:

第一种:将yarn.scheduler.fair.assignmultiple改为false

第二种:yarn.scheduler.fair.assignmultiple为true,将yarn.scheduler.fair.max.assign指定较小数值

特别感谢:博文https://blog.csdn.net/csdn_chshuai/article/details/124275371

相关推荐
Memory_荒年7 小时前
Flink CDC:数据库的"时光机",让数据流动像德芙一样丝滑!
flink
tian_jiangnan12 小时前
Flink checkopint使用教程
大数据·flink
Justice Young14 小时前
Flink第一章:Flink概述
大数据·flink
大大大大晴天2 天前
Flink技术实践-90%都会踩的状态坑
大数据·flink
lifallen2 天前
Flink Agent 与 Checkpoint:主循环闭环与 Mailbox 事件驱动模型
java·大数据·人工智能·python·语言模型·flink
白眼黑刺猬2 天前
如何构建 Flink SQL 任务的血缘分析
大数据·面试·职场和发展·flink
lifallen2 天前
Flink Agent:ActionTask 与可续跑状态机 (Coroutine/Continuation)
java·大数据·人工智能·语言模型·flink
白眼黑刺猬2 天前
字节二面:订单状态回撤: 支付回调延迟导致的“先退单后下单”乱序,Flink如何利用Watermark和状态处理?
大数据·面试·职场和发展·flink
Vfw3VsDKo2 天前
Flink源码阅读:Netty通信
java·前端·flink
IOFsmLtzR2 天前
Flink Agents 源码解读 --- (5) --- ActionExecutionOperator
microsoft·flink·wpf