flink源码分析之功能组件(四)-slot管理组件I

简介

本系列是flink源码分析的第二个系列,上一个《flink源码分析之集群与资源》分析集群与资源,本系列分析功能组件,kubeclient,rpc,心跳,高可用,slotpool,rest,metrics,future。

本文解释slot管理组件,严格来说,slot管理组件不属于功能组件,而是业务组件,包括slotpool和slotmanage,++资源消费者++ 申请到资源后,在本地管有资源slot,避免**++资源管理器++** 异常导致作业运行失败,同时**++资源管理器++**不可用也不会影响作业的继续执行,只有资源不足时才会导致作业执行失败。

slot管理组件也是实现声明式资源管理核心,值得我们细细分析。本文分析slotpool组件的分配/申请资源,slotpool组件II 分析声明式资源管理

slotpool组件

上图是++slotpool++ **++组件++**的类图

++slotpool++ **++组件++**负责对接资源管理器,分配和申请资源

  • allocatePhysicalSlot 分配资源,申请可用资源后对资源分配

  • requestNewAllocatedSlot 请求待定资源/新资源

++slotpool++ **++组件++**也是flink声明式资源管理的核心

下面详细介绍**++slotpool++** ++组件++ ++的++资源分配,申请资源和声明式管理资源

分配可用资源(simple allocator)

用户提交作业,++分发器++ 接收并分发作业到**++作业管理器++** ,**++调度器++**确定所需资源,申请资源,检查当前可用资源是否足够,如果不足,请求新资源,动态增加资源;若足够,分配资源给任务。

分配还有另一个实现,slot sharing,有比较复杂的资源分配策略,分配策略跟本文主题无关,因此选了比较简单simple allocator

DeclarativeSlotPoolBridge桥接 ++声明式资源池++DeclarativeSlotPool,用声明式SlotPool实现SlotPool,为了简化描述,下面描述不区分DeclarativeSlotPoolBridge和DeclarativeSlotPool

  1. **++调度器++**调用PhysicalSlotProvider的allocatePhysicalSlot分配资源

  2. allocatePhysicalSlot首先tryAllocateFromAvailable,从当前可用资源分配;若当前可用资源不够**++请求新资源++**

  3. tryAllocateFromAvailable调用DeclarativeSlotPoolBridge的

getAvailableSlotsInformation获取资源池的可用资源,其实际最终调用AllocatedSlotPool的getFreeSlotsInformation并组装为SlotInfoAndResources,该类组合了SlotInfo和ResourceProfile,前者是分配信息,后者是资源信息

  1. SlotSelectionStrategy选择策略在可用资源选择一个最合适的,目前基于位置策略

  2. 选出最合适的资源后,PhysicalSlotProvider调用DeclarativeSlotPoolBridge的allocateAvailableSlot分配资源,该方法不是实际分配资源,而是调用DeclarativeSlotPool的

increaseResourceRequirementsBy增加资源请求(声明),该方法触发异步处理资源请求,3.1 notifyNewResourceRequirements深入分析

  1. 最后保留资源,真正的分配在处理资源请求,保留资源AllocatedSlotPool的reserveFreeSlot登记已分配资源AllocatedSlot

  2. 最后调整资源,保留不一定是最终分配,最终分配后调整实际资源情况

最后分析一下

notifyNewResourceRequirements

3.1 notifyNewResourceRequirements

notifyNewResourceRequirements类型Consumer,函数方法

图1

上图是notifyNewResourceRequirements设置和调用的方法,函数是怎么设置?

图2

图1是图2的 connect调用,设置模板S,即service属性

设置方法是哪里调起?

1.ResourceManagerLeaderListener监听**++资源管理器++**选主,获取新主节点的地址

2.ResourceManagerLeaderListener通知JobMaster,调用JobMaster的notifyOfNewResourceManagerLeader方法

3.notifyOfNewResourceManagerLeader启动rpc(重新)连接

  1. rpc连接后,触发onRegistrationSuccess事件方法,然后

DeclarativeSlotPoolService的connectToResourceManager方法,而后者即图1,设置Conumer

总结,++请求新资源++ 主要是调用**++资源管理器++** 的declareRequiredResources方法,该方法用

ResourceManagerLeaderListener和DeclareResourceRequirementServiceConnectionManager绕一下,是为了适应分布式环境下**++资源管理器++**上线下线,主节点选举后获取新主的地址,重新连接后设置ResourceManagerGateway。

请求新资源(request new slots)

请求新资源是分配资源的延申,当前没有足够的可用资源,调度器请求新的资源

类图跟申请和分配资源基本相同,场景实现由相同的类实现

**1. ++调度器++**在分配资源没有获得足够可用资源,

调用SlotPool的requestNewAllocatedSlot,请求新的资源;这里的SlotPool是DeclarativeSlotPoolBridge桥接 DeclarativeSlotPool实现的SlotPool,实现声明式管理的资源池,下面不区分两者

2. DeclarativeSlotPoolBridge调用

increaseResourceRequirementsBy增加资源请求,触发检查资源请求

相关推荐
武子康17 小时前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地
大数据·后端·apache hive
大大大大晴天18 小时前
Flink生产问题排障-Kryo serializer scala extensions are not available
大数据·flink
武子康3 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康4 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP4 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库4 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟4 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人4 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长4 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计
B站计算机毕业设计超人4 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计