简介
本系列是flink源码分析的第二个系列,上一个《flink源码分析之集群与资源》分析集群与资源,本系列分析功能组件,kubeclient,rpc,心跳,高可用,slotpool,rest,metrics,future。
本文解释rpc组件,rpc组件用于个核心组件,包括作业管理器,资源管理器和任务管理器之间的通讯。
rpc组件
core包定义rpc基类/抽象类,flink rpc组件是使用akka框架实现,akka框架是基于actor模型的并发框架,本文不深入解释akka和rpc的akka实现的原理
rpc-core
rpc-core定义rpc组件的基类/抽象类
1)RpcEndpoint中提供了集群RPC组件的基本实现,所有需要实现RPC服务的组件都会继承RpcEndpoint抽象类。RpcEndpoint中包含了endpointId,用于唯一标记当前的RPC节点。RpcEndpoint借助RpcService启动内部RpcServer,之后通过RpcServer完成本地和远程线程执行。
2)FencedRpcEndpoint在RpcEndpoint的基础上增加了FencedToken。远程RPC调用时,会对比访问者携带的FencedToken和被访问者的FencedToken,flink实现FencedToken组件Id,主要作用防止被访问组件上下线,访问者访问到下线节点
3)RpcService负责创建和启动RpcServer,同时在RpcService中提供了连接远程RpcEndpoint的方法,创建了相应RpcGateway接口的动态代理类,用于后续执行远程RPC请求。
4)远程或本地的执行请求最终RpcServer实现完成
rpc连接
本节以任务管理器连接资源管理器为例,解释rpc使用原理,首先说明两个事情
1 高可用组件,本系列有专门的介绍flink高可用组件,这里只要了解,高可用组件有两个功能,选主和主节点变更通知
2 资源管理器接入高可用机制,任务管理器连接应该是资源管理器主节点,使用高可用组件获取资源管理器的最新主节点地址
上图是任务管理器连接资源管理器类图
- TaskExecutor启动高可用的主节点变更通知服务
启动由rpc组件启动发起的
-
LeaderRetrievalService通知LeaderRetrievalListener监听器,主节点变更通知服务的启动或者主节点变更都会触发该事件通知,通知返回主节点的地址 leaderAddress
-
这里LeaderRetrievalListener实现是ResourceManagerLeaderListener,TaskExecutor的内部类,ResourceManagerLeaderListener调用TaskExecutor的notifyOfNewResourceManagerLeader
传入获取的最新主节点地址leaderAddress
- TaskExecutor构建和启动TaskExecutorToResourceManagerConnection,TaskExecutorToResourceManagerConnection调用RpcSerevice的connect方法构建RpcGateway,后续可使用RpcGateway调用资源管理器
总结,本文以任务管理器连接资源管理器为例,其他组件间连接类似,初始启动或目标组件主节点变更走的流程一样,依赖高可用组件获取最新的主节点地址,进而使用RpcService获取RpcGateway