Flink入门之核心概念(三)

任务槽

  • TaskSlots: 任务槽,是TaskManager提供的用于执行Task的资源(CPU + 内存)

  • TaskManager提供的TaskSlots的个数:主要由Taskmanager所在机器的CPU核心数来决定,不能超过CPU的最大核心数

    • 1.可以在flink/conf/flink-conf.yaml文件中的numberOfTaskSlot配置
    • 2.在yarn集群中运行flink时,任务槽的个数受到yarn中container的最大CPU数 vcores
  • 一个作业的Task数量如何确定?

    • 1.主要由算子数、算子链数、并行度共同来决定的
    • 2.如果禁用算子链合并,task的数量 = 算子数 * 并行度(并行度相同)
    • 3.如果存在算子链合并,task的数量 = 合并后的算子链数(包含不合并的算子)* 并行度(并行度相同)
  • Slot共享:flink允许将上下游的task共享给同一个slot。但是注意,同一个Task的并行子任务不允许共享

  • 为什么要Slot共享?

    • 1.当我们将资源密集型和非密集型的任务同时放到一个slot中,他们就可以自行分配对资源占用的比例,保证最重的活平均分配给所有的Taskmanager
    • 2.Slot共享另一个好处就是在一个Slot中可以保存完整的作业管道
  • 能不能不共享?

    • 通过设置共享组(算子.slotSharingGroup("共享组名"))来实现共享或者不共享,默认的共享组为default,从source端往后传递,如果下游的算子没有具体设置共享组
  • 一个作业的并行度如何确定?

    • 作业的并行度由当前作业中并行度最大的算子的并行度决定
    • 一个作业需要多少个TaskSlot如何确定?
    • 作业需要多少个taskSlot由作业的并行度决定(前提是slot共享)

Yarn应用模式作业提交流程

  1. 客户端提交任务,Yarn的ResourceManager启动AM
  2. AM中的Actor通信系统
    • 启动资源管理器
    • 启动分发器
      • 分发器启动JobMaster
  3. JobMaster
    • 生成逻辑流图
    • 生成作业流图
    • 生成执行流图
    • 向资源管理器 注册请求Slot
  4. 资源管理器向Yarn的Resource manager申请资源
  5. Resource Manager启动TaskManager
  6. TaskManager向AM中的资源管理器注册需要的Slot
  7. AM的资源管理器分配slot给TaskManager
  8. JobMaster获取目前TaskManager现有的Slot个数
  9. JobMaster分配任务给各个TaskManager,各个TaskManager生成相应的物理流图并执行。
相关推荐
NiceCloud喜云14 分钟前
Opus 4.8 的 Effort Control 怎么选:Low 到 Max 五档策略
android·java·大数据·前端·c++·python·spring
Are_You_Okkk_42 分钟前
基于MonkeyCode解析AI研发新模式,根治开发低效痛点
大数据·人工智能·开源·ai编程
阿坤带你走近大数据1 小时前
Paimon相关概念的介绍
flink·数据湖·paimon
科技AI训练师2 小时前
2026高压清洗泵厂家选择指南:判断标准与选购要点
大数据·人工智能
Percent_bigdata2 小时前
“模数共振”开启产业AI新阶段,重新定义数据治理
大数据·人工智能
狒狒热知识3 小时前
2026年AI传播新闻软文营销发布当下178软文网领衔发展路径
大数据·人工智能
出海小龙4 小时前
B2B 跟 B2C 的联盟营销有何根本区别?以及分别如何真正推动增长?
大数据·人工智能
QiLinkOS4 小时前
【从实验室到商业战场:发明专利如何重塑科技与企业的共生生态】
大数据·c语言·数据结构·c++·人工智能·单片机·算法
不做无法实现的梦~4 小时前
git指令速查
大数据·elasticsearch·搜索引擎