Presto 之Pipeline

一. 前言

我们知道在Presto中有个叫Pipeline的概念,Pipeline其实就是一条包含各个算子的流水线,如下所示。本文主要介绍在Presto中,Pipeline是如何划分的。

二. Pipeline

在Presto中,一个Stage中包括一个或者多个Pipeline,一个Pipeline中包括多个Driver,数据在同一个Pipeline的内部Driver间数据交换不需要经过网络,在pipeline与pipeline之间也只经过内存Exchange在本地进行数据交换即可。

三. Pipeline切分

Pipeline的管理都在LocalExecutionPlanner类中实现的,在Stage在生成Driver的时候,是否要切分成多个Pipeline时,主要遵循如下几个原则:

  1. 每个Stage至少有有1条Pipeline去执行,主要代码流程如下所示:

    LocalExecutionPlanner::plan
    PhysicalOperation physicalOperation = plan.accept
    context.addDriverFactory // Stage的主pipeline

因为每个Stage都会调用LocalExecutionPlanner::plan生成Operator算子,因此可以保证每个Stage至少有一个pipeline来执行。

  1. 对于Exchange算子时增加一条Pipeline对Source进行并行处理。

    LocalExecutionPlanner::plan
    PhysicalOperation physicalOperation = plan.accept
    ​ visitExchange
    ​ createLocalExchange
    ​ context.addDriverFactory // 对于exchange的source plan,新增一条pipeline处理

  2. 在处理Join算子时增加单独一条Pipeline执行Hash表的创建处理。

    LocalExecutionPlanner::plan
    PhysicalOperation physicalOperation = plan.accept
    ​ visitJoin
    ​ createLookupJoin
    ​ createLookupSourceFactory
    ​ context.addDriverFactory // 对于Hash表的构建,新产生一个pipeline处理

  3. 此外, 还有其他的一些算子也会切分pipeline,比如semi join等,但是原理和上边是一样的,因此不再重复叙述。

相关推荐
EasyGBS8 分钟前
从“联网互通”到“安全可信”:EasyGBS支持GB35114国密协议,覆盖全场景安防合规升级
大数据·人工智能·安全·gb28181·gb35114
优秀的颜11 分钟前
Elasticsearch(7.x)集成
大数据·elasticsearch·jenkins
币小路14 分钟前
BihuoPro 联合凯美国际大酒店:一次“数据平台+实体底盘”的深度耦合
大数据·人工智能
2501_9436953325 分钟前
大专经济信息管理专业,CDA考试的报名条件是什么?
大数据
yhdata1 小时前
68.72亿元!智能家居芯片市场规模锁定,技术迭代催生行业新增长极
大数据·人工智能·智能家居
海兰1 小时前
趣闻生成器搭建
大数据·elasticsearch·搜索引擎
在放️1 小时前
Python 数据分析 · 从简单的 Excel 开始
大数据
SamtecChina20231 小时前
Samtec连接器设计研究 | 载流量:温升为什么重要?
大数据·网络·人工智能·算法·计算机外设
会飞的老朱1 小时前
科技服务型企业如何搭建一体化协同运营体系?
大数据·科技·oa协同办公
打码人的日常分享1 小时前
双碳智慧园区建设方案(PPT)
大数据·运维·网络·云计算·制造