【大话Presto 】- 核心概念

文章目录

前言
[Operator Model And Iterator Model](#Operator Model And Iterator Model)
系统组成
Connector
数据模型
查询执行模型
- Statement
- Stage
- Task
- Split
- Driver
- Operator
- Exchange
- PipeLine
总结

前言

Presto（PrestoDB）是一个FaceBook开源的分布式MPP SQL引擎，旨在处理大规模数据的查询和分析问题。传统数据库系统(eg:Hive)在面对大规模数据和复杂查询需求时存在限制，如数据规模限制、查询速度慢、数据源集成困难等问题。

本文主要介绍下Presto基本的核心概念。

Operator Model And Iterator Model

MPP核心的迭代器模型；操作模块化；执行计划等模型与实现框架设计，可参考最早的1995年Goetz Graefe发布的encapsulation-volcano论文：

http://daslab.seas.harvard.edu/reading-group/papers/encapsulation-volcano.pdf

论文中首次提出了一种并行SQL的设计，即通过各种Operator（如TableScan、Project、Filter、Aggregate、Exchange、Join等）组成一棵树，树的根节点产生SQL输出，树的叶子节点是各种TableScan，数据从叶子节点流入，一步步被加工直至产生最终结果。这个模型称为Operator Model，这棵树我们称之为执行计划（Plan，在传统数据库里又分为逻辑计划和物理计划）。

在Operator Model执行的过程中，各节点有三种基本状态（或者说要实现三个接口）：Open、GetNext、Close。父节点的接口调用一般会递归调用子节点对应的接口。SQL执行时就从根节点Open开始，然后不断调其GetNext接口得到一行输出（后续演变为得到RowBatch），直到没有结果为止，最后调Close。这个模型称为Iterator Model。

系统组成

Presto是典型的M/S架构的系统，由一个Coordinator节点和多个Worker节点组成。 Coordinator负责如下工作：

● 接收用户查询请求，解析并生成执行计划，下发Worker节点执行。

● 监控Worker节点运行状态，各个Worker节点与Coordinator节点保持心跳连接，汇报节点状态。

● 维护MetaStore数据。

Worker节点负责执行下发到任务，通过连接器读取外部存储系统到数据，进行处理，并将处理结果发送给Coordinator节点。

Presto最初不支持高可用架构, 后面FaceBook提出了一个新的设计：一个分解的协调器（disaggregated coordinator），允许 coordinator 在单个 workers pool 中横向扩展。

Connector

Presto通过内置的各种Connector来接入多种外部数据源。Presto提供了一套标准的SPI接口，您可以使用这套接口开发自己的Connector，以便访问自定义的数据源。

通常，一个Catalog会绑定一种类型的Connector，并在Catalog的Properties文件中进行设置。

数据模型

数据模型即数据的组织形式。Presto使用Catalog、Schema和Table三层结构来管理数据。

● Catalog：一个Catalog可以包含多个Schema，物理上指向一个外部数据源，可以通过Connector访问该数据源。一次查询可以访问一个或多个Catalog。

● Schema：相当于一个数据库实例，一个Schema包含多张数据表。

● Table：数据表，与一般意义上的数据库表相同。

查询执行模型

Presto执行SQL语句，并将这些语句转换为coordinators和workers的分布式集群执行的查询。

Statement

Presto执行ANSI兼容的SQL语句，该标准由子句、表达式和谓词组成。

Query

解析一条语句时，它将其转换为一个查询，并创建一个分布式查询计划，然后将其实现为在Presto worker上运行的一系列相互连接的阶段。语句和查询之间的区别很简单。一条语句可以被认为是传递给Presto的SQL文本(Statement)，而查询则是指为执行该语句而实例化的配置、组件、查询执行计划和优化信息等。一个查询执行包括Stage、Task、Driver、Split、Operator、DataSource组成，这些组件之间通过内部联系共同组成一个查询执行，从而得到SQL语句表述的查询，并得到相应的结果集。

Stage

Presto执行查询时，通过将执行分解为阶段层次结构来执行。例如需要聚合Hive中存储的十亿行的数据，它会创建一个根阶段来聚合其他几个阶段的输出，所有这些阶段都是为了实现分布式查询计划的不同部分而设计的。组成查询的阶段层次结构类似于树。每个查询都有一个根阶段，负责聚合来自其他阶段的输出。阶段是协调器用来建模分布式查询计划，但是阶段本身并不在Presto worker上运行。

Presto 中Stage共分为4种：

Coordinator_Only: 用于执行DDL或者DML语句中最终的表结构创建或者更改
Single: 用于聚合子Stage的输出是数据，并将最终数据输出给终端用户
Fixed: 用于接受其子Stage产生的数据并在集群中对这些数据进行分布式的聚合或者分组计算
Source: 用于直接连接数据源，从数据源读取数据，在读取数据的时候，该阶段也会根据Presto对查询计划执行的优化完成相关的断言下发（Predicate PushDown）和条件过滤
按照数据的流向，我们可以约定越靠近数据源的Stage越处于上游，越远离数据源的Stage越处于下游

create table xxx as select

Task

Stage对分布式查询计划的特定部分建模，但Stage本身并不在Presto Worker上执行。Task是Presto体系结构中的工作项，因为分布式查询计划被分解为一系列Stage，然后转换为Task，然后这些Task作用于或处理Split。Presto Task有输入和输出，就像一个Stage可以由一系列Task并行执行一样，一个Task也可以与一系列驱动程序并行执行。

Split

Split分片，一个分片其实就是一个大的数据集中的一个小的子集，Driver是作用于一个分片上的一系列操作的集合，而每个节点上运行的Task,又包含多个Driver,从而一个Task可以处理多个Split。当Presto执行一个查询时，首先会从Coordinator得到一个表对应的所有的Split,然后Presto就会根据查询执行计划，选择合适的节点运行响应的task处理Split。

这里来看下在HiveConnector中HiveSplit的定义：

Driver

Task包含一个或多个并行Driver。Driver作用于数据并结合Operator以产生输出，然后由一个Task聚合，然后交付给另一个Stage的另一个Task。Driver是操作符实例的序列，它是Presto体系结构中并行度的最低级别。Driver有一个输入和一个输出。

Operator

Operator过滤、加权、消费、转换和生成数据。例如，TableScan从Connector获取数据并生成可被其他Operator使用的数据，筛选Opertaor使用数据并通过对输入数据应用谓词来生成子集。

Exchange

交换在Presto节点之间为查询的不同阶段传输数据。任务将数据生成到输出缓冲区，并使用交换客户机使用来自其他任务的数据。

PipeLine

每个Task执行一个Stage的逻辑，也可以说就是执行一个PlanFragment里的Operator，这些Operator的最佳并行度可能是不同的。比如说做Tablescan的并发可以很大，但做Final Aggregation（如Sort）的并发度只能是一。基于这个考虑，一个PlanFragment又会被切分为若干Pipeline，每个Pipeline由一组Operator组成，这些Operator被设置同样的并行度。Pipeline之间会通过LocalExchangeOperator来传递数据。

在Presto的Web UI里可以看到下面的Pipeline图。Driver的数目就是这个Pipeline的并行度。

总结

如图 Presto的一次执行查询会被分解为多个Stage, Stage之间具有依赖关系，每个Stage由一列的Task组成，每个Stage的task被均分为在每个worker上并行执行，每个Task又由多个Driver组成，每个Driver只能处理一个Split, 且每个Driver由一系列前后相连的operator组成，每个Operator都代表对于一个Split的操作