SparkSQL执行流程与Catalyst优化器

目录

一、SparkSQL运行流程与Catalyst优化器

(1)RDD运行流程

(2)SparkSQL自动优化

(3)Catalyst优化器流程

(4)Catalyst优化器总结

[(5)Spark SQL执行流程](#(5)Spark SQL执行流程)


一、SparkSQL运行流程与Catalyst优化器

(1)RDD运行流程

RDD简要流程

(2)SparkSQL自动优化

RDD的运行会完全安装开发者的代码执行,如果开发者水平有限,RDD的执行效率也会受到影响。而SparkSQL会对写完的代码,执行" 自动优化 ",以提高代码运行效率,比米娜开发者水平影响到代码执行效率。

为什么Spark SQL可以自动优化,而RDD不可以?因为RDD内含数据类型不限格式和结构,而Data Frame 100%是二维表结构,可以针对性的进行优化。Spark SQL的自动优化,依赖于Catalyst优化器。

(3)SparkSQL架构

为了解决过多依赖Hive 的问题,SparkSQL使用了一个新的SQL优化器替代 Hive 中的优化器,这个优化器就是Catalyst,整个SparkSQL的架构大致如下:

1.API层简单的说就是Spark 会通过一些API接受SQL语句.

2.收到SQL语句以后,将其交给Catalyst,Catalyst负责解析SQL,生成执行计划等

3.Catalyst的输出应该是RDD的执行计划.

4.最终交由集群运行.

(3)Catalyst优化器流程

**Step 1:**解析SQL,并且生成AST(抽象语法树,从下往上读)

**Step2:**在AST中加入元数据信息,做这一步主要是为了一些优化,如下图

**Step3:**对已经加入元数据的AST,输入优化器,继续优化,从两种常见的优化开始。

**①断言下推(Predicate Pushdown):**将filter这种可以减少数据集的操作下推,放在Scan的位置,这样就可以减少操作时候的数据量。

如下图:正常流程是先Join,然后做WHERE,断言下推后,会先过滤age,然后再Join,减少Join的数据量提高性能。

**②列值裁剪(Column Pruning):**在断言下推后执行裁剪。

如下图:由于people表之上的操作只用到了id列,所有可以把其他列裁剪掉,这样就可以减少处理的数据量,从而优化处理速度。

还有其余许多优化点,大概一共有一两百种,随着Spark SQL发展也会越来越多,想要了解更多可以查阅Spark源码:org.apache.spark.sql.catalyst.optimizer.Optimizer

Step4:经过上述流程后,产生的AST其实最终还没有办法直接运行,这个AST叫做逻辑计划,结束后,需要生成物理计划,从而生成RDD来运行。

在生成" 物理计划 "的时候,会经过" 成本模型 "对整棵树再次执行优化,选择一个更好的计划,在生成" 物理计划 "以后,因为考虑到性能,所有会使用代码生成,在机器中运行。可以使用queryExecution 方法查看逻辑执行计划,使用explain方法查看物理执行计划

(4)Catalyst优化器总结

catalyst的各种优化细节非常多,大方面的优化点有2个:

①谓词下推(Predicate Pushdown)\断言下推: 将逻辑判断提前到前面,以减少shuffle阶段的数据量。简述,行过滤,提前执行where。

②列值裁剪(Column Pruning): 将加载的列进行裁剪,尽量减少被处理数据的宽度。简述,列过滤,提前规划select的字段数量。

(5)Spark SQL执行流程

1.提交SparkSQL代码

2.catalyst优化

a.生成原始AST语法数

b.标记AST元数据

c.进行断言下推和列值裁剪以及其它方面的优化作用在AST上

d.将最终AST得到,生成执行计划

e.将执行计划翻译为RDD代码

  1. Driver执行环境入口构建(SparkSession)

4.DAG调度器规划逻辑任务

5.TASK调度区分配逻辑任务到具体Executor上工作并监控管理任务

  1. Worker干活.
相关推荐
TDengine (老段)6 分钟前
TDengine 中的关联查询
大数据·javascript·网络·物联网·时序数据库·tdengine·iotdb
直裾4 小时前
Mapreduce的使用
大数据·数据库·mapreduce
麻芝汤圆7 小时前
使用 MapReduce 进行高效数据清洗:从理论到实践
大数据·linux·服务器·网络·数据库·windows·mapreduce
树莓集团7 小时前
树莓集团海南落子:自贸港布局的底层逻辑
大数据
不剪发的Tony老师7 小时前
Hue:一个大数据查询工具
大数据
靠近彗星7 小时前
如何检查 HBase Master 是否已完成初始化?| 详细排查指南
大数据·数据库·分布式·hbase
墨染丶eye8 小时前
数据仓库项目启动与管理
大数据·数据仓库·spark
SelectDB8 小时前
Apache Doris 2025 Roadmap:构建 GenAI 时代实时高效统一的数据底座
大数据·数据库·aigc
遇到困难睡大觉哈哈9 小时前
Git推送错误解决方案:`rejected -> master (fetch first)`
大数据·git·elasticsearch
Roam-G9 小时前
Elasticsearch 证书问题解决
大数据·elasticsearch·jenkins