SparkSQL执行流程与Catalyst优化器

目录

一、SparkSQL运行流程与Catalyst优化器

(1)RDD运行流程

(2)SparkSQL自动优化

(3)Catalyst优化器流程

(4)Catalyst优化器总结

[(5)Spark SQL执行流程](#(5)Spark SQL执行流程)


一、SparkSQL运行流程与Catalyst优化器

(1)RDD运行流程

RDD简要流程

(2)SparkSQL自动优化

RDD的运行会完全安装开发者的代码执行,如果开发者水平有限,RDD的执行效率也会受到影响。而SparkSQL会对写完的代码,执行" 自动优化 ",以提高代码运行效率,比米娜开发者水平影响到代码执行效率。

为什么Spark SQL可以自动优化,而RDD不可以?因为RDD内含数据类型不限格式和结构,而Data Frame 100%是二维表结构,可以针对性的进行优化。Spark SQL的自动优化,依赖于Catalyst优化器。

(3)SparkSQL架构

为了解决过多依赖Hive 的问题,SparkSQL使用了一个新的SQL优化器替代 Hive 中的优化器,这个优化器就是Catalyst,整个SparkSQL的架构大致如下:

1.API层简单的说就是Spark 会通过一些API接受SQL语句.

2.收到SQL语句以后,将其交给Catalyst,Catalyst负责解析SQL,生成执行计划等

3.Catalyst的输出应该是RDD的执行计划.

4.最终交由集群运行.

(3)Catalyst优化器流程

**Step 1:**解析SQL,并且生成AST(抽象语法树,从下往上读)

**Step2:**在AST中加入元数据信息,做这一步主要是为了一些优化,如下图

**Step3:**对已经加入元数据的AST,输入优化器,继续优化,从两种常见的优化开始。

**①断言下推(Predicate Pushdown):**将filter这种可以减少数据集的操作下推,放在Scan的位置,这样就可以减少操作时候的数据量。

如下图:正常流程是先Join,然后做WHERE,断言下推后,会先过滤age,然后再Join,减少Join的数据量提高性能。

**②列值裁剪(Column Pruning):**在断言下推后执行裁剪。

如下图:由于people表之上的操作只用到了id列,所有可以把其他列裁剪掉,这样就可以减少处理的数据量,从而优化处理速度。

还有其余许多优化点,大概一共有一两百种,随着Spark SQL发展也会越来越多,想要了解更多可以查阅Spark源码:org.apache.spark.sql.catalyst.optimizer.Optimizer

Step4:经过上述流程后,产生的AST其实最终还没有办法直接运行,这个AST叫做逻辑计划,结束后,需要生成物理计划,从而生成RDD来运行。

在生成" 物理计划 "的时候,会经过" 成本模型 "对整棵树再次执行优化,选择一个更好的计划,在生成" 物理计划 "以后,因为考虑到性能,所有会使用代码生成,在机器中运行。可以使用queryExecution 方法查看逻辑执行计划,使用explain方法查看物理执行计划

(4)Catalyst优化器总结

catalyst的各种优化细节非常多,大方面的优化点有2个:

①谓词下推(Predicate Pushdown)\断言下推: 将逻辑判断提前到前面,以减少shuffle阶段的数据量。简述,行过滤,提前执行where。

②列值裁剪(Column Pruning): 将加载的列进行裁剪,尽量减少被处理数据的宽度。简述,列过滤,提前规划select的字段数量。

(5)Spark SQL执行流程

1.提交SparkSQL代码

2.catalyst优化

a.生成原始AST语法数

b.标记AST元数据

c.进行断言下推和列值裁剪以及其它方面的优化作用在AST上

d.将最终AST得到,生成执行计划

e.将执行计划翻译为RDD代码

  1. Driver执行环境入口构建(SparkSession)

4.DAG调度器规划逻辑任务

5.TASK调度区分配逻辑任务到具体Executor上工作并监控管理任务

  1. Worker干活.
相关推荐
fruge4 分钟前
git上传 项目 把node_modules也上传至仓库了,在文件.gitignore 中忽略node_modules 依然不行
大数据·git·elasticsearch
python资深爱好者37 分钟前
什么容错性以及Spark Streaming如何保证容错性
大数据·分布式·spark
B站计算机毕业设计超人2 小时前
计算机毕业设计hadoop+spark旅游景点推荐 旅游推荐系统 旅游可视化 旅游爬虫 景区客流量预测 旅游大数据 大数据毕业设计
大数据·hadoop·爬虫·深度学习·机器学习·数据可视化·推荐算法
qiquandongkh2 小时前
2025年股指期货和股指期权合约交割的通知!
大数据·金融·区块链
Ray.19983 小时前
优化 Flink 消费 Kafka 数据的速度:实战指南
大数据·flink·kafka
D愿你归来仍是少年3 小时前
Python解析 Flink Job 依赖的checkpoint 路径
大数据·python·flink
说私域4 小时前
利用开源AI智能名片2+1链动模式S2B2C商城小程序构建企业私域流量池的策略与实践
大数据·人工智能·小程序·开源
yinbp5 小时前
bboss v7.3.5来袭!新增异地灾备机制和Kerberos认证机制,助力企业数据安全
大数据·elasticsearch·微服务·etl·restclient·bboss
Elastic 中国社区官方博客5 小时前
Elasticsearch 自动补全搜索 - autocomplete
大数据·数据库·elasticsearch·搜索引擎·全文检索
Elastic 中国社区官方博客10 小时前
Elasticsearch 混合搜索 - Hybrid Search
大数据·人工智能·elasticsearch·搜索引擎·ai·语言模型·全文检索