spark3.x新特性

Adaptive Query Execution自适应查询(SparkSQL)

由于缺乏或者不准确的数据统计信息(元数据)和对成本的错误估算(执行计划调度)导致生成的初始执行计划不理想

在Spark3.x版本提供Adaptive Query Execution自适应查询技术

通过在"运行时"对查询执行计划进行优化,允许Planner在运行时执行可选计划,这些可选计划将会基于运行时数据

统计进行动态优化,从而提高性能.

Adaptive Query Execution AQE主要提供了三个自适应优化:

  • 动态合并Shuffle Partitions

    可以动态调整shuffle分区的数量。用户可以在开始时设置相对较多的shuffle分区数,AQE会在运行时将相邻的小分区合并为较大的分区。

  • 动态调整Join策略

    此优化可以在一定程度上避免由于缺少统计信息或着错误估计大小(当然也可能两种情况同时存在),而导致执行计划性能不佳的情况,比如某个join操作中其中一个数据集很小,通过网络io的shuffle次数会比较多。这种自适应优化可以在运行时sort merge join转换成broadcast hash join,从而进一步提升性能,也就是我们之前提到的将小数据集发送到各executor的线程中

  • 动态优化倾斜Join(Skew Joins)

    skew joins可能导致负载的极端不平衡,并严重降低性能。在AQE从shuffle文件统计信息中检测到任何倾斜后,它可以将倾斜的分区分割成更小的分区,并将它们与另一侧的相应分区连接起来。这种优化可以并行化倾斜处理,获得更好的整体性能。A0分组的数据量比较大,会动态给它拆分,达到各分组数据集大小平衡

触发条件:

l.分区大小>spark.sql.adaptive.skewJoin.skewedPartitionFactor(default:=lO)*"median partition size(中位数分区大小)

2.分区大小>spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes(default=256MB)

开启AQE方式

set spark.sql.adaptive.enabled true;

总的来看,我们无需人为设置复杂参数,只需设置AQE,spark就可以自动化优化sparksql查询

动态分区裁剪

该特性无需人为开启,spark3.x会根据具体sparksql语句来实现分区数的动态裁剪,提升性能

koalas API

该api是为了让开发者能在分布式环境中,模拟pandas数据处理,更高效地处理大数据,弥补pandas仅限单节点运行的缺点,我们python开发者就有两种编程选择,pyspark和koalas

相关推荐
2401_883041084 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
青云交4 小时前
大数据新视界 -- 大数据大厂之 Impala 性能优化:融合机器学习的未来之路(上 (2-1))(11/30)
大数据·计算资源·应用案例·数据交互·impala 性能优化·机器学习融合·行业拓展
Json_181790144807 小时前
An In-depth Look into the 1688 Product Details Data API Interface
大数据·json
lzhlizihang7 小时前
【spark的集群模式搭建】Standalone集群模式的搭建(简单明了的安装教程)
spark·standalone模式·spark集群搭建
Qspace丨轻空间9 小时前
气膜场馆:推动体育文化旅游创新发展的关键力量—轻空间
大数据·人工智能·安全·生活·娱乐
Elastic 中国社区官方博客10 小时前
如何将数据从 AWS S3 导入到 Elastic Cloud - 第 3 部分:Elastic S3 连接器
大数据·elasticsearch·搜索引擎·云计算·全文检索·可用性测试·aws
Aloudata11 小时前
从Apache Atlas到Aloudata BIG,数据血缘解析有何改变?
大数据·apache·数据血缘·主动元数据·数据链路
水豚AI课代表11 小时前
分析报告、调研报告、工作方案等的提示词
大数据·人工智能·学习·chatgpt·aigc
拓端研究室TRL14 小时前
【梯度提升专题】XGBoost、Adaboost、CatBoost预测合集:抗乳腺癌药物优化、信贷风控、比特币应用|附数据代码...
大数据
黄焖鸡能干四碗14 小时前
信息化运维方案,实施方案,开发方案,信息中心安全运维资料(软件资料word)
大数据·人工智能·软件需求·设计规范·规格说明书