【大数据学习 | 面经】Spark3.x对比2.x有哪些优点

1. 性能优化

1.1 自适应查询执行(AQE)

Spark3.x引用了AQE功能,它可以在运行时动态调整查询计划,包括合并小文件,优化join策略等。

1.2 动态分区裁剪

改进了SQL查询中的分区裁剪能力,允许在运行时根据过滤条件更精确的确定需要读取的分区,从而减少不必要的IO操作。

1.3 广播连接优化

增强了广播连接功能,使得广播表的选择更加智能,减少不必要的广播操作,并且可以更好的处理大表与小表之间的连接。

1.4 shuffle处理的优化

改进了shuffle操作的效率,例如通过减少磁盘IO和网络传输加速数据交换过程。

1.5 SQL性能提升

对TPC-DS基准测试中的一些查询性能有显著提升,部分查询的速度提高了2倍到18倍。

2. 易用性和API改进

2.1 统一编程模型

提供了更为统一的编程接口,简化了DataFrame和Dataset API的使用,同时更强了Structured Streaming的功能。

相关推荐
Hoking6 小时前
Kafka集群部署(docker容器方式)SASL认证(zookeeper)
docker·zookeeper·kafka
一弓虽6 小时前
zookeeper 学习
分布式·学习·zookeeper
yt948327 小时前
如何在IDE中通过Spark操作Hive
ide·hive·spark
不吃饭的猪13 小时前
记一次spark在docker本地启动报错
大数据·docker·spark
Leo.yuan15 小时前
实时数据仓库是什么?数据仓库设计怎么做?
大数据·数据库·数据仓库·数据分析·spark
找不到、了17 小时前
深入学习RabbitMQ队列的知识
分布式·rabbitmq
showmethetime17 小时前
RabbitMQ实用技巧
分布式·rabbitmq·ruby
viperrrrrrrrrr718 小时前
大数据学习(130)-zookeeper
大数据·学习·zookeeper
darin_ฅ( ̳• ◡ • ̳)ฅ118 小时前
Linux环境-通过命令查看zookeeper注册的服务
linux·zookeeper
£菜鸟也有梦20 小时前
从0到1,带你走进Flink的世界
大数据·hadoop·flink·spark