【大数据学习 | 面经】Spark3.x对比2.x有哪些优点

1. 性能优化

1.1 自适应查询执行(AQE)

Spark3.x引用了AQE功能,它可以在运行时动态调整查询计划,包括合并小文件,优化join策略等。

1.2 动态分区裁剪

改进了SQL查询中的分区裁剪能力,允许在运行时根据过滤条件更精确的确定需要读取的分区,从而减少不必要的IO操作。

1.3 广播连接优化

增强了广播连接功能,使得广播表的选择更加智能,减少不必要的广播操作,并且可以更好的处理大表与小表之间的连接。

1.4 shuffle处理的优化

改进了shuffle操作的效率,例如通过减少磁盘IO和网络传输加速数据交换过程。

1.5 SQL性能提升

对TPC-DS基准测试中的一些查询性能有显著提升,部分查询的速度提高了2倍到18倍。

2. 易用性和API改进

2.1 统一编程模型

提供了更为统一的编程接口,简化了DataFrame和Dataset API的使用,同时更强了Structured Streaming的功能。

相关推荐
墨染丶eye2 小时前
数据仓库项目启动与管理
大数据·数据仓库·spark
陈平安Java and C3 小时前
RabbitMQ简单介绍和安装
rabbitmq
陈平安Java and C3 小时前
RabbitMQ应用2
rabbitmq
东阳马生架构3 小时前
zk基础—3.集群与核心参数一
zookeeper
RainbowSea4 小时前
4. RabbitMQ 发布确认的配置详细说明
java·消息队列·rabbitmq
雨会停rain8 小时前
如何提高rabbitmq消费效率
分布式·rabbitmq
hycccccch8 小时前
RabbitMQ技术方案分析
数据库·rabbitmq
java技术小馆10 小时前
Zookeeper中的Zxid是如何设计的
java·分布式·zookeeper·云原生
Y1nhl15 小时前
Pyspark学习一:概述
数据库·人工智能·深度学习·学习·spark·pyspark·大数据技术