【大数据学习 | 面经】Spark3.x对比2.x有哪些优点

1. 性能优化

1.1 自适应查询执行(AQE)

Spark3.x引用了AQE功能,它可以在运行时动态调整查询计划,包括合并小文件,优化join策略等。

1.2 动态分区裁剪

改进了SQL查询中的分区裁剪能力,允许在运行时根据过滤条件更精确的确定需要读取的分区,从而减少不必要的IO操作。

1.3 广播连接优化

增强了广播连接功能,使得广播表的选择更加智能,减少不必要的广播操作,并且可以更好的处理大表与小表之间的连接。

1.4 shuffle处理的优化

改进了shuffle操作的效率,例如通过减少磁盘IO和网络传输加速数据交换过程。

1.5 SQL性能提升

对TPC-DS基准测试中的一些查询性能有显著提升,部分查询的速度提高了2倍到18倍。

2. 易用性和API改进

2.1 统一编程模型

提供了更为统一的编程接口,简化了DataFrame和Dataset API的使用,同时更强了Structured Streaming的功能。

相关推荐
小韩学长yyds7 小时前
从入门到精通:RabbitMQ的深度探索与实战应用
分布式·rabbitmq
费曼乐园11 小时前
Zookeeper启动指定JDK版本
zookeeper
B站计算机毕业设计超人12 小时前
计算机毕业设计hadoop+spark股票基金推荐系统 股票基金预测系统 股票基金可视化系统 股票基金数据分析 股票基金大数据 股票基金爬虫
大数据·hadoop·python·spark·课程设计·数据可视化·推荐算法
S-X-S14 小时前
RabbitMQ的消息可靠性保证
分布式·rabbitmq
小林想被监督学习19 小时前
RabbitMQ 在实际应用时要注意的问题
分布式·rabbitmq
S-X-S19 小时前
项目集成RabbitMQ
分布式·rabbitmq
乙卯年QAQ19 小时前
【RabbitMq】RabbitMq高级特性-延迟消息
java·rabbitmq·java-rabbitmq
DA022119 小时前
Win10系统部署RabbitMQ Server
分布式·rabbitmq
费曼乐园21 小时前
Kafka与ZooKeeper
zookeeper·kafka
小白的一叶扁舟1 天前
Kafka 入门与应用实战:吞吐量优化与与 RabbitMQ、RocketMQ 的对比
java·spring boot·kafka·rabbitmq·rocketmq