【大数据学习 | 面经】Spark3.x对比2.x有哪些优点

1. 性能优化

1.1 自适应查询执行(AQE)

Spark3.x引用了AQE功能,它可以在运行时动态调整查询计划,包括合并小文件,优化join策略等。

1.2 动态分区裁剪

改进了SQL查询中的分区裁剪能力,允许在运行时根据过滤条件更精确的确定需要读取的分区,从而减少不必要的IO操作。

1.3 广播连接优化

增强了广播连接功能,使得广播表的选择更加智能,减少不必要的广播操作,并且可以更好的处理大表与小表之间的连接。

1.4 shuffle处理的优化

改进了shuffle操作的效率,例如通过减少磁盘IO和网络传输加速数据交换过程。

1.5 SQL性能提升

对TPC-DS基准测试中的一些查询性能有显著提升,部分查询的速度提高了2倍到18倍。

2. 易用性和API改进

2.1 统一编程模型

提供了更为统一的编程接口,简化了DataFrame和Dataset API的使用,同时更强了Structured Streaming的功能。

相关推荐
IT策士1 天前
Python 中间件系列:消息队列 RabbitMQ 操作
python·中间件·rabbitmq
陆水A2 天前
运输时效预测模型:静态路由时效的计算与验证
大数据·人工智能·算法·spark·数据库开发·etl工程师
SeaTunnel2 天前
Apache SeaTunnel 4 月有何新动作?连接器增强与 Zeta 稳定性提升等亮点速览
大数据·数据仓库·spark·apache·seatunnel
淡定一生23332 天前
spark 3.3+ 之BloomFilter Runtime Filter
大数据·分布式·spark
霑潇雨2 天前
原生 Zookeeper 实现分布式锁案例
java·分布式·zookeeper·云原生·maven
逆境不可逃2 天前
黑马 RabbitMq 高级篇 学习记录
分布式·学习·rabbitmq
学Linux的语莫2 天前
消息队列 MQ 怎么选?RabbitMQ实操
分布式·rabbitmq
薪火铺子3 天前
分布式锁深度实战:从 Redis 到 Zookeeper 深度解析
redis·分布式·zookeeper
逆境不可逃3 天前
黑马 RabbitMq 基础篇 学习记录
学习·rabbitmq·ruby