【大数据学习 | 面经】Spark3.x对比2.x有哪些优点

1. 性能优化

1.1 自适应查询执行(AQE)

Spark3.x引用了AQE功能,它可以在运行时动态调整查询计划,包括合并小文件,优化join策略等。

1.2 动态分区裁剪

改进了SQL查询中的分区裁剪能力,允许在运行时根据过滤条件更精确的确定需要读取的分区,从而减少不必要的IO操作。

1.3 广播连接优化

增强了广播连接功能,使得广播表的选择更加智能,减少不必要的广播操作,并且可以更好的处理大表与小表之间的连接。

1.4 shuffle处理的优化

改进了shuffle操作的效率,例如通过减少磁盘IO和网络传输加速数据交换过程。

1.5 SQL性能提升

对TPC-DS基准测试中的一些查询性能有显著提升,部分查询的速度提高了2倍到18倍。

2. 易用性和API改进

2.1 统一编程模型

提供了更为统一的编程接口,简化了DataFrame和Dataset API的使用,同时更强了Structured Streaming的功能。

相关推荐
用户8307196840823 小时前
Spring Boot 集成 RabbitMQ :8 个最佳实践,杜绝消息丢失与队列阻塞
spring boot·后端·rabbitmq
初次攀爬者1 天前
Kafka + ZooKeeper架构基础介绍
后端·zookeeper·kafka
得物技术1 天前
深入剖析Spark UI界面:参数与界面详解|得物技术
大数据·后端·spark
用户8307196840822 天前
RabbitMQ vs RocketMQ 事务大对决:一个在“裸奔”,一个在“开挂”?
后端·rabbitmq·rocketmq
初次攀爬者3 天前
RabbitMQ的消息模式和高级特性
后端·消息队列·rabbitmq
肌肉娃子5 天前
20260227.spark.Spark 性能刺客:千万别在 for 循环里写 withColumn
spark
初次攀爬者5 天前
ZooKeeper 实现分布式锁的两种方式
分布式·后端·zookeeper
B站计算机毕业设计超人6 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计
十月南城6 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark
让我上个超影吧6 天前
消息队列——RabbitMQ(高级)
java·rabbitmq