【大数据学习 | 面经】Spark3.x对比2.x有哪些优点

1. 性能优化

1.1 自适应查询执行(AQE)

Spark3.x引用了AQE功能,它可以在运行时动态调整查询计划,包括合并小文件,优化join策略等。

1.2 动态分区裁剪

改进了SQL查询中的分区裁剪能力,允许在运行时根据过滤条件更精确的确定需要读取的分区,从而减少不必要的IO操作。

1.3 广播连接优化

增强了广播连接功能,使得广播表的选择更加智能,减少不必要的广播操作,并且可以更好的处理大表与小表之间的连接。

1.4 shuffle处理的优化

改进了shuffle操作的效率,例如通过减少磁盘IO和网络传输加速数据交换过程。

1.5 SQL性能提升

对TPC-DS基准测试中的一些查询性能有显著提升,部分查询的速度提高了2倍到18倍。

2. 易用性和API改进

2.1 统一编程模型

提供了更为统一的编程接口,简化了DataFrame和Dataset API的使用,同时更强了Structured Streaming的功能。

相关推荐
重生之绝世牛码5 小时前
Linux软件安装 —— zookeeper集群安装
大数据·linux·运维·服务器·zookeeper·软件安装
!chen6 小时前
大数据技术领域发展与Spark的性能优化
大数据·性能优化·spark
無森~7 小时前
ZooKeeper
分布式·zookeeper·云原生
大鳥8 小时前
Hive on Spark SQL 性能优化权威指南
hive·sql·spark
Lansonli9 小时前
大数据Spark(七十七):Action行动算子first、collect和collectAsMap使用案例
大数据·分布式·spark
计算机毕业编程指导师9 小时前
【计算机毕设选题】基于Spark的拉勾网招聘数据分析系统源码,Python+Django全流程
大数据·hadoop·python·spark·django·招聘·拉勾网
Msshu1239 小时前
多功能快充诱骗芯片 XSP26支持与主板共用一个Type-C可取电可输出数据
hadoop·mongodb·nosql·memcache·tdengine
CV_J1 天前
RabbitMQ安装
rabbitmq
独自破碎E1 天前
RabbitMQ怎么实现延迟消息?
rabbitmq
小北方城市网1 天前
SpringBoot 集成 RabbitMQ 实战(消息队列解耦与削峰):实现高可靠异步通信
java·spring boot·python·微服务·rabbitmq·java-rabbitmq·数据库架构