【大数据学习 | 面经】Spark3.x对比2.x有哪些优点

1. 性能优化

1.1 自适应查询执行(AQE)

Spark3.x引用了AQE功能,它可以在运行时动态调整查询计划,包括合并小文件,优化join策略等。

1.2 动态分区裁剪

改进了SQL查询中的分区裁剪能力,允许在运行时根据过滤条件更精确的确定需要读取的分区,从而减少不必要的IO操作。

1.3 广播连接优化

增强了广播连接功能,使得广播表的选择更加智能,减少不必要的广播操作,并且可以更好的处理大表与小表之间的连接。

1.4 shuffle处理的优化

改进了shuffle操作的效率,例如通过减少磁盘IO和网络传输加速数据交换过程。

1.5 SQL性能提升

对TPC-DS基准测试中的一些查询性能有显著提升,部分查询的速度提高了2倍到18倍。

2. 易用性和API改进

2.1 统一编程模型

提供了更为统一的编程接口,简化了DataFrame和Dataset API的使用,同时更强了Structured Streaming的功能。

相关推荐
xuefeiniao6 小时前
使用宝塔安装RabbitMQ,启动不起来
分布式·rabbitmq·ruby
一路向北·重庆分伦7 小时前
05:RabbitMq-高级特性
rabbitmq
阿里云大数据AI技术8 小时前
EMR Serverless Spark 推出 Spark 4.0,加速湖仓架构下的数据处理升级
大数据·人工智能·spark
talen_hx29610 小时前
《零基础入门Spark》学习笔记 Day 17
大数据·笔记·学习·spark
hf20001210 小时前
深入分析:Iceberg v3「删除向量(Deletion Vectors, DV)」如何缓解 CDC 场景写放大
大数据·spark·数据湖·湖仓一体·lakehouse
yaoyouzhong13 小时前
RabbitMQ HAProxy 负载均衡
rabbitmq·负载均衡·ruby
gududexiao14 小时前
RabbitMQ 的介绍与使用
分布式·rabbitmq·ruby
Kristrina14 小时前
RabbitMQ高级特性----生产者确认机制
分布式·rabbitmq
weixin_4196583114 小时前
RabbitMQ 介绍
分布式·rabbitmq
iOS妖狐小北15 小时前
RabbitMQ之交换机
分布式·rabbitmq·ruby