【大数据学习 | 面经】Spark3.x对比2.x有哪些优点

1. 性能优化

1.1 自适应查询执行(AQE)

Spark3.x引用了AQE功能,它可以在运行时动态调整查询计划,包括合并小文件,优化join策略等。

1.2 动态分区裁剪

改进了SQL查询中的分区裁剪能力,允许在运行时根据过滤条件更精确的确定需要读取的分区,从而减少不必要的IO操作。

1.3 广播连接优化

增强了广播连接功能,使得广播表的选择更加智能,减少不必要的广播操作,并且可以更好的处理大表与小表之间的连接。

1.4 shuffle处理的优化

改进了shuffle操作的效率,例如通过减少磁盘IO和网络传输加速数据交换过程。

1.5 SQL性能提升

对TPC-DS基准测试中的一些查询性能有显著提升,部分查询的速度提高了2倍到18倍。

2. 易用性和API改进

2.1 统一编程模型

提供了更为统一的编程接口,简化了DataFrame和Dataset API的使用,同时更强了Structured Streaming的功能。

相关推荐
计算机编程小央姐1 小时前
【Spark+Hive+hadoop】基于spark+hadoop基于大数据的人口普查收入数据分析与可视化系统
大数据·hadoop·数据挖掘·数据分析·spark·课程设计
即兴随缘8 小时前
【RabbitMQ】主题(Topics)与主题交换机(Topic Exchange)
rabbitmq·.net
计算机毕设残哥11 小时前
【Spark+Hive+hadoop】人类健康生活方式数据分析
大数据·hive·hadoop·python·数据分析·spark·dash
某zhuan18 小时前
云计算实验2——CentOS中zookeeper的安装
zookeeper·centos·云计算
菠菠萝宝21 小时前
【Java八股文】13-中间件面试篇
java·docker·kafka·rabbitmq·canal·rocketmq·es
IT研究室1 天前
大数据毕业设计选题推荐-基于大数据的农产品交易数据分析与可视化系统-Spark-Hadoop-Bigdata
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
qyhua1 天前
RabbitMQ 核心组件详解与持久化日志队列实现方案
分布式·rabbitmq
想你依然心痛1 天前
Spark大数据分析与实战笔记(第五章 HBase分布式数据库-05)
数据库·分布式·spark
zcz16071278211 天前
从 ZooKeeper 到 ELK:分布式中间件与日志分析系统全解析
分布式·elk·zookeeper
承悦赋1 天前
微服务通信:5大消息队列横向对比
微服务·架构·kafka·rabbitmq·rocketmq