【大数据学习 | 面经】Spark3.x对比2.x有哪些优点

Mephisto.java2024-12-03 22:23

1. 性能优化

1.1 自适应查询执行（AQE）

Spark3.x引用了AQE功能，它可以在运行时动态调整查询计划，包括合并小文件，优化join策略等。

1.2 动态分区裁剪

改进了SQL查询中的分区裁剪能力，允许在运行时根据过滤条件更精确的确定需要读取的分区，从而减少不必要的IO操作。

1.3 广播连接优化

增强了广播连接功能，使得广播表的选择更加智能，减少不必要的广播操作，并且可以更好的处理大表与小表之间的连接。

1.4 shuffle处理的优化

改进了shuffle操作的效率，例如通过减少磁盘IO和网络传输加速数据交换过程。

1.5 SQL性能提升

对TPC-DS基准测试中的一些查询性能有显著提升，部分查询的速度提高了2倍到18倍。

2. 易用性和API改进

2.1 统一编程模型

提供了更为统一的编程接口，简化了DataFrame和Dataset API的使用，同时更强了Structured Streaming的功能。

上一篇：Python 3 与 MySQL 的集成：使用 mysql-connector

下一篇：一次Kafka启动失败引出的问题

热门推荐

01GitHub 镜像站点 022026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 03AI科技热点日报 | 2026年07月01日 04【AI】2026 年具身智能模型和世界模型总结 052026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？062026年6月AI大模型全景报告：GPT-5.6、Claude Opus 4.8、Gemini 3.5，中美AI三足鼎立谁主沉浮？072026 年 AI 大模型 & AI 编程工具实战全总结 08Claude Code、Codex、Cursor三分天下：2026年AI编程Agent生态全景剖析 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026年6月AI行业全景：从百模大战到Agent元年，这30天发生了什么？