大数据学习(31)-Spark非常用及重要特性

&&大数据学习&&
🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门

💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


spark中引入过很多不常用的特性。但是非常重要的特性。

  1. 动态分区裁剪(Dynamic Partition Pruning):在查询过程中,Spark可以根据已经读取的数据动态地裁剪不需要的分区,从而减少数据的扫描量,提高查询效率。这个特性在处理大规模数据集时非常有用,可以大大减少不必要的计算和数据传输。
  2. 自适应执行优化(Adaptive Execution Optimization):Spark可以根据运行时的统计信息动态地调整执行计划,例如将SortMergeJoin转换为BroadcastHashJoin,或者将大任务拆分成小任务等。这些优化可以提高Spark的执行效率和资源利用率。
  3. 数据源API的改进:Spark提供了更丰富的数据源API,支持更多的数据格式和存储系统。这使得Spark可以更容易地与其他系统进行集成,从而扩展其应用范围。
  4. 更好的内存管理:Spark在内存管理方面进行了改进,可以更高效地利用内存资源。例如,Spark引入了Off-Heap内存管理机制,可以避免在JVM堆内存不足时发生OutOfMemoryError错误。
  5. 更好的错误处理和调试支持:Spark提供了更详细的错误信息和调试支持,可以帮助开发人员更快地定位和解决问题。
  6. Kubernetes集成:随着容器技术的流行,Spark也提供了与Kubernetes的集成,使得用户可以在Kubernetes集群上部署和管理Spark应用。
  7. Barrier Execution Mode:这个新特性允许Spark在需要所有任务都完成的情况下进行同步操作,例如MPI风格的算法。
  8. Structured Streaming的改进:Structured Streaming是Spark的流处理模块,它在每个新版本中都会得到改进和优化,以提供更好的性能和易用性。

以上仅仅是部分spark在执行过程中的重要知识,这里只做了简要解释与介绍。深入了解可以看看其他博主的文章。上述的SortMergeJoin转换为BroadcastHashJoin在之前的文章中有提及过,还有hive的内存管理机制等等,在我的主页都可以查看。

相关推荐
滴图服务-七七1 天前
滴滴地图:精准定位赋能企业数字化转型
大数据·人工智能·地图服务·甲级测绘资质·商业授权
V搜xhliang02461 天前
AI智能体的数据安全与合规实践
人工智能·学习·数据分析·自动化·ai编程
无敌的牛1 天前
redis学习过程
数据库·redis·学习
旅僧1 天前
Π环境部署(运行 且 无理论讲解)
学习
jushi89991 天前
Lucas Chess R国际象棋、中国象棋、日本将棋、五子棋训练学习工具游戏软件
学习
自传.1 天前
尚硅谷 Vibe Coding|第一章 AI 编程基础理论 学习笔记
笔记·学习·尚硅谷·vibe coding
科技互联.1 天前
破解数据治理效率瓶颈:2026年Data Agent驱动的数据中台能力横向测评
大数据
DataX_ruby821 天前
2026年数据中台厂商市场份额分析
大数据·人工智能·数据治理·数据中台
吃好睡好便好1 天前
改变时间轴的跨度
学习·生活
fox_lht1 天前
15.3.改进我们之前的输入、输出项目
开发语言·后端·学习·rust