大数据学习(31)-Spark非常用及重要特性

&&大数据学习&&
🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门

💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


spark中引入过很多不常用的特性。但是非常重要的特性。

  1. 动态分区裁剪(Dynamic Partition Pruning):在查询过程中,Spark可以根据已经读取的数据动态地裁剪不需要的分区,从而减少数据的扫描量,提高查询效率。这个特性在处理大规模数据集时非常有用,可以大大减少不必要的计算和数据传输。
  2. 自适应执行优化(Adaptive Execution Optimization):Spark可以根据运行时的统计信息动态地调整执行计划,例如将SortMergeJoin转换为BroadcastHashJoin,或者将大任务拆分成小任务等。这些优化可以提高Spark的执行效率和资源利用率。
  3. 数据源API的改进:Spark提供了更丰富的数据源API,支持更多的数据格式和存储系统。这使得Spark可以更容易地与其他系统进行集成,从而扩展其应用范围。
  4. 更好的内存管理:Spark在内存管理方面进行了改进,可以更高效地利用内存资源。例如,Spark引入了Off-Heap内存管理机制,可以避免在JVM堆内存不足时发生OutOfMemoryError错误。
  5. 更好的错误处理和调试支持:Spark提供了更详细的错误信息和调试支持,可以帮助开发人员更快地定位和解决问题。
  6. Kubernetes集成:随着容器技术的流行,Spark也提供了与Kubernetes的集成,使得用户可以在Kubernetes集群上部署和管理Spark应用。
  7. Barrier Execution Mode:这个新特性允许Spark在需要所有任务都完成的情况下进行同步操作,例如MPI风格的算法。
  8. Structured Streaming的改进:Structured Streaming是Spark的流处理模块,它在每个新版本中都会得到改进和优化,以提供更好的性能和易用性。

以上仅仅是部分spark在执行过程中的重要知识,这里只做了简要解释与介绍。深入了解可以看看其他博主的文章。上述的SortMergeJoin转换为BroadcastHashJoin在之前的文章中有提及过,还有hive的内存管理机制等等,在我的主页都可以查看。

相关推荐
星幻元宇VR16 小时前
消防安全警示教育展厅设备【消防标识互动体验系统】
科技·学习·安全
大大大大晴天️16 小时前
Hudi文件布局:COW与MOR表案例解析
大数据·hudi
库拉大叔16 小时前
大模型AI横评实测:GPT-4与Claude 3.5三大维度对比,落地选型怎么选?
大数据·人工智能
ModelHub XC信创模盒16 小时前
压力之下,重构赛道:从中美AI博弈到信创生态的深层跃迁
大数据·人工智能·重构·开源·信创·范式
keruilai076916 小时前
工业降温从细微之处优化升级 小小改动大幅提升舒适体验
大数据
TG_yunshuguoji16 小时前
亚马逊云代理商:如何用 CloudWatch+Lambda 打造自动化告警系统
大数据·运维·自动化·云计算·aws
我有满天星辰16 小时前
【Dart 语言学习教程 】 第二章:面向对象编程
学习·flutter·dart
迷枫71216 小时前
DCA 考试重点初版
学习
留白_17 小时前
numpy学习
学习·numpy
电商API_1800790524717 小时前
高可用采集架构:分布式定时抓取淘宝商品详情项目设计
大数据·分布式·架构·数据挖掘·网络爬虫