spark的统一内存管理机制

Spark的统一内存管理机制通过动态分配内存资源来优化计算效率。其核心设计将堆内存划分为统一的内存池,主要包含以下部分:

根据Spark 统一内存管理机制,堆内存被划分为了两块,Storage 和Execution。Storage 主要用于缓存数据,Execution 主要用于缓存在shuffle 过程中产生的中间数据,两者所组成的内存部分称为统一内存,Storage 和Execution 各占统一内存的50%,由于动态占用机制的实现,shuffle 过程需要的内存过大时,会自动占用Storage 的内存区域,因此无需手动进行调节。

一、内存区域划分

  1. 存储内存(Storage Memory)

    用于缓存RDD、广播变量等数据,占比由参数spark.memory.storageFraction控制(默认0.6)。公式表达:

    \\text{存储内存上限} = \\text{堆内存} \\times s \\quad (s \\in \[0.5, 0.9\])

  2. 执行内存(Execution Memory)

    用于Shuffle、Join、聚合等计算过程的临时数据,与存储内存共享剩余空间。


二、动态调整机制

  1. 借用规则

    • 执行内存不足时可借用空闲的存储内存
    • 存储内存不足时可反向借用,但需归还借用的执行内存

      \\text{可用内存} = \\begin{cases} M_{\\text{执行}} + (M_{\\text{存储空闲}} - M_{\\text{借出}}) \& \\text{执行侧不足} \\ M_{\\text{存储}} + (M_{\\text{执行空闲}} - M_{\\text{借出}}) \& \\text{存储侧不足} \\end{cases}

  2. 驱逐机制

    当存储内存被借用且原数据需恢复时,Spark会按LRU策略将部分RDD块溢出到磁盘。


三、溢出处理

当内存不足时,系统自动触发溢出操作:

复制代码
if (内存压力 > 阈值) {
  将Shuffle数据写入磁盘
  清除最近未使用的RDD分区
}

四、优势与监控

  1. 优势

    • 避免静态分区导致的内存浪费
    • 根据任务需求实时调整资源
  2. 监控方式

    通过Spark UI的StorageExecutors页签查看内存使用明细。

提示 :合理设置spark.memory.fraction(默认0.6)和spark.memory.storageFraction可优化性能,需结合具体作业特性调整。

相关推荐
咸鱼2.05 分钟前
【java入门到放弃】Dubbo
java·开发语言·dubbo
JAVA面经实录9176 小时前
Java企业级工程化·终极完整版背诵手册(无遗漏、全覆盖、面试+落地通用)
java·开发语言·面试
小王毕业啦8 小时前
2005-2024年 省级-总抚养比、儿童抚养比、老年人抚养比数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
许彰午8 小时前
CacheSQL(二):主从复制——OpLog 环形缓冲区与故障自动恢复
java·数据库·缓存
2501_927283589 小时前
荣联汇智助力天津艺虹打造“软硬一体”智慧工厂,全流程自动化引领印刷包装行业数智变革
大数据·运维·数据仓库·人工智能·低代码·自动化
Bat U9 小时前
JavaEE|多线程初阶(七)
java·开发语言
还是奇怪10 小时前
AI 提示词工程入门:用好的语言与模型高效对话
大数据·人工智能·语言模型·自然语言处理·transformer
Data_Journal11 小时前
如何使用cURL更改User Agent
大数据·服务器·前端·javascript·数据库
掌心向暖RPA自动化12 小时前
如何获取网页某个元素在屏幕可见部分的中心坐标影刀RPA懒加载坐标定位技巧
java·javascript·自动化·rpa·影刀rpa
日取其半万世不竭12 小时前
Minecraft Java版社区服务器搭建教程(Linux,适合新手)
java·linux·服务器