Spark 性能优化（二）：内存模型

在大数据计算和Java（包括Spark）中，**堆内存（On-Heap Memory）和堆外内存（Off-Heap Memory）**是两个重要的概念，主要涉及内存管理、GC（垃圾回收）开销以及性能优化。下面从原理、区别、使用场景等方面进行详细解读。

1. 堆内存（On-Heap Memory）

定义

堆内存指的是 JVM（Java Virtual Machine）管理的内存空间，它由Java进程启动时分配，并受JVM的垃圾回收（GC）机制管理。在Spark、Flink等大数据计算框架中，默认情况下数据对象会存储在堆内存中。

特点

**使用场景：**适用于存放生命周期较短的对象，例如

定义

堆外内存是不受JVM管理的内存 ，即直接向操作系统申请的内存 ，通常是通过sun.misc.Unsafe或ByteBuffer.allocateDirect()进行分配。

特点

使用场景：大数据计算（如Spark、Flink）

java 复制代码

spark.conf.set("spark.memory.offHeap.enabled", true) 
spark.conf.set("spark.memory.offHeap.size", "2g") // 设置2GB的堆外内存

每个Executor的JVM堆内存（-Xmx）主要可以分为以下几个部分：

Reserved Memory（预留内存）
- Spark默认会预留 300MB 内存，它被用来存储各种 Spark 内部对象，例如存储系统中的 BlockManager、DiskBlockManager 等等。
- 这个值可以通过 spark.testing.memory 进行调整（不建议修改）。
User Memory（用户内存）
- 存放用户代码中的数据结构、对象等。
- 例如 collect()、toLocalIterator() 可能会消耗大量此类内存。
- 占用总Executor内存的约 20-30%，但未做严格限制。
Unified Memory（统一内存）
- Spark 2.x 之后引入，Storage Memory 和 Execution Memory 共享内存，提高利用率。
- Spark会动态调整 Storage Memory 和 Execution Memory 之间的比例，优先满足计算需求。
Storage Memory（存储内存）
- 用于缓存 RDD、DataFrame、广播变量等数据。
- 当 Execution Memory 不够时，可能会被回收（动态分配）。
- spark.memory.storageFraction 控制默认比例（默认 0.5）。
Execution Memory（计算内存）
- 用于Shuffle、Sort、Aggregation等操作的临时数据存储。
- spark.memory.fraction 控制分配给 Storage + Execution 的内存比例（默认 0.6）。
- 如果 Execution 需要更多空间，Storage 可能会被回收。

Spark的存储和计算内存默认是堆内存，但可以启用堆外内存优化：

复制代码

spark.conf.set("spark.memory.offHeap.enabled", true)  // 启用堆外内存
spark.conf.set("spark.memory.offHeap.size", "4g")    // 设定4GB堆外内存

合理配置堆内存和堆外内存可以避免OOM（OutOfMemoryError）并提高计算性能