Spark缓存--cache方法

在Spark 中，cache() 是用于优化计算性能的核心方法之一，但它有许多细节需要深入理解。以下是关于 cache() 的详细技术解析：

简化的 persist() ：cache() 是 persist(StorageLevel.MEMORY_ONLY) 的快捷方式，将数据以反序列化对象的形式存储在内存中。
惰性操作 ：调用 cache() 后，数据不会立即缓存，只有在首次触发行动操作 （如 count(), show(), collect()）时才会执行缓存。
存储级别 ：默认使用 MEMORY_ONLY，若内存不足，未缓存的分区会在后续需要时重新计算。

cache() 对应的 MEMORY_ONLY 存储级别特性：

特性	说明
序列化	数据以反序列化 Java 对象形式存储，读写速度快，但内存占用高。
内存溢出处理	内存不足时，直接丢弃未缓存的分区，后续需要时重新计算（不会写入磁盘）。
容错性	缓存数据丢失时（如节点故障），Spark 根据血缘重新计算。

// 使用 cache 的情况

val cachedRDD = largeRDD.map(complexTransformation).cache()

// 第一次触发行动算子，计算并统计时间

val startTime3 = System.currentTimeMillis()

val result3 = cachedRDD.collect()

val endTime3 = System.currentTimeMillis()

println(s"使用 cache 第一次计算耗时: ${endTime3 - startTime3} 毫秒")

// 第二次触发行动算子，计算并统计时间

val startTime4 = System.currentTimeMillis()

val result4 = cachedRDD.collect()

val endTime4 = System.currentTimeMillis()

println(s"使用 cache 第二次计算耗时: ${endTime4 - startTime4} 毫秒")

println(s"spark.local.dir 的值: ${conf.get("spark.local.dir")}")

sc.stop()