spark缓存-persist

存储级别指定

persist:可以通过传入 StorageLevel 参数来指定不同的持久化级别。常见的持久化级别有:

MEMORY_ONLY:将 RDD 以 Java 对象的形式存储在 JVM 的内存中。若内存不足,部分分区将不会被缓存,需要时会重新计算。

MEMORY_AND_DISK:优先把 RDD 以 Java 对象的形式存储在 JVM 的内存中。若内存不足,会把多余的分区存储到磁盘上。

DISK_ONLY:将 RDD 的数据存储在磁盘上。

MEMORY_ONLY_SER:将 RDD 以序列化的 Java 对象形式存储在内存中,相较于 MEMORY_ONLY,序列化后占用的内存空间更小,但读取时需要进行反序列化操作,会带来一定的性能开销。

MEMORY_AND_DISK_SER:优先将 RDD 以序列化的 Java 对象形式存储在内存中,内存不足时存储到磁盘上。

cache:不能指定存储级别,它固定使用 MEMORY_ONLY 存储级别。

Scala 复制代码
​
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}

object Cache {
  //Spark的缓存
  //1.cache()
  //2.persist()
    //cache()是persist()的一种特殊情况



  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Cache").setMaster("local[*]")
    val sc = new SparkContext(conf)

    sc.setLogLevel("WARN")

    //创建一个包含大量随机数的RDD
    val rdd = sc.parallelize(1 to 1000000).map( _=> scala.util.Random.nextInt(100))

    //定义一个复杂的转换函数
    def complexTransformation(x:Int): Int = {
      var result=x
      for(i<-1 to 1000){
        result=result*2%100
      }
      result
    }
    //val rdd1=rdd.map(complexTransformation)

    //缓存rdd
    //val rdd1=rdd.map(complexTransformation).cache()

    //persist
    val rdd1=rdd.map(complexTransformation).persist(StorageLevel.DISK_ONLY)

    //第一次触发行动算子,计算并统计消耗时间
    val startTime=System.currentTimeMillis()
    val rs1=rdd1.collect()
    val endTime=System.currentTimeMillis()
    println("第一次计算消耗时间:"+(endTime - startTime)+"毫秒")

    //第二次触发行动算子,计算并统计消耗时间
    val startTime1=System.currentTimeMillis()
    val rs2=rdd1.collect()
    val endTime1=System.currentTimeMillis()
    println("第二次计算消耗时间:"+(endTime1 - startTime1)+"毫秒")

  }

}

​
相关推荐
Mahir086 小时前
Spring 循环依赖深度解密:从问题本质到三级缓存源码级解析
java·后端·spring·缓存·面试·循环依赖·三级缓存
商业模式源码开发7 小时前
实体门店低获客成本增长案例:3 人转介绍模型 + 消费返还机制落地分析
大数据·商业模式·私域流量
元拓数智8 小时前
智能分析落地卡壳?先补好「数据关系+语义治理」这层技术基建
大数据·分布式·ai·spark·数据关系·语义治理
TDengine (老段)9 小时前
TDengine Tag 设计哲学与 Schema 变更机制
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
sxgzzn10 小时前
新能源场站数智化转型:基于数字孪生与AI的智慧运维管理平台解析
大数据·运维·人工智能
清平乐的技术专栏11 小时前
【Flink学习】(二)Flink 本地环境搭建,运行第一个入门程序
大数据·flink
这是程序猿11 小时前
Spring Boot自动配置详解
java·大数据·前端
ws20190711 小时前
AUTO TECH China 2026广州汽车零部件展:从整机集成迈向核心部件的产业跃升
大数据·人工智能·科技·汽车
humors22111 小时前
从数据到决策:汽车使用成本的精细计算指南
大数据·程序人生
大大大大晴天11 小时前
Flink技术实践:RocksDB 状态后端技术解密
大数据·flink