spark的缓存

复制代码
object Cache {
  // spark的缓存
  // 1. cache()
  // 2. persist()
  //    cache()是persist()的一种特殊情况,默认只使用内存

  def main(args: Array[String]): Unit = {
    //创建spark
    val conf = new SparkConf().setAppName("Cache").setMaster("local[*]")
    val sc = new SparkContext(conf)

    sc.setLogLevel("WARN")

    // 创建一个包含大量随机数的RDD
    val rdd = sc.parallelize(1 to 10000000).map(_ => scala.util.Random.nextInt(100))

    //定义一个复杂的转换函数
    def complexTransformation(x: Int): Int = {
      var result = x
      for (i <- 1 to 1000) {
        result = result * 2 % 100
      }
      result
    }

    // val rdd1 = rdd.map(complexTransformation)

    // 缓存rdd
    //val rdd1 = rdd.map(complexTransformation).cache()

    // persist
    val rdd1 = rdd.map(complexTransformation).persist(StorageLevel.DISK_ONLY)

    // 第一次触发行动算子,计算并统计消耗的时间
    val startTime = System.currentTimeMillis()
    val rs1 = rdd1.count()
    val endTime = System.currentTimeMillis()
    println(s"第一次计算结果:$rs1,耗时:${endTime - startTime}毫秒")

    // 第一次触发行动算子,计算并统计消耗的时间
    val startTime1 = System.currentTimeMillis()
    val rs2 = rdd1.count()
    val endTime1 = System.currentTimeMillis()
    println(s"第二次计算结果:$rs2,耗时:${endTime1 - startTime1}毫秒")
  }
}
相关推荐
SelectDB4 小时前
森马服饰从 Elasticsearch 到阿里云 SelectDB 的架构演进之路
大数据·数据库·数据分析
Hello.Reader5 小时前
Elasticsearch 混合检索一句 `retriever.rrf`,把语义召回与关键词召回融合到极致
大数据·elasticsearch·搜索引擎
Freed&5 小时前
倒排索引:Elasticsearch 搜索背后的底层原理
大数据·elasticsearch·搜索引擎·lucene
bemyrunningdog5 小时前
IntelliJIDEA上传GitHub全攻略
大数据·elasticsearch·搜索引擎
Monika Zhang7 小时前
Redis缓存详解及常见问题解决方案
数据库·redis·缓存
Monika Zhang8 小时前
Memcached 缓存详解及常见问题解决方案
数据库·缓存·memcached
TDengine (老段)9 小时前
TDengine 中 TDgp 中添加算法模型(异常检测)
java·大数据·数据库·算法·时序数据库·tdengine·涛思数据
极品小學生9 小时前
Redis真的是单线程的吗?
数据库·redis·缓存
2501_924748249 小时前
高密度客流识别精度↑32%!陌讯多模态融合算法在智慧交通的实战解析
大数据·人工智能·算法·目标检测·计算机视觉
Ice__Cai9 小时前
Django 性能优化详解:从数据库到缓存,打造高效 Web 应用
数据库·后端·python·缓存·性能优化·django