spark的缓存

复制代码
object Cache {
  // spark的缓存
  // 1. cache()
  // 2. persist()
  //    cache()是persist()的一种特殊情况,默认只使用内存

  def main(args: Array[String]): Unit = {
    //创建spark
    val conf = new SparkConf().setAppName("Cache").setMaster("local[*]")
    val sc = new SparkContext(conf)

    sc.setLogLevel("WARN")

    // 创建一个包含大量随机数的RDD
    val rdd = sc.parallelize(1 to 10000000).map(_ => scala.util.Random.nextInt(100))

    //定义一个复杂的转换函数
    def complexTransformation(x: Int): Int = {
      var result = x
      for (i <- 1 to 1000) {
        result = result * 2 % 100
      }
      result
    }

    // val rdd1 = rdd.map(complexTransformation)

    // 缓存rdd
    //val rdd1 = rdd.map(complexTransformation).cache()

    // persist
    val rdd1 = rdd.map(complexTransformation).persist(StorageLevel.DISK_ONLY)

    // 第一次触发行动算子,计算并统计消耗的时间
    val startTime = System.currentTimeMillis()
    val rs1 = rdd1.count()
    val endTime = System.currentTimeMillis()
    println(s"第一次计算结果:$rs1,耗时:${endTime - startTime}毫秒")

    // 第一次触发行动算子,计算并统计消耗的时间
    val startTime1 = System.currentTimeMillis()
    val rs2 = rdd1.count()
    val endTime1 = System.currentTimeMillis()
    println(s"第二次计算结果:$rs2,耗时:${endTime1 - startTime1}毫秒")
  }
}
相关推荐
藦卡机器人3 分钟前
国产机械臂做的比较好的品牌有哪些?
大数据·数据库·人工智能
代码改善世界19 分钟前
CANN深度解构:中国AI系统软件的原创性突破与架构创新
大数据·人工智能·架构
jiunian_cn30 分钟前
【Redis】数据库管理操作
数据库·redis·缓存
java-yi1 小时前
Elasticsearch(ES)核心用法与实战技巧分享
大数据·elasticsearch·搜索引擎
星辰_mya1 小时前
Es之脑裂
大数据·elasticsearch·搜索引擎
難釋懷1 小时前
秒杀优化-基于阻塞队列实现秒杀优化
redis·缓存
搞科研的小刘选手2 小时前
【EI稳定检索会议】第七届计算机信息和大数据应用国际学术会议(CIBDA 2026)
大数据·acm·学术会议·计算机工程·计算机信息·大数据应用·信息与技术
成长之路5142 小时前
【数据集】地级市公共安全基建省内横向压力(2015-2025)
大数据
清水白石0082 小时前
深入解析 LRU 缓存:从 `@lru_cache` 到手动实现的完整指南
java·python·spring·缓存
YangYang9YangYan2 小时前
2026中专大数据专业学习指南
大数据