spark的缓存

复制代码
object Cache {
  // spark的缓存
  // 1. cache()
  // 2. persist()
  //    cache()是persist()的一种特殊情况,默认只使用内存

  def main(args: Array[String]): Unit = {
    //创建spark
    val conf = new SparkConf().setAppName("Cache").setMaster("local[*]")
    val sc = new SparkContext(conf)

    sc.setLogLevel("WARN")

    // 创建一个包含大量随机数的RDD
    val rdd = sc.parallelize(1 to 10000000).map(_ => scala.util.Random.nextInt(100))

    //定义一个复杂的转换函数
    def complexTransformation(x: Int): Int = {
      var result = x
      for (i <- 1 to 1000) {
        result = result * 2 % 100
      }
      result
    }

    // val rdd1 = rdd.map(complexTransformation)

    // 缓存rdd
    //val rdd1 = rdd.map(complexTransformation).cache()

    // persist
    val rdd1 = rdd.map(complexTransformation).persist(StorageLevel.DISK_ONLY)

    // 第一次触发行动算子,计算并统计消耗的时间
    val startTime = System.currentTimeMillis()
    val rs1 = rdd1.count()
    val endTime = System.currentTimeMillis()
    println(s"第一次计算结果:$rs1,耗时:${endTime - startTime}毫秒")

    // 第一次触发行动算子,计算并统计消耗的时间
    val startTime1 = System.currentTimeMillis()
    val rs2 = rdd1.count()
    val endTime1 = System.currentTimeMillis()
    println(s"第二次计算结果:$rs2,耗时:${endTime1 - startTime1}毫秒")
  }
}
相关推荐
栗子~~7 小时前
JAVA - 二层缓存设计(本地缓冲+redis缓冲+广播所有本地缓冲失效) demo
java·redis·缓存
阿星AI工作室7 小时前
刘润年中大课笔记:一句话说清AI落地之战的本质
大数据·人工智能·创业创新·商业
隔窗听雨眠7 小时前
多活部署、CDN加速与边缘缓存全链路优化实战
缓存
未若君雅裁8 小时前
MyBatis 一级缓存、二级缓存与清理机制
java·缓存·mybatis
1892280486111 小时前
NY352固态MT29F32T08GWLBHD6-24QJ:B
大数据·服务器·人工智能·科技·缓存
不开大的凯207711 小时前
麦当秀AiPPT战略转向:从SaaS订阅迈向Token经济,AI办公定价模式迎来新探索
大数据·人工智能
程序鉴定师11 小时前
西安小程序制作的可靠选择与发展前景
大数据·小程序
黎阳之光11 小时前
黎阳之光:以视频孪生重构智慧医院信息化,打造高标项目核心竞争力
大数据·人工智能·物联网·算法·数字孪生
丷丩12 小时前
三级缓存下MVT地图瓦片服务性能优化策略
算法·缓存·性能优化·gis·geoai-up
qziovv12 小时前
Git 回退场景
大数据·git·elasticsearch