object Cache {
// spark的缓存
// 1. cache()
// 2. persist()
// cache()是persist()的一种特殊情况,默认只使用内存
def main(args: Array[String]): Unit = {
//创建spark
val conf = new SparkConf().setAppName("Cache").setMaster("local[*]")
val sc = new SparkContext(conf)
sc.setLogLevel("WARN")
// 创建一个包含大量随机数的RDD
val rdd = sc.parallelize(1 to 10000000).map(_ => scala.util.Random.nextInt(100))
//定义一个复杂的转换函数
def complexTransformation(x: Int): Int = {
var result = x
for (i <- 1 to 1000) {
result = result * 2 % 100
}
result
}
// val rdd1 = rdd.map(complexTransformation)
// 缓存rdd
//val rdd1 = rdd.map(complexTransformation).cache()
// persist
val rdd1 = rdd.map(complexTransformation).persist(StorageLevel.DISK_ONLY)
// 第一次触发行动算子,计算并统计消耗的时间
val startTime = System.currentTimeMillis()
val rs1 = rdd1.count()
val endTime = System.currentTimeMillis()
println(s"第一次计算结果:$rs1,耗时:${endTime - startTime}毫秒")
// 第一次触发行动算子,计算并统计消耗的时间
val startTime1 = System.currentTimeMillis()
val rs2 = rdd1.count()
val endTime1 = System.currentTimeMillis()
println(s"第二次计算结果:$rs2,耗时:${endTime1 - startTime1}毫秒")
}
}
spark的缓存
只因只因爆2025-05-15 19:40
相关推荐
拾光向日葵3 小时前
2026贵州高职专科报考全问答合集:专业、就业与实力大盘点无忧智库4 小时前
智慧医院的“新基建”:从顶层设计到全栈式智能运维的深度解构(PPT)山楂树の5 小时前
【计算机系统原理】 组相联 Cache 地址划分与访问过程绿算技术5 小时前
OpenClaw × GP Spark:本地智能与极速存储的终极融合monsion6 小时前
Code Agent 的上下文压缩:不是 zip,而是工作记忆管理孤影过客7 小时前
驯服数据巨兽:Hadoop如何重塑大数据的黄金时代第二只羽毛7 小时前
C++ 高并发内存池1开利网络9 小时前
敏捷开发,快速验证:45天让智能体跑起来的落地方法论Crazy CodeCrafter9 小时前
房租年年涨,客流年年少,服装店还要开吗?一只努力的微服务9 小时前
【Calcite 系列】深入理解 Calcite 的 AggregateValuesRule