object Cache {
// spark的缓存
// 1. cache()
// 2. persist()
// cache()是persist()的一种特殊情况,默认只使用内存
def main(args: Array[String]): Unit = {
//创建spark
val conf = new SparkConf().setAppName("Cache").setMaster("local[*]")
val sc = new SparkContext(conf)
sc.setLogLevel("WARN")
// 创建一个包含大量随机数的RDD
val rdd = sc.parallelize(1 to 10000000).map(_ => scala.util.Random.nextInt(100))
//定义一个复杂的转换函数
def complexTransformation(x: Int): Int = {
var result = x
for (i <- 1 to 1000) {
result = result * 2 % 100
}
result
}
// val rdd1 = rdd.map(complexTransformation)
// 缓存rdd
//val rdd1 = rdd.map(complexTransformation).cache()
// persist
val rdd1 = rdd.map(complexTransformation).persist(StorageLevel.DISK_ONLY)
// 第一次触发行动算子,计算并统计消耗的时间
val startTime = System.currentTimeMillis()
val rs1 = rdd1.count()
val endTime = System.currentTimeMillis()
println(s"第一次计算结果:$rs1,耗时:${endTime - startTime}毫秒")
// 第一次触发行动算子,计算并统计消耗的时间
val startTime1 = System.currentTimeMillis()
val rs2 = rdd1.count()
val endTime1 = System.currentTimeMillis()
println(s"第二次计算结果:$rs2,耗时:${endTime1 - startTime1}毫秒")
}
}
spark的缓存
只因只因爆2025-05-15 19:40
相关推荐
陌上丨30 分钟前
Redis内存使用率在95%以上,请问是什么原因?如何解决?LaughingZhu36 分钟前
Product Hunt 每日热榜 | 2026-01-31babe小鑫40 分钟前
中专学历进入快消大厂终端销售岗位的可行性分析samFuB42 分钟前
【工具变量】区县5A级旅游景区DID数据集(2000-2025年)百夜﹍悠ゼ1 小时前
数据治理DataHub安装部署wdfk_prog2 小时前
解决 `git cherry-pick` 引入大量新文件的问题dawdo2222 小时前
自己动手从头开始编写LLM推理引擎(9)-KV缓存实现和优化洛阳纸贵2 小时前
JAVA高级工程师--ElasticsearchTracyCoder1232 小时前
ElasticSearch内存管理与操作系统(二):深入解析 Circuit Breakers(熔断器)机制Moshow郑锴3 小时前
Spark在银行系统ETL中的实战应用:TXT文件到PostgreSQL的余额处理全流程