object Cache {
// spark的缓存
// 1. cache()
// 2. persist()
// cache()是persist()的一种特殊情况,默认只使用内存
def main(args: Array[String]): Unit = {
//创建spark
val conf = new SparkConf().setAppName("Cache").setMaster("local[*]")
val sc = new SparkContext(conf)
sc.setLogLevel("WARN")
// 创建一个包含大量随机数的RDD
val rdd = sc.parallelize(1 to 10000000).map(_ => scala.util.Random.nextInt(100))
//定义一个复杂的转换函数
def complexTransformation(x: Int): Int = {
var result = x
for (i <- 1 to 1000) {
result = result * 2 % 100
}
result
}
// val rdd1 = rdd.map(complexTransformation)
// 缓存rdd
//val rdd1 = rdd.map(complexTransformation).cache()
// persist
val rdd1 = rdd.map(complexTransformation).persist(StorageLevel.DISK_ONLY)
// 第一次触发行动算子,计算并统计消耗的时间
val startTime = System.currentTimeMillis()
val rs1 = rdd1.count()
val endTime = System.currentTimeMillis()
println(s"第一次计算结果:$rs1,耗时:${endTime - startTime}毫秒")
// 第一次触发行动算子,计算并统计消耗的时间
val startTime1 = System.currentTimeMillis()
val rs2 = rdd1.count()
val endTime1 = System.currentTimeMillis()
println(s"第二次计算结果:$rs2,耗时:${endTime1 - startTime1}毫秒")
}
}
spark的缓存
只因只因爆2025-05-15 19:40
相关推荐
武子康1 天前
大数据-237 离线数仓 - Hive 广告业务实战:ODS→DWD 事件解析、广告明细与转化分析落地大大大大晴天1 天前
Flink生产问题排障-Kryo serializer scala extensions are not available武子康3 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程肌肉娃子4 天前
20260227.spark.Spark 性能刺客:千万别在 for 循环里写 withColumn武子康4 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路DianSan_ERP5 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线够快云库5 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产AI周红伟5 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战B站计算机毕业设计超人5 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)计算机程序猿学长5 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)