object Cache {
// spark的缓存
// 1. cache()
// 2. persist()
// cache()是persist()的一种特殊情况,默认只使用内存
def main(args: Array[String]): Unit = {
//创建spark
val conf = new SparkConf().setAppName("Cache").setMaster("local[*]")
val sc = new SparkContext(conf)
sc.setLogLevel("WARN")
// 创建一个包含大量随机数的RDD
val rdd = sc.parallelize(1 to 10000000).map(_ => scala.util.Random.nextInt(100))
//定义一个复杂的转换函数
def complexTransformation(x: Int): Int = {
var result = x
for (i <- 1 to 1000) {
result = result * 2 % 100
}
result
}
// val rdd1 = rdd.map(complexTransformation)
// 缓存rdd
//val rdd1 = rdd.map(complexTransformation).cache()
// persist
val rdd1 = rdd.map(complexTransformation).persist(StorageLevel.DISK_ONLY)
// 第一次触发行动算子,计算并统计消耗的时间
val startTime = System.currentTimeMillis()
val rs1 = rdd1.count()
val endTime = System.currentTimeMillis()
println(s"第一次计算结果:$rs1,耗时:${endTime - startTime}毫秒")
// 第一次触发行动算子,计算并统计消耗的时间
val startTime1 = System.currentTimeMillis()
val rs2 = rdd1.count()
val endTime1 = System.currentTimeMillis()
println(s"第二次计算结果:$rs2,耗时:${endTime1 - startTime1}毫秒")
}
}
spark的缓存
只因只因爆2025-05-15 19:40
相关推荐
@insist1239 小时前
信息安全工程师考点精讲:身份认证核心原理与分类体系(上篇)天辛大师9 小时前
AI助力旅游扩大化,五一旅游公园通游年票普惠研究WordPress学习笔记10 小时前
镌刻中式美学的高端WordPress主题数智化精益手记局11 小时前
拆解物料管理erp系统的核心功能,看物料管理erp系统如何解决库存积压与缺料难题Elastic 中国社区官方博客12 小时前
使用 Observability Migration Platform 将 Datadog 和 Grafana 的仪表板与告警迁移到 Kibanajkyy201413 小时前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理金融小师妹13 小时前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构2601_9499251813 小时前
AI Agent如何重构跨境物流的决策?xiaoduo AI13 小时前
客服机器人问题解决率怎么统计?Agent系统自动判断是否解决,比人工回访准?小五兄弟14 小时前
YouTube 肖像检测扩展背后:短剧出海版权保护的技术实现与实战策略