spark-cache模式

一、RDD持久化

1.什么时候该使用持久化(缓存)

  1. RDD cache & persist 缓存

  2. RDD CheckPoint 检查点

  3. cache & persist & checkpoint 的特点和区别

特点

区别

二、cache & persist 的持久化级别及策略选择

Spark的几种持久化级别:

1.MEMORY_ONLY

2.MEMORY_AND_DISK

3.MEMORY_ONLY_SER

4.MEMORY_AND_DISK_SER

5.DISK_ONLY

6.MEMORY_ONLY_2, MEMORY_AND_DISK_2, 等等

相关推荐
千层冷面13 分钟前
git中多仓库工作的常用命令
大数据·elasticsearch·github
亲爱的非洲野猪27 分钟前
怎么理解使用MQ解决分布式事务 -- 以kafka为例
分布式·kafka
黄雪超1 小时前
Kafka——消费者组重平衡全流程解析
大数据·分布式·kafka
黄雪超1 小时前
Kafka——Kafka控制器
大数据·分布式·kafka
IT闫1 小时前
《深入剖析Kafka分布式消息队列架构奥秘》之Kafka基本知识介绍
分布式·架构·kafka
青云交3 小时前
Java 大视界 -- Java 大数据机器学习模型在金融信用评级模型优化与信用风险动态管理中的应用(371)
java·大数据·机器学习·信用评级·动态风控·跨境金融·小贷风控
Aomnitrix4 小时前
【分布式版本控制系统】Git的使用
分布式·git
conkl4 小时前
构建 P2P 网络与分布式下载系统:从底层原理到安装和功能实现
linux·运维·网络·分布式·网络协议·算法·p2p
笙囧同学6 小时前
基于大数据技术的疾病预警系统:从数据预处理到机器学习的完整实践(后附下载链接)
大数据·网络·机器学习
孟婆来包棒棒糖~10 小时前
SpringCloude快速入门
分布式·后端·spring cloud·微服务·wpf