Spark_跑批__.checkpoint()为什么比.persist()快

昨天同事和我讨论了一个情况,情况是这样的:

他在跑一个spark程序,跑的时候差不多五六分钟(加了persist的情况),如果不加persist,改为..checkpoint()缓存,速度基本维持在三四分钟左右,速度提升了不少,查了源码和资料,理解了些,先放着,后面再研究吧

例如:

Spark Checkpoint的运行原理和源码实现-腾讯云开发者社区-腾讯云

https://blog.csdn.net/liuyunshengsir/article/details/112647292

相关推荐
武子康18 分钟前
大数据-207 数据挖掘 机器学习理论 - 多重共线性 矩阵满秩 线性回归算法
大数据·人工智能·算法·决策树·机器学习·矩阵·数据挖掘
电子手信2 小时前
教育机构如何利用知识中台进行数字教学
大数据·人工智能·自然语言处理·自动化
python1562 小时前
Python Pandas内存管理技巧助力高效处理大数据
大数据·python·pandas
新知图书2 小时前
Hadoop完全分布式环境搭建步骤
大数据·hadoop·分布式
zmd-zk3 小时前
[spark面试]spark与mapreduce的区别---在DAG方面
大数据·分布式·面试·spark·mapreduce
java1234_小锋3 小时前
讲讲 kafka 维护消费状态跟踪的方法?
分布式·kafka
Mephisto.java3 小时前
【大数据学习 | kafka】kafka的偏移量管理
大数据·sql·oracle·sqlite·json·hbase
明达技术3 小时前
MR30分布式IO模块与高效PLC协同
分布式·物联网·自动化
B站计算机毕业设计超人4 小时前
计算机毕业设计Hadoop+PySpark深度学习游戏推荐系统 游戏可视化 游戏数据分析 游戏爬虫 Scrapy 机器学习 人工智能 大数据毕设
大数据·人工智能·爬虫·spark·课程设计·数据可视化·推荐算法
Ftrans4 小时前
保障能源电力数据安全:内外网数据交换的最佳实践方案
大数据·安全