Spark_跑批__.checkpoint()为什么比.persist()快

昨天同事和我讨论了一个情况,情况是这样的:

他在跑一个spark程序,跑的时候差不多五六分钟(加了persist的情况),如果不加persist,改为..checkpoint()缓存,速度基本维持在三四分钟左右,速度提升了不少,查了源码和资料,理解了些,先放着,后面再研究吧

例如:

Spark Checkpoint的运行原理和源码实现-腾讯云开发者社区-腾讯云

https://blog.csdn.net/liuyunshengsir/article/details/112647292

相关推荐
roman_日积跬步-终至千里2 小时前
【weaviate】分布式数据写入之LSM树深度解析:读写放大的权衡
分布式
程序员小刘2 小时前
如何开发HarmonyOS 5的分布式通信功能?
分布式·华为·harmonyos 5
Elastic 中国社区官方博客4 小时前
通过 AIOps 、生成式 AI 和机器学习实现更智能的可观测性
大数据·人工智能·elasticsearch·机器学习·搜索引擎·ai·可用性测试
静听山水4 小时前
Hologres 使用 FDW
大数据
Edingbrugh.南空4 小时前
Flink Connector Kafka深度剖析与进阶实践指南
大数据·flink·kafka
测试专家4 小时前
ARINC653分区调度算法的研究与改进
大数据·运维·网络·安全
远方16094 小时前
61-Oracle SQL Monitor-实操
大数据·数据库·sql·oracle·database
云云3214 小时前
Subway Surfers Blast × 亚矩阵云手机:手游矩阵运营的终极变现方案
大数据·人工智能·线性代数·智能手机·矩阵·架构
黑客笔记5 小时前
Bugku-CTF-web
大数据·前端·深度学习·web安全
25405465205 小时前
710SJBH基于Apriori算法的学籍课程成绩关联规则挖掘研究
大数据·算法·spark