Spark_跑批__.checkpoint()为什么比.persist()快

昨天同事和我讨论了一个情况,情况是这样的:

他在跑一个spark程序,跑的时候差不多五六分钟(加了persist的情况),如果不加persist,改为..checkpoint()缓存,速度基本维持在三四分钟左右,速度提升了不少,查了源码和资料,理解了些,先放着,后面再研究吧

例如:

Spark Checkpoint的运行原理和源码实现-腾讯云开发者社区-腾讯云

https://blog.csdn.net/liuyunshengsir/article/details/112647292

相关推荐
TGITCIC32 分钟前
数据基座觉醒!大数据+AI如何重构企业智能决策金字塔(下)
大数据·大数据ai·大模型落地·大模型大数据·ai与大数据结合·大数据集成ai·企业ai
shangjg31 小时前
Kafka ACK机制详解:数据可靠性与性能的权衡之道
java·数据库·分布式·后端·kafka
王禄DUT3 小时前
防疫大数据 第27次CCF-CSP计算机软件能力认证
大数据·c++·算法
北漂老男孩3 小时前
Flink SQL 编程详解:从入门到实战难题与解决方案
大数据·sql·flink
梅一一4 小时前
5款AI对决:Gemini学术封神,但日常办公我选它
大数据·人工智能·数据可视化
telllong5 小时前
几种常用的Agent的Prompt格式
大数据·数据库·prompt
jiedaodezhuti5 小时前
elasticsearch低频字段优化
大数据·elasticsearch·搜索引擎
Smile丶凉轩6 小时前
技术栈ES的介绍和使用
大数据·c++·elasticsearch·搜索引擎
tongjiwenzhang6 小时前
AppTrace 视角下 App 一键拉起:提升应用转化率的高效方案
大数据
[email protected]7 小时前
Asp.Net Core SignalR的分布式部署
分布式·后端·asp.net·.netcore