Spark_跑批__.checkpoint()为什么比.persist()快

昨天同事和我讨论了一个情况,情况是这样的:

他在跑一个spark程序,跑的时候差不多五六分钟(加了persist的情况),如果不加persist,改为..checkpoint()缓存,速度基本维持在三四分钟左右,速度提升了不少,查了源码和资料,理解了些,先放着,后面再研究吧

例如:

Spark Checkpoint的运行原理和源码实现-腾讯云开发者社区-腾讯云

https://blog.csdn.net/liuyunshengsir/article/details/112647292

相关推荐
云启数智YQ21 小时前
企业进行大数据迁移的注意事项有些什么?
大数据·大文件传输·跨国文件传输·内外网文件传输·大文件传输软件
房产中介行业研习社21 小时前
嘉兴国商区2026年1月品质楼盘推荐
大数据·人工智能·房产直播技巧·房产直播培训
巧克力味的桃子1 天前
Spark 课程核心知识点复习汇总
大数据·分布式·spark
金刚猿1 天前
工作流调度平台 Dolphinscheduler - Standalone 单机部署 + Flink 部署【kafka消息推送、flink 消费】
大数据·flink
木风小助理1 天前
解读 SQL 累加计算:从传统方法到窗口函数
大数据·数据库·sql
SeaTunnel1 天前
Apache SeaTunnel 2025 案例精选重磅发布!
大数据·开源·apache·seatunnel·案例
Java 码农1 天前
RabbitMQ集群部署方案及配置指南05
分布式·rabbitmq
竹君子1 天前
新能源知识库(167)什么是章鱼能源?
大数据·人工智能·能源
小马爱打代码1 天前
ZooKeeper:五种经典应用场景
分布式·zookeeper·云原生
期货资管源码1 天前
外盘期货资管分仓软件源码搭建教程
大数据·源代码管理