Spark_跑批__.checkpoint()为什么比.persist()快

昨天同事和我讨论了一个情况,情况是这样的:

他在跑一个spark程序,跑的时候差不多五六分钟(加了persist的情况),如果不加persist,改为..checkpoint()缓存,速度基本维持在三四分钟左右,速度提升了不少,查了源码和资料,理解了些,先放着,后面再研究吧

例如:

Spark Checkpoint的运行原理和源码实现-腾讯云开发者社区-腾讯云

https://blog.csdn.net/liuyunshengsir/article/details/112647292

相关推荐
呆呆小金人3 小时前
SQL字段对齐:性能优化与数据准确的关键
大数据·数据仓库·sql·数据库开发·etl·etl工程师
zskj_zhyl6 小时前
智慧康养新篇章:七彩喜如何重塑老年生活的温度与尊严
大数据·人工智能·科技·物联网·生活
豆浆whisky7 小时前
Go分布式追踪实战:从理论到OpenTelemetry集成|Go语言进阶(15)
开发语言·分布式·golang
苗壮.7 小时前
「个人 Gitee 仓库」与「企业 Gitee 仓库」同步的几种常见方式
大数据·elasticsearch·gitee
驾数者8 小时前
Flink SQL入门指南:从零开始搭建流处理应用
大数据·sql·flink
乌恩大侠8 小时前
DGX Spark 恢复系统
大数据·分布式·spark
KM_锰8 小时前
flink开发遇到的问题
大数据·flink
happy_king_zi9 小时前
RabbitMQ Quorum 队列与classic队列关系
分布式·rabbitmq
labview_自动化10 小时前
RabbitMQ
分布式·rabbitmq·labview
人大博士的交易之路11 小时前
龙虎榜——20251106
大数据·数学建模·数据分析·缠论·缠中说禅·龙虎榜