Spark_跑批__.checkpoint()为什么比.persist()快

昨天同事和我讨论了一个情况,情况是这样的:

他在跑一个spark程序,跑的时候差不多五六分钟(加了persist的情况),如果不加persist,改为..checkpoint()缓存,速度基本维持在三四分钟左右,速度提升了不少,查了源码和资料,理解了些,先放着,后面再研究吧

例如:

Spark Checkpoint的运行原理和源码实现-腾讯云开发者社区-腾讯云

https://blog.csdn.net/liuyunshengsir/article/details/112647292

相关推荐
金融RPA机器人丨实在智能17 分钟前
从爬虫到AI:亚马逊数据采集工具的进化与应用
大数据·人工智能·数据采集·亚马逊
云畅新视界20 分钟前
从算力到智能资产:Sol long引领A I A g ent赋能设备的价值重构
大数据·人工智能
鹧鸪云光伏4 小时前
光伏财务管理:在阳光与资本的精密计算中前行
大数据·光伏设计
智象科技4 小时前
智象科技赋能金融、证券行业 IT 运维
大数据·运维·网络·数据库·科技·金融·智能运维
WoShop商城源码5 小时前
短视频矩阵系统哪家好?全面解析与推荐
大数据·人工智能·其他·矩阵
best_virtuoso5 小时前
消息队列 2.RabbitMQ
分布式·rabbitmq
WannaRunning5 小时前
可靠消息最终一致性分布式事务解决方案
分布式
倔强的石头1066 小时前
大数据时代下的时序数据库选型指南:基于工业场景的IoTDB技术优势与适用性研究
大数据·时序数据库·iotdb
cts6187 小时前
Milvus分布式数据库工作职责
数据库·分布式·milvus
2401_831501739 小时前
Linux之Zabbix分布式监控篇(二)
数据库·分布式·zabbix