Spark_跑批__.checkpoint()为什么比.persist()快

昨天同事和我讨论了一个情况,情况是这样的:

他在跑一个spark程序,跑的时候差不多五六分钟(加了persist的情况),如果不加persist,改为..checkpoint()缓存,速度基本维持在三四分钟左右,速度提升了不少,查了源码和资料,理解了些,先放着,后面再研究吧

例如:

Spark Checkpoint的运行原理和源码实现-腾讯云开发者社区-腾讯云

https://blog.csdn.net/liuyunshengsir/article/details/112647292

相关推荐
计算机毕设定制辅导-无忧学长4 小时前
TDengine 集群高可用方案设计(一)
大数据·时序数据库·tdengine
言之。4 小时前
别学了,打会王者吧
java·python·mysql·容器·spark·php·html5
龙仔7255 小时前
离线安装rabbitmq全流程
分布式·rabbitmq·ruby
技术项目引流7 小时前
elasticsearch查询中的特殊字符影响分析
大数据·elasticsearch·搜索引擎
EasyDSS7 小时前
视频监控从安装到优化的技术指南,视频汇聚系统EasyCVR智能安防系统构建之道
大数据·网络·网络协议·音视频
lilye668 小时前
精益数据分析(20/126):解析经典数据分析框架,助力创业增长
大数据·人工智能·数据分析
苏小夕夕8 小时前
spark-streaming(二)
大数据·spark·kafka
珈和info8 小时前
珈和科技助力“农险提效200%”!“遥感+”技术创新融合省级示范项目荣登《湖北卫视》!
大数据·科技·无人机·智慧农业
盈达科技8 小时前
盈达科技:登顶GEO优化全球制高点,以AICC定义AI时代内容智能优化新标杆
大数据·人工智能