Spark_跑批__.checkpoint()为什么比.persist()快

昨天同事和我讨论了一个情况,情况是这样的:

他在跑一个spark程序,跑的时候差不多五六分钟(加了persist的情况),如果不加persist,改为..checkpoint()缓存,速度基本维持在三四分钟左右,速度提升了不少,查了源码和资料,理解了些,先放着,后面再研究吧

例如:

Spark Checkpoint的运行原理和源码实现-腾讯云开发者社区-腾讯云

https://blog.csdn.net/liuyunshengsir/article/details/112647292

相关推荐
腾视科技TENSORTEC11 分钟前
安全驾驶 智在掌控|腾视科技ES06终端,为车辆运营赋能
大数据·人工智能·科技·安全·ai·车载系统·车载监控
014-code14 分钟前
Dubbo 之 “最速传说”
java·分布式·dubbo
Elastic 中国社区官方博客19 分钟前
测试 Elasticsearch,现在变得更简单了
大数据·运维·elasticsearch·搜索引擎·全文检索
黎阳之光21 分钟前
十五五智赋新程 黎阳之光以AI硬核技术筑造产业数智底座
大数据·人工智能·算法·安全·数字孪生
LF3_24 分钟前
监听数据库binlog日志变化,将变动实时发送到kafka
数据库·分布式·mysql·kafka·binlog·debezium
云蝠呼叫大模型联络中心28 分钟前
零售行业智能客服与客户数据分析:技术架构与实战案例
大数据·人工智能·架构·数据分析·零售·#智能外呼合规·#云蝠智能
逸Y 仙X32 分钟前
文章七:ElasticSearch索引字段类型
java·大数据·elasticsearch·搜索引擎·全文检索
闲猫32 分钟前
企业级分布式系统运维全栈指南
分布式
渔民小镇34 分钟前
告别 Redis/MQ —— ionet 分布式事件总线实战
java·服务器·分布式
DX_水位流量监测34 分钟前
德希科技在线水质浮标站
大数据·水质监测·水质传感器·水质厂家·在线水质浮标站·水质监测系统·水文水利