spark的容错机制

RDD需要多次使用------------spark的容错机制就是RDD数据的存储(持久化)

1、persist持久化机制

1)cache算子

复制代码
"""
将RDD缓存在内存中
cache()
底层调用的还是persist(StorageLevel.MEMORY_ONLY)------如果内存不够,缓存会失败
场景:资源充足,需要将RDD仅缓存在内存中

是一个转换算子
"""

2)persist算子

复制代码
"""
将**RDD**【包含这个RDD的依赖关系】进行缓存,可以**自己指定缓存的级别**【和cache区别】
语法:persist(StorageLevel)
StorageLevel决定了缓存位置和缓存几份

是一个转换算子
"""
# StorageLevel 的级别
# 将RDD缓存在磁盘中
StorageLevel.DISK_ONLY = StorageLevel(True, False, False, False)
StorageLevel.DISK_ONLY_2 = StorageLevel(True, False, False, False, 2)
StorageLevel.DISK_ONLY_3 = StorageLevel(True, False, False, False, 3)

# 将RDD缓存在内存中
StorageLevel.MEMORY_ONLY = StorageLevel(False, True, False, False)
StorageLevel.MEMORY_ONLY_2 = StorageLevel(False, True, False, False, 2)

# 将RDD优先缓存在内存中,如果内存不足,就缓存在磁盘中
StorageLevel.MEMORY_AND_DISK = StorageLevel(True, True, False, False)
StorageLevel.MEMORY_AND_DISK_2 = StorageLevel(True, True, False, False, 2)

# 使用堆外内存
StorageLevel.OFF_HEAP = StorageLevel(True, True, True, False, 1)

# 使用序列化
StorageLevel.MEMORY_AND_DISK_DESER = StorageLevel(True, True, False, True)


"""
常用的
"""
MEMORY_AND_DISK_2
MEMORY_AND_DISK_DESER

3)unpersist 算子 --释放缓存

复制代码
"""
将缓存的RDD进行释放
语法:unpersist
    ------unpersist(blocking=True):等释放完再继续下一步
    
如果不释放,这个Spark程序结束,也会释放这个程序中的所有内存
"""

4)示例

复制代码
sc = SparkContext(conf=conf)
fileRdd = sc.textFile("../resources/1.dat")
cacheRdd = fileRdd.persist(StorageLevel.MEMORY_AND_DISK_2)
print(type(cacheRdd))

cacheRdd.foreach(lambda x: print(x))
time.sleep(20)

cacheRdd.unpersist(blocking=True)

time.sleep(10)

# 使用完后,记得关闭
sc.stop()

将任务运行,运行过程中,发现内存中存储了50M的缓存数据

2、checkpoint检查点机制

为了避免重复构建RDD,可以将RDD进行persist缓存,但是如果缓存丢失,还是会重新构建RDD,怎么解决?------------checkpoint

  • 常用于机器学习和图处理等复杂计算任务中,它帮助减少长链依赖,增加任务的容错能力。

    复制代码
      # 设置一个检查点目录
      sc.setCheckpointDir("../datas/chk/chk1")
      # 将RDD的数据持久化存储在HDFS
      rs_rdd.checkpoint()
      rs_rdd.foreach(print)

    一定要在触发算子之前,调用checkpoint() 否则,检查点中没有数据

面试问题

RDD的cache、persist持久化机制和checkpoint检查点机制有什么区别?

复制代码
cache本质上就是persist(StorageLevel.MEMORY_ONLY) 所以只需要介绍persist和checkpoint的区别即可
1、存储位置:persist存放在内存和本地磁盘,checkpoint放在hdfs等可靠的存储
2、生命周期:persist可以手动释放或者该job执行完自动释放,checkpoint程序执行完仍然存在,不会删除
3、依赖关系:persist不会丢掉RDD之间的依赖链关系,checkpoint会丢掉
相关推荐
喵手2 分钟前
Python爬虫实战:城市公交数据采集实战:从多线路分页到结构化站点序列(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·城市交通数据采集·多线路分页导出csv·sqlite持久化存储
Gain_chance2 分钟前
25-学习笔记尚硅谷数仓搭建-DIM层其余(优惠卷、活动、地区、营销坑位、营销渠道、日期)维度表建表语句、简单分析
数据仓库·笔记·学习
2301_811232987 分钟前
使用Python进行PDF文件的处理与操作
jvm·数据库·python
lead520lyq10 分钟前
Golang GPRC流式传输案例
服务器·开发语言·golang
xyq202411 分钟前
《C 经典100例》
开发语言
深蓝海拓12 分钟前
海康 MV 相机几种Bayer RG像素格式的处理
笔记·python·qt·学习·pyqt
不染尘.12 分钟前
二分算法(优化)
开发语言·c++·算法
只是懒得想了13 分钟前
Go语言ORM深度解析:GORM、XORM与entgo实战对比及最佳实践
开发语言·数据库·后端·golang
点点开心13 分钟前
攻防世界WEB(新手模式)2-5-web2
前端·学习·安全·web安全·网络安全
不吃橘子的橘猫13 分钟前
Verilog HDL基础(概念+模块)
开发语言·学习·算法·fpga开发·verilog