spark临时文件较大问题处理

最近使用spark对ods明细表数据进行清洗,由于清洗的表数据量较大,加上集群只有5个节点,磁盘使用率也上去了,导致每次跑spark任务时,都会产生很多临时文件,是由于内存使用完了,就会把临时数据存到磁盘,导致磁盘使用率超过80%以上,spark任务就会报错,具体报错如下:

bash 复制代码
java.io.IOException: No space left on device
java.io.FileNotFoundException: /hadoop/yarn/local/usercache/root/appcache/application_1694660329536_0016/blockmgr-081bea52-e592-4759-8d20-023ae4d85cfa/23/shuffle_0_2193_0.data.1b8c66cc-b32f-46c3-9213-410972743ea4 (No space left on device)

解决方法:

修改yarn的存储路径:

YARN NodeManager Local directories

挂载到磁盘比较大的路径下:

如挂载盘在home目录下,可以使用如下路径:

bash 复制代码
/home/hadoop/yarn/local
相关推荐
Coder_Boy_1 小时前
基于SpringAI的智能运维平台(AI驱动)
大数据·运维·人工智能
智能化咨询2 小时前
(99页PPT)智慧校园XXX学院总体解决方案(附下载方式)
大数据
wang_yb4 小时前
数据分析师的“水晶球”:时间序列分析
大数据·databook
ModestCoder_4 小时前
Git 版本管理教程
大数据·git·elasticsearch
hg01184 小时前
湖南工程机械海外火爆,非洲成为出口新增长极
大数据
乐迪信息5 小时前
乐迪信息:异物入侵识别算法上线,AI摄像机保障智慧煤矿生产稳定
大数据·运维·人工智能·物联网·安全
熬夜敲代码的小N6 小时前
从SEO到GEO:AI时代内容优化的范式革命
大数据·人工智能·计算机网络
DX_水位流量监测6 小时前
压力式水位计的技术特性与应用实践
大数据·网络·人工智能·安全·信息可视化
hg01187 小时前
中企承建的突尼斯光伏项目实现商业运营
大数据
豌豆学姐7 小时前
Sora2 能做什么?25 秒视频生成 API 的一次接入实践
大数据·人工智能·小程序·aigc·php·开源软件