spark临时文件较大问题处理

最近使用spark对ods明细表数据进行清洗,由于清洗的表数据量较大,加上集群只有5个节点,磁盘使用率也上去了,导致每次跑spark任务时,都会产生很多临时文件,是由于内存使用完了,就会把临时数据存到磁盘,导致磁盘使用率超过80%以上,spark任务就会报错,具体报错如下:

bash 复制代码
java.io.IOException: No space left on device
java.io.FileNotFoundException: /hadoop/yarn/local/usercache/root/appcache/application_1694660329536_0016/blockmgr-081bea52-e592-4759-8d20-023ae4d85cfa/23/shuffle_0_2193_0.data.1b8c66cc-b32f-46c3-9213-410972743ea4 (No space left on device)

解决方法:

修改yarn的存储路径:

YARN NodeManager Local directories

挂载到磁盘比较大的路径下:

如挂载盘在home目录下,可以使用如下路径:

bash 复制代码
/home/hadoop/yarn/local
相关推荐
云飞云共享云桌面3 分钟前
佛山某机械加工设备工厂10个SolidWorks共享一台服务器的软硬件
大数据·运维·服务器·前端·网络·人工智能·性能优化
百胜软件@百胜软件1 小时前
财务对账提速80%:高并发场景下的快消网销数据治理实践
大数据·人工智能·零售
科技与数码1 小时前
国产MATLAB替代软件的关键能力与生态发展现状
大数据·人工智能·matlab
梦里不知身是客112 小时前
flink运行的一个报错
大数据·flink
wasp5202 小时前
Hudi 元数据管理分析
java·大数据·linux·hudi·数据湖·数据湖仓
海绵波波1072 小时前
Elasticsearch(ES)支持在查询时对时间字段进行筛选
大数据·elasticsearch·搜索引擎
xixixi777772 小时前
移动通信的基石——公共陆地移动网络
大数据·网络·安全·通信·plmn
B站计算机毕业设计之家2 小时前
机器学习:python智能电商推荐平台 大数据 spark(Django后端+Vue3前端+协同过滤 毕业设计/实战 源码)✅
大数据·python·spark·django·推荐算法·电商
TDengine (老段)3 小时前
TDengine 运维命令 SCAN 使用手册
大数据·运维·数据库·物联网·时序数据库·tdengine·涛思数据
mn_kw3 小时前
Spark Shuffle 深度解析与参数详解
大数据·分布式·spark