spark临时文件较大问题处理

最近使用spark对ods明细表数据进行清洗,由于清洗的表数据量较大,加上集群只有5个节点,磁盘使用率也上去了,导致每次跑spark任务时,都会产生很多临时文件,是由于内存使用完了,就会把临时数据存到磁盘,导致磁盘使用率超过80%以上,spark任务就会报错,具体报错如下:

bash 复制代码
java.io.IOException: No space left on device
java.io.FileNotFoundException: /hadoop/yarn/local/usercache/root/appcache/application_1694660329536_0016/blockmgr-081bea52-e592-4759-8d20-023ae4d85cfa/23/shuffle_0_2193_0.data.1b8c66cc-b32f-46c3-9213-410972743ea4 (No space left on device)

解决方法:

修改yarn的存储路径:

YARN NodeManager Local directories

挂载到磁盘比较大的路径下:

如挂载盘在home目录下,可以使用如下路径:

bash 复制代码
/home/hadoop/yarn/local
相关推荐
山峰哥4 分钟前
SQL性能优化实战:从索引策略到查询优化案例全解析
大数据·数据库·sql·oracle·性能优化·架构
虫小宝21 分钟前
返利app排行榜系统设计:基于大数据计算的实时排名算法实现
大数据·算法
Hello.Reader1 小时前
Flink Table API & SQL Functions 函数类型划分、引用方式与解析优先级
大数据·sql·flink
啊吧怪不啊吧1 小时前
机器学习模型部署全流程实战:从训练完成到上线可用
大数据·人工智能·机器学习
Data_agent1 小时前
京东商品价格历史信息API使用指南
java·大数据·前端·数据库·python
专业机床数据采集1 小时前
西门子数控数采集变量与说明对照表
大数据·网络·cnc数据采集
老蒋新思维2 小时前
创客匠人:当知识IP遇上系统化AI,变现效率如何实现阶跃式突破?
大数据·网络·人工智能·网络协议·tcp/ip·重构·创客匠人
天远云服2 小时前
Go 语言实战:手撸 AES-128-CBC 加密,对接天远金融风控 API
大数据·服务器·网络·golang
运维行者_2 小时前
不同规模企业如何选 OPM?参考局域网管理软件与 cpu 温度监控适配指南
大数据·运维·服务器·网络·数据库·postgresql·snmp
是阿威啊2 小时前
【第六站】测试本地项目连接虚拟机上的大数据集群
大数据·linux·hive·hadoop·spark·yarn