spark临时文件较大问题处理

最近使用spark对ods明细表数据进行清洗,由于清洗的表数据量较大,加上集群只有5个节点,磁盘使用率也上去了,导致每次跑spark任务时,都会产生很多临时文件,是由于内存使用完了,就会把临时数据存到磁盘,导致磁盘使用率超过80%以上,spark任务就会报错,具体报错如下:

bash 复制代码
java.io.IOException: No space left on device
java.io.FileNotFoundException: /hadoop/yarn/local/usercache/root/appcache/application_1694660329536_0016/blockmgr-081bea52-e592-4759-8d20-023ae4d85cfa/23/shuffle_0_2193_0.data.1b8c66cc-b32f-46c3-9213-410972743ea4 (No space left on device)

解决方法:

修改yarn的存储路径:

YARN NodeManager Local directories

挂载到磁盘比较大的路径下:

如挂载盘在home目录下,可以使用如下路径:

bash 复制代码
/home/hadoop/yarn/local
相关推荐
百***2437几秒前
按技术难度选型:2026 AI大模型落地指南(低中高难度全路径)
大数据·人工智能
雨大王512几秒前
汽车制造数字大脑:驱动未来智能制造的核心引擎
大数据
Ydwlcloud2 分钟前
Gemini API 与 Vertex AI:Google Cloud 如何统一AI开发与部署的格局
大数据·服务器·人工智能·云计算·googlecloud
数字化顾问3 分钟前
(123页PPT)华为流程体系建设与运营(附下载方式)
大数据·华为
song150265372985 分钟前
专业电气设计plc仓库系统设计方案
大数据
灵活用工平台9 分钟前
灵活用工实操案例:亲测流程与复盘分享
大数据·人工智能·python·安全
晟诺数字人29 分钟前
数字人、AI数字人、虚拟数字人、3D数字人之间的区别于应用场景
大数据·人工智能·3d·数字人
木卫四科技30 分钟前
【CES 2026】木卫四科技发布R-IDPS,护航具身机器人“Chat GPT时刻”安全落地!
大数据·人工智能
TDengine (老段)1 小时前
TDengine C/C++ 连接器进阶指南
大数据·c语言·c++·人工智能·物联网·时序数据库·tdengine
檐下翻书1732 小时前
产品开发跨职能流程图在线生成工具
大数据·人工智能·架构·流程图·论文笔记