spark临时文件较大问题处理

最近使用spark对ods明细表数据进行清洗,由于清洗的表数据量较大,加上集群只有5个节点,磁盘使用率也上去了,导致每次跑spark任务时,都会产生很多临时文件,是由于内存使用完了,就会把临时数据存到磁盘,导致磁盘使用率超过80%以上,spark任务就会报错,具体报错如下:

bash 复制代码
java.io.IOException: No space left on device
java.io.FileNotFoundException: /hadoop/yarn/local/usercache/root/appcache/application_1694660329536_0016/blockmgr-081bea52-e592-4759-8d20-023ae4d85cfa/23/shuffle_0_2193_0.data.1b8c66cc-b32f-46c3-9213-410972743ea4 (No space left on device)

解决方法:

修改yarn的存储路径:

YARN NodeManager Local directories

挂载到磁盘比较大的路径下:

如挂载盘在home目录下,可以使用如下路径:

bash 复制代码
/home/hadoop/yarn/local
相关推荐
谁似人间西林客几秒前
工业大数据:点亮汽车制造质量之路,驱动数字孪生工厂高效转型
大数据·汽车·制造
大大大大晴天️12 分钟前
Flink技术实践:RocksDB 状态后端技术解密
大数据·flink
深圳市九鼎创展科技14 分钟前
九鼎创展 X7110 开发板(JH7110):国产 RISC-V 多媒体平台全解析
大数据·linux·人工智能·嵌入式硬件·ubuntu·risc-v
跨境猫小妹19 分钟前
邮政与燃油附加同步抬升之后跨境卖家如何预留尾程成本缓冲
大数据·人工智能·产品运营·跨境电商·营销策略
跨境牛马哥23 分钟前
2026爬虫开发:Playwright对决Puppeteer
大数据·网络·网络协议
龙亘川27 分钟前
BM²T 电池管理技术深度解析:大容量储能时代的安全、精准与高效解决方案
大数据·bm²t 电池管理技术深度解析
sunshine88533 分钟前
合并报表自动化:数据治理如何助力集团企业突破成本与合规瓶颈?
大数据·数据库·人工智能
一切皆是因缘际会39 分钟前
终结拟合式智能:记忆博弈心智架构重塑硅基生命进化逻辑
大数据·人工智能·深度学习·机器学习·架构
一起聊电气40 分钟前
不止保安全!智慧用电系统解锁照明安全节能双赛道
大数据·网络·人工智能·安全·智能家居·空调
肖有米XTKF864643 分钟前
肖有米开发团队:昕之康模式系统开发-昕之康小程序制度商城
大数据·人工智能·团队开发·csdn开发云